新聞記事データベースを用いた大語い連続音声認識
スポンサーリンク
概要
- 論文の詳細を見る
近年,大語い連続音声認識の研究がアメリカ英語,イギリス英語,フランス語,ドイツ語,イタリア語などを対象に新聞記事を用いて盛んに行われている.しかしながら,日本語を対象とした,これに類する研究については報告がない.これは,主に,日本語が単語間にスペースなどのデリミタをおくことなく書かれるため,大語い連続音声認識において重要な役割を果たす単語N-gramなどの言語モデルの導入が容易でないためと考えられる.我々は,日本語新聞記事を対象として大語い連続音声認識の研究を進めている.単語N-gramを言語モデルとして用いるため,テキストを形態素解析することにより形態素(単語)にセグメンテーションした.形態素を単語と定義し,約5年分の新聞記事を用いて単語N-gram言語モデルを推定した.認識システムを評価するため,音声データベースを設計し,54名の話者の各100文ずつの音声データを収録した.この音声データベースの最初の10名の音声を用いて大語い連続音声認識の実験を行った.7 kの語いサイズに対して,no-grammar言語モデル,音素文脈独立音響モデルを用いた場合には単語誤り率が82.8%であった.単語bigram言語モデルと音素文脈依存音響モデルを用いることにより単語誤り率が20.0%に改善された.
- 社団法人電子情報通信学会の論文
- 1996-12-25
著者
-
古井 貞煕
Nttヒューマンインタフェース研究所
-
白井 克彦
早稲田大学
-
松岡 達雄
Nttマルチメディアビジネス開発部
-
松岡 達雄
Ntt
-
松岡 達雄
NTTヒューマンインタフェース研究所
-
大附 克年
早大・理工
-
大附 克年
早稲田大学
-
森 岳至
東京工業大学
-
森 岳至
東工大
-
大附 克年
マイクロソフトディベロップメント株式会社
関連論文
- 正弦波トラジェクトリに基づく楽器音中の音声強調
- いま, 音響学がおもしろい
- 1983年IEEE音響・音声・信号処理国際会議 : ICASSP83
- 2. 各分野における技術の変遷 : 2-7 音声認識(あの技術は今… : 技術の変遷と21世紀への展望)
- 声の個人性の話 (<小特集>声質:音声言語の多様性に迫る)
- 最尤推定法を用いたHMM適応化法
- 1994 ARPA Human Language Technology Workshop参加報告
- 4-4 話者認識(4.応用技術)(最近の音声処理技術)
- 音声認識における話者適応化技術
- 話者照合におけるモデルとしきい値の更新法
- 4)話者認識研究の現状と展望([マルチメディア情報処理研究会 ネットワーク映像メディア研究会]合同)
- テキスト指定型話者認識
- 合成HMMによる環境適応型話者認識法
- 音韻・話者独立モデルによる話者照合尤度の正規化
- VQ ひずみ,離散/連続 HMM によるテキスト独立形話者認識法の比較検討
- 音源・声道特徴を用いたテキスト独立形話者認識
- 1990年音声言語処理国際会議
- J-028 音声対話システム利用時における感情表出誘因性に関する考察(ヒューマンコミュニケーション&インタラクション,一般論文)
- 検索語の共起情報を利用した単語クラスタリングとWeb検索への応用
- 検索語の共起情報を利用した単語クラスタリングとWeb検索への応用(QA・Web検索)
- 係り受け解析のための辞書の構成とその学習機能
- 多次元心的状態を扱う音声対話システムの構築
- 音声対話システム汎用プラットホームにおける行動管理部の構築
- 音声対話システム汎用プラットフォームの検討
- 人間型ロボットの対話インタフェースにおける発話交替時の非言語情報の制御 (ヒューマンインタフェースとインタラクション)
- 人間型対話インタフェースにおけるまばたき制御の検討
- 人間とロボットのコミュニケーションにおける非言語情報の利用
- 雑音と歪みを含んだ音声へのHMM適応化手法の評価
- A-4-23 「通る」歌声の分析(A-4.信号処理,一般セッション)
- A-10-2 べき級数展開によるフォルマント表現(A-10.応用音響,一般セッション)
- A-10-7 べき級数展開によるスペクトル予測推定(A-10. 応用音響,一般セッション)
- サブバンド信号振幅変化に着目した音源分離(音声合成・分析)
- 新しい字幕制作実用化モデルシステムの設計・開発(デジタル放送技術, デジタル設備および一般)
- 多様な字幕表示形式を選択可能な字幕放送受信システム
- 9-8 字幕番組制作技術の研究開発フェーズ2における計画の概要
- 17-6 オフライン自動字幕番組制作システムの評価
- 8-5 字幕番組データを自動制作する新しい字幕制作システムの開発
- 聴覚障害者向けニュースの字幕提示方法に関する主観評価(人間の視覚・聴覚情報)
- 8-1 聴覚障害者のための字幕放送制作技術の研究状況 (第四報)
- 多様な提示法の字幕番組評価実験結果と実験用字幕番組の制作概要(人間とマルチメディア及び一般)
- 多様な提示法の字幕番組評価実験結果と実験用字幕番組の制作概要
- 8-3 聴覚障害者のための字幕放送制作技術の研究状況 (第三報)
- 多様な提示方法の実験字幕番組の自動制作手法と字幕評価実験概要 : 聴覚障害者向け自動字幕制作システムの研究開発
- E-073 適応的言語処理を用いた音声認識利用による楽曲検索システムの検討(E分野:自然言語・音声・音楽)
- 中国語読解支援システムCHIDAOの設計
- 人間形会話ロボット : パラ言語の生成・理解機能を持つマルチモーダルインタフェース
- D-14-14 品詞情報を用いた操作要求発話判別(D-14. 音声,一般セッション)
- D-5-7 相手にあわせた発話調整機能のための言語情報からのユーザモデル生成手法の検討(D-5. 言語理解とコミュニケーション,一般セッション)
- D-5-6 再利用可能情報収集のための構造化データベースの提案(D-5. 言語理解とコミュニケーション,一般セッション)
- ユーザの発話を利用した聞き取りやすい英語への音声変換手法 (言語理解とコミュニケーション)
- D-14-11 韻律条件付言語モデルを用いた音声認識のリスコアリング(D-14. 音声,一般セッション)
- D-14-2 文頭・文末の音韻情報を加味した単文に有効な言語識別手法(D-14. 音声,一般セッション)
- D-14-1 対話支援システムのための雑談判別(D-14. 音声,一般セッション)
- 音声対話システムにおける発話意図推定
- ユーザの嗜好に適応させた選曲システムの提案
- D-14-3 質問者の発話による発表スライド特定提示法(D-14.音声,一般セッション)
- A-15-24 PC操作情報とソーシャルタグに基づいた楽曲推薦手法(A-15.ヒューマン情報処理,一般セッション)
- サブバンド信号振幅変化に着目した音源分離(音声合成・分析)
- 情報系学長,おおいに語る
- 4)話者認識研究の現状と展望([マルチメディア情報処理研究会 ネットワーク映像メディア研究会]合同)
- 話者照合におけるモデルとしきい値の更新法
- AMとFMの長時間分析に基づく音声認識
- 狭帯域解析信号と非線形識別分析を用いた音声認識(認識,理解,対話,一般)
- 可変長セグメントパタンマッチングに基づく楽音の音高・楽器推定
- 音声・楽器音・歌声が混在した音響信号中の音カテゴリ検出
- 母音および摩擦音発生時の発声器官の運動推定(2部 ヒトの機能と特性)
- 箏曲異種楽譜の比較による歌の旋律分析
- 3G-5 箏曲の声楽部における旋律の分析
- マルチモーダル入力環境下における音声の協調的利用 : 音声作図システムS-tgifの設計と評価
- 音声認識技術を利用した日本語発音学習システム
- マルチメディアインタフェースにおける音声対話
- 音声・マウス・キーボードを併用した作図システムS-tgifとその評価
- 音声・マウス・キーボードを用いたマルチモーダル作図システム
- ロボットの知能(これからのロボットと社会的インパクト)
- 音声母音スペクトルのべき級数展開とその零点分布(研究速報)
- 箏曲の歌における旋律とリズムの知識表現
- 箏曲の歌の旋律型とリズム型
- 筝曲の歌の旋律型とリズム型
- 楽譜情報に基づいた箏曲の音律と音階の分析
- 箏曲の歌におけるメリスマの表現
- 箏曲における歌の音階に関する考察
- 予測や予備運動が指運動の反応時間に与える影響
- 情報理論に基づく遮音性能評価の基礎的検討
- 1N-8 共起情報を用いた同表記異義の処理
- 音声認識のためのN-bestに基づく話者適応化
- 識別誤り最小化による話者適応化法の検討
- Sinusoidal trajectoryを利用した音楽中の音声検出法
- 音声・楽器音・歌声が重畳した音響信号中のカテゴリ識別
- 音声・楽器音・歌声が重畳した音響信号中のカテゴリ識別
- HMMを用いた音声・音楽識別(信号処理・符号化・一般)
- HMMを用いた音声・音楽識別(信号処理・符号化・一般)
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 音声情報処理とヒューマンインタフェース (学会誌50巻を迎えて)
- 音声の個人性情報と話者認識
- 新聞記事データベースを用いた大語い連続音声認識
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 統計的翻訳言語モデルを用いた音声理解
- 単語trigramを用いた大語彙連続音声認識
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 音声理解のための言語モデル自動獲得の検討