認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識
スポンサーリンク
概要
- 論文の詳細を見る
多段階探索による大語彙(い)連続音声認識の1方法を提案する.提案法は2段階で構成される.第1段階は音響モデルに基づいて入力音声から基本単位の最ゆう系列を復号する.第2段階は第1段階の復号出力において単語の最ゆう系列を探索し, 認識結果とする.新奇な点は探索の第2段階で用いる差分モデルである.差分モデルは統計モデルとして実現され, 学習データの基本単位認識結果からパラメータが推定される.差分モデルによって第1段階で生ずる復元誤りに対処して, 正解単語列を探索することが可能となる.第1段階はトライホンモデルを用いた1パスDPアルゴリズムで実現される.第2段階は差分モデルとNグラム言語モデルを用いた最良優先探索アルゴリズムで実現される.提案法を新聞記事の読上げ音声を用いて評価した.その結果, 音節を基本単位としたNベスト音節列と語彙数約6万5千のトライグラム言語モデルを用いたとき, テストセットパープレキシティ123, 未知語率0.5%の評価データに対して単語誤り率6.7%(文字単位の誤り率4.8%)が得られた.
- 社団法人電子情報通信学会の論文
- 2000-12-25
著者
-
阿部 芳春
三菱電機・情報総研
-
中島 邦男
三菱電機株式会社情報技術総合研究所:(現)横浜国立大学産学連携推進本部
-
中島 邦男
三菱電機株式会社情報技術総合研究所
-
阿部 芳春
三菱電機株式会社 情報技術総合研究所
-
伍井 啓恭
三菱電機株式会社情報技術総合研究所
-
丸田 裕三
三菱電機株式会社情報技術総合研究所
-
丸田 裕三
三菱電機株式会社情報技術総合研究所:(現)三菱電機株式会社自動車機器開発センター
-
伍井 啓恭
三菱電機(株)情報技術総合研究所
関連論文
- D-14-10 音声認識におけるリジェクトのためのスコア正規化方法の検討(D-14. 音声・聴覚)
- D-14-16 音素脱落を許す単語モデルを用いた日本人英語の認識
- VQ写像を用いた2入力SSによる非定常騒音下の音声認識
- 日本人英語認識におけるマルチ単語モデルの改良
- 複数単語モデルによる日本人英語音声認識の検討
- 日本人英語の発話様態を考慮した英語音声連続認識の検討
- 発声変形モデルを用いた騒音環境下音声認識
- HMMと一般化LR構文解析を用いた実時間大語彙連続音声認識装置の実現
- 日本人英語認識における単語モデル構成法の検討
- 日本人英語音声認識における音響モデルの検討
- 日本人発声者による英語音声の認識
- 重畳雑音のパタン選択とパワー推定を用いた騒音下音声認識手法の改良
- 雑音標準パタンを用いた非定常騒音下音声認識の検討
- 低ビットレ-ト音声符号化技術 (ディジタル自動車電話) -- (ディジタル自動車電話を支える技術)
- 電話の相手はコンピュータ? : 電話系音声認識とその応用
- 統計的言語特徴を利用したテキスト音声合成の韻律制御
- 韻律を考慮した音声素片を用いる日本語テキスト音声合成
- 対話文脈を利用した概念素に基づく音声理解
- 住所認識のためのメモリ管理方式の検討
- ワードスポッティングと動的計画法を用いたテレビ番組に対する字幕提示タイミング検出法
- D-14-13 学習データ量の年代別偏りを考慮した音響モデル構築方式の検討(D-14. 音声・聴覚)
- D-14-12 車室内で発生する規則性非定常騒音下での音声認識
- VQ写像を用いた2入力SSによる非定常騒音下音声認識の検討 - 自動車内走行騒音への適用 -
- D-14-21 音声認識における特徴ベクトルの補間及びフレーム間引き手法の検討
- 大語彙音声認識における言い換え表現の自動生成方式
- 16ビットマイコン用不特定話者音声認識ミドルウェアの検討
- D-14-10 N-gram言語モデルを用いた音声対話システムにおける冗長語処理の検討
- SD-3-3 N-gramモデルを用いた音声対話システムのための音声認識の検討
- D-14-20 音声対話システムにおける少量テキストを用いた言語モデルのタスク適応に関する検討
- 自由発話音声認識のためのトライ音節モデルの検討
- 音声対話システムにおける教師なし話者適応の検討
- 音声対話システムにおける湧き出し誤りのリジェクト方式の検討
- 認識結果の信頼度を考慮した教師無し話者適応方式の検討
- 少数話者音声データによる不特定話者モデルのタスク適応
- 位取り用語を含んだ連続数字音声認識の検討
- 大語彙連続音声認識のための複数言語モデルの並列同時単語列探索法(音声言語)(次世代移動体通信システム)
- 話題混合言語モデル構築のための単語連鎖統計量を用いたコーパス分類尺度
- 単語とサブワードの統計量を用いた言語モデル構築手法の一検討
- 混合言語モデルのためのコーパスの記事単位クラスタリング
- 音節認識結果における誤り傾向を考慮した未知語学習の評価
- D-14-9 スムージングを考慮したMDI法の一検討
- D-14-7 符号化データを用いた音声認識方式の検討
- 混合言語モデルのための並行単語列検索
- クラス情報を用いた単語トライグラム言語モデルの一検討
- 分野外の統計量を用いた言語モデルの一検討
- 混合言語モデル作成のためのコーパスのクラスタ分割の検討
- 住所認識のための部分辞書選択法の検討
- 高背景音放送音声を対象とする字幕・音声自動同期の検討
- 放送音声に対する字幕放出タイミング検出手法の検討
- ドキュメンタリー番組における字幕送出タイミング検出の一検討
- ニュース字幕の提示タイミングずれに対する許容特性
- A-14-22 字幕提示タイミングずれに対する許容の主観評価
- 字幕送出タイミング検出におけるワード列ペアモデルの構成検討
- ワード列ペアモデルによる字幕送出タイミング検出の検討
- 字幕・音声同期におけるワード列ペアモデルのスポッティング精度改良
- ニュース音声データベース構築における文セットの設計
- スペクトル減算と振幅抑圧の相互制御に基づく雑音抑圧法の検討(音声,聴覚)
- 日本語規則合成のための2モーラを単位とする音韻継続時間長規則
- 韻律を考慮した音声素片を用いる規則合成
- ピッチパタンの統計モデルに基づく句境界情報を利用した文節スポッティング
- 単語リジェクト方式のキーワードスポッティングによる評価
- 認識誤り傾向の確率モデルを用いた2段階探索法による大語彙連続音声認識
- ローカルな発話速度が音節認識性能に与える影響について
- クラスタリング情報を用いた未知バイグラム確率推定の一検討
- トピック分割による統計量を用いた言語モデルの一検討
- 大語彙連続音声認識のための音節認識における声道・音源特徴併用の検討
- 音節認識結果における誤り傾向を考慮した未知語学習の一方式
- 手動および自動クラスタリングによる言語モデルの比較
- 二段階探索法による連続音声認識におけるNベスト音節認識結果使用の検討
- 認識誤り傾向の確率モデルを用いた二段階探索法による大語彙連続音声認識
- 少量コーパスにおけるクラス言語モデルの一検討
- 最大分岐密度選択法の音声認識への適用
- 文字連鎖統計量を用いた未知語モデルによる単語推定
- 予備選択における性能向上の一検討
- 1段目の最適解と正解との差分傾向を考慮した2段階探索法
- 15-8 聴覚障害者のための字幕つきテレビ放送制作への自然言語処理の応用
- ユーザの行動目標に基づく対話管理手法
- 音声認識における継続時間長制御の高精度化の検討
- データベース検索のための大語彙音声認識方式の検討
- 種々の統計量を用いた単語リジェクト方式の検討
- 文節スポッティングにおけるスポッティング精度改善のための諸検討
- 文節スポッティングにおける未知語検出方式の改良
- 自由発話音声における音韻の変形傾向を考慮した音響モデル構成法の検討
- 文節スポッティングにおける未知語処理方式の検討
- 意味主導型音声理解システムのための文節スポッティングの改良
- 住所認識のための辞書分割法の検討
- 概念素理解方式の一般化とタスク知識の適用手法
- 概念素に基づく意味理解における言語知識の詳細化
- 概念素に基づく意味理解の文の表現性の拡張
- 概念素に基づく意味理解における音声認識への統合手法
- 概念素探索法における概念素仮説からの文意統合方式
- 複数条件学習による騒音・音楽環境下音声認識の検討
- テキスト音声認識におけるインクリメンタル適応型ビームサーチの検討
- 姓名認識のための音節ネットワーク構成法の検討
- 音響形態素を単位としたテキスト音声認識の検討
- 音節グラフの文脈自由構文解析におけるA^*探索の検討
- 分野非限定の大語い連続音声認識における音響言語探索手法の検討
- 分野非限定の大語い連続音声認識における音響言語結合方式の検討
- 線形音素文脈モデルを用いた音声認識方法 (新しい音声処理技術特集)
- 音響的先読みによる仮説棄却取り消しの一検討