高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法(大語彙音声認識)(第6回音声言語シンポジウム)
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,トライフォン(triphone)を越える高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサ(Weighted Finite State Transducer : WFST)を効率的に生成するアルゴリズムについて述べる.音声認識用のWFSTを構築する従来の手法では,高次の音素環境依存モデルを扱う際にいくつかの問題に直面する.そして,場合によっては計算量やメモリの制約から構築そのものが不可能になることがある.本稿では,まず,従来の構築方法の非効率性について議論した後で,音声認識用WFSTの構築において必要とされる,HMM状態列を音素列へ変換するWFSTを音素決定木から直接生成する効率的なアルゴリズムを提案する.そして,そのアルゴリズムが非常に高速かつ省メモリで動作し,かつ,最終的に構築されるWFSTのサイズをも小さくすることを示す.提案手法により構築されたWFSTを,日本語話し言葉コーパスを用いて,サイズ,認識精度,認識速度の観点から評価した.そして,高次の音素環境依存モデルを組み込んだ単語内・単語間の音素環境を考慮するワンパス時間同期探索が容易に実現され,かつ,それがtriphoneの場合に比べてわずかなオーバヘッドで動作することを示す.最後に,単語内・単語間のquinphoneを適用した実時間音声認識が125MBのメモリかつ9%のサーチエラーで動作することを確認した.
- 社団法人電子情報通信学会の論文
- 2004-12-15
著者
-
シュスター マイク
日本電信電話株式会社nttコミュニケーション科学基礎研究所
-
堀 貴明
日本電信電話株式会社nttコミュニケーション科学基礎研究所
-
堀 貴明
Nttコミュニケーション科学基礎研究所
-
堀 貴明
日本電信電話(株)
関連論文
- 8-2 日本企業から米国・欧州大学への派遣体験 : 米国マサチューセッツ工科大学編/スイス連邦チューリッヒ工科大学編(8.企業からの客員研究員の海外派遣,私の国際交流の経験)
- 音声認識の応用システム : 音声ドキュメント検索・音声翻訳・音声対話の新たな展開(自動音声認識研究の動向と展望)
- 世界メディアブラウザ--音声認識と統計翻訳に基づく多言語動画コンテンツ検索/閲覧システム
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 有限状態トランスデューサによる音声認識・文整形・要約処理の統合
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (音声)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (言語理解とコミュニケーション)
- 複数音響環境の発話単位遷移モデルに基づく適応学習法の検討(認識,理解,対話,一般)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- テキスト選択に基づくタスク依存言語モデル構築の検討
- 大規模データベースを用いたタスク依存言語モデル構築の検討
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- CTI向け自由発話対応音声対話システムRexDialog
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 世界メディアブラウザ (特集 コミュニケーション科学の融合研究における新潮流)
- 3. 重み付き有限状態トランスデューサによる音声認識(音声情報処理技術の最先端)
- 確率主成分分析を用いた音声認識の日本語話し言葉コーパスにおける評価
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法(大語彙音声認識)(第6回音声言語シンポジウム)
- 混成主成分分析を用いた音声認識(ポスターセッション)
- 混合主成分分析を用いた音声認識
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法(大語彙音声認識)(第6回音声言語シンポジウム)
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法(大語彙音声認識)(第6回音声言語シンポジウム)
- 混合主成分分析を用いた音声認識(ポスターセッション)
- 混合主成分分析を用いた音声認識(ポスターセッション)
- 書き起こし想定発話の音声認識における言語モデルの検討
- 音素履歴近似とDelayed Bigramを用いた効率的探索手法の検討
- 時間非同期ビーム探索に基づく第二パスを用いた連続音声確認(音声処理技術のデモの紹介)
- 音声インタラクティブODQAの構築とその評価
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 混合主成分分析を用いた音声認識
- 混合主成分分析を用いた音声認識
- コンフュージョンネットワークを用いたオープン語彙発話検索法とその評価
- HMM状態-単語の同時確率を用いた音声言語処理のための複雑度指標
- 高次の音素環境依存モデルを統合した重み付き有限状態トランスデューサの効率的生成法
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 複数人会話シーン分析におけるマイクロホンアレイ音声処理(一般,音声・音響信号処理,音声及び一般)
- 音声認識アルゴリズムの最前線(オーガナイズドセッション:音声認識及び翻訳アルゴリズム最前線,認識,理解,対話,一般)
- クラウド時代の新しい音声研究パラダイム
- Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別 (音声)
- 複数人会話シーン分析の研究と今後の展望(オーガナイズドセッション:マルチモーダル情報によるコミュニケーション環境理解,認識,理解,対話,一般)
- Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別(高精度音声認識,認識,理解,対話,一般)
- 「音声認識」は今後こうなる!
- Deep Learningに基づく音声特徴量の有限状態トランスデューサ型識別モデルによる識別