音響モデルの構造決定のための統一的な枠組 : 最尤推定による逐次状態分割法と質問に基づく決定木生成法
スポンサーリンク
概要
- 論文の詳細を見る
現在のところ、殆どの大語彙音声認識システムで各状態を共有化した、音素環境依存の音響HMMが用いられている。一般に、そのHMMの構造(状態の共有化など)は決定木を用い、音素環境による状態レベルでのクラスタリングを通して学習する。本報告では、HMMの構造を学習するための二つの分割アルゴリズム、音素決定木(Phonetic Decision Trees;PDT)と尤度最大化基準による逐次状態分割(Maximum Likelihood Successive State Splitting;ML-sss)について検討を行なう。二つのアルゴリズムの主な違いは、ML-SSSでは全ての音素の組合せを許すのに対し、PDTでは予めヒューリスティックに定めた音韻学上の知識に基づいて、音素の組合せ方が制限される点である。本報告では、両者は本質的に同じアルゴリズムと見なせることを示す。また、自然発話の日本語の音声認識実験を通して、PDTとML-SSSを組み合わせて用いると、それぞれを単独で用いた場合と比較して、高い認識性能が得られることを示す。さらに、ML-SSSにおいて問題となる、学習データには含まれない未知の音素環境に対処するために、分割履歴バックオフ(Split History Backoff)のアルゴリズムを提案する。
- 社団法人電子情報通信学会の論文
- 1999-06-18
著者
-
シンガー ハラルド
ATR Interpreting Telephony Research Laboratories
-
シンガー ハラルド
ATR音声翻訳通信研究所
-
ハラルド シンガー
Atr音声翻訳通信研究所
-
シンガー ハラルド
奈良先端科学技術大学院大学
-
Singer H
Atr Interpreting Telephony Research Lab.
関連論文
- ピッチ周波数依存音素モデルによるHMM音声認識
- 隠れマルコフ網と一般化LR構文解析を統合した連続音声認識
- 3)ピッチとスペクトルの相関を用いたHMM音素認識(視聴覚技術研究会)
- ピッチとスペクトルの相関を用いたHMM音素認識
- 音素環境依存LRテーブル作成法とその連続音声認識システムへの応用
- 対話音声を対象とした連続音声認識システムの試作と評価
- 旅行会話タスクにおけるTARSPRECの性能評価
- 携帯電話型音声翻訳システムATR-MATRIX
- クライアント・サーバ型ATR-MATRIX
- 日英音声翻訳システムATR-MATRIXにおける音声認識用音響・言語モデル
- MCE/GPDを用いた自然発話音声認識における不特定話者音響モデルの改善
- クライアント・サーバ型 ATR-MATRIX
- 4E-7 ATR-MATRIX:日英双方向音声翻訳システム
- 音素履歴木を用いたフレーム同期型SSS-LR文音声認識
- 地域や年齢的な広がりを考慮した大規模な日本語音声データベース
- 言語情報を用いた教師なしのQuasi-Bayesオンライン話者適応
- ICASSP'93
- 大規模な日本語音声データによる音響モデルの分析
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- 話者正規化スペクトルサブバンドパラメータを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- スペクトルサブバンドセントロイドを用いた雑音下での音声認識
- ACOUSTIC MODELS FOR SPEECH RECOGNITION : A SURVEY
- SCALAR QUANTIZATION OF CEPSTRAL PARAMETERS FOR LOW BANDWIDTH CLIENT-SERVER SPEECH RECOGNITION SYSTEMS
- 早いTIED-MIXTURE逐次状態分割法アルゴリズム
- TIED MIXTURE HMMを用いた尤度最大基準に基づく遂次状態分割法アルゴリズム
- 複数音素にわたるHMMの誤認識特性を用いた語彙候補の追加
- 母音および無音のHMMを用いた音声始端検出法
- 音響モデルの構造決定のための統一的な枠組 : 最尤推定による逐次状態分割法と質問に基づく決定木生成法
- PARALLEL JAPANESE/ENGLISH SPEECH RECOGNITION IN ATRSPREC
- DISTANCE-RELATED UNIT ASSOCIATION MAXIMUM ENTROPY LANGUAGE MODELING
- 日英音声翻訳システム「ATR-MATRIX」における音声認識部分の構造と制御方法
- 複数音素にまたがる誤認識特性を用いた音素候補系列追加モデル
- ML-SSSに基づく自然発話音声のための音響モデル作成
- 尤度最大基準に基づく逐次状態分割法
- F_0生成モデルを用いたテンプレートに基づく連続音声の句境界検出
- F_0生成モデルに基づくアクセントテンプレートの連続整合による句境界検出
- 韻律モデルを用いたF_Oクラスタリングに基づくアクセント句境界検出
- 韻律モデルを用いたF_0クラスタリングに基づくアクセント句境界検出