フレーム間相関を利用した音韻 HMM による音声認識
スポンサーリンク
概要
- 論文の詳細を見る
現在のHMMの問題点の一つに,出客確率分布が各状態内で常に一定で,音韻特徴量の遷移情報がモデルの仕組みの中に反映されていないという点が挙げられる.しかも,特徴ベクトルの遷移に制約がないので,互いに出力確率が特徴ベクトル間の遷移は,学習データ中に観測されなかった遷移でも高い出力確率が与えられている.本論文では,特徴ベクトルの2フレーム間の相関を用いて遷移を制約し,不特定話者用HMMの広がった特徴量分布を,入力話者に適した範囲に制約するBigram制約HMMを提案する.Bigram制約HMMの出力確率は,前時刻の特徴ベクルトルの条件付き確率で表現されるので,出力確率分布は各時刻で動的に変化する.また,分布を制約することにより,異なる音韻間の特徴量分布の重なりが減少し,認識率を向上することができる.我々は既に,離散型不特定話者用HMMをもとに,VQコードのBigramを用いて遷移を制約する離散型Bigram制約HMMを提案し,従来のHMMよりも性能が良いことを示した.本論文では,更に高い認識性能を得るために,この手法を半連続型Bigram制約HMM,連続型Bigram制約HMMに拡張した.連続音声中の音韻認識によって評価した結果,入力話者の音声のフレーム間相関情報を用した場合,半連続型Bigram制約HMMによって平均音韻認識率を65.4%から74.8%に,連続型Bigram制約HMMによって64.8%から74.5%に改善することができた.また,多数話者から抽出した一般的なフレーム間相関情報を用いた場合,連続型Bigram制約HMMによって64.8%から67.5%に改善することができた.
- 社団法人電子情報通信学会の論文
- 1994-02-25
著者
-
南 泰浩
NTTヒューマンインタフェース研究所
-
松岡 達雄
Nttマルチメディアビジネス開発部
-
松岡 達雄
Ntt
-
南 泰浩
Ntt
-
松岡 達雄
NTTヒューマンインタフェース研究所
-
鹿野 清宏
NTTヒューマンインタフェース研究所
-
高橋 敏
NTTヒューマンインタフェース研究所
-
高橋 敏
日本電信電話株式会社nttサイバースペース研究所
関連論文
- 最尤推定法を用いたHMM適応化法
- 1991年音響・音声・信号処理国際会議(ICASSP91)報告
- 8)話者認識技術の実用化に向けて(マルチメディア情報処理研究会)
- 話者認識技術の実用化に向けて
- ゆう度最大化による雑音とひずみへのHMM適応化法
- 自由発声中の連続数字音声認識
- 連続音声認識のためのネットワーク構造を用いた効率的探索手法
- パワーの分散を考慮した拡張HMM合成法
- 雑音と歪みを含んだ音声へのHMM適応化手法の評価
- HMM合成に基づく尤度最大化適応法
- 尤度最大化原理によるHMM適応化法
- 音韻ラベルを用いない HMM 評価法とそれを用いた連続音声認識用 HMM の評価
- 番号案内を対象とした大語い連続音声認識アルゴリズム
- フレーム間相関を利用した音韻 HMM による音声認識
- 電話番号案内を対象としたマルチモーダル対話システムの作成と音声入力の評価
- 音声認識の言語処理技術 (音声認識の最新技術)
- 音声認識の音響処理技術 (音声認識の最新技術)
- 音声デザインツールSesign
- ハイブリッドスケーラブル型音声合成方式
- 実対話音声を用いた有限状態トフンスデューサ型認識デコーダの評価
- 大語彙連続音声認識におけるビームサーチ性能向上のための言語モデル同期化法
- 有限状態変換器で定義される任意の音声認識タスクのための時間同期ビタービデコーダ
- 単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定(認識,理解,対話,一般)
- 単語音声認識における音素信頼度ゆう度を用いた未知語のリジェクション
- 話者照合機能を備えた音声秘書システム
- 音素信頼度尤度を用いたリジェクションの高精度化
- 公衆電話音声に対する音声認識性能評価
- 対立音素間の尤度差に基づく信頼度尺度によるリジェクション
- 対立音素間の尤度差に基づく信頼度尺度によるリジェクション
- 対立音素間の尤度差に基づく信頼度尺度によるリジェクション
- 語学訓練のためのHMM音声認識を用いた発声評価尺度
- 部分的尤度分布の差に着目した未知語のリジェクション
- VQコードのBigramで制約した音韻HMMによる音声認識
- 学習用テキストからの認識探索空間作成能力の評価
- 音節連鎖統計情報のタスク適応化
- Top-Down音韻認識とBottom-Up音韻認識を融合した音声認識
- Top-down音韻認識とBottom-up音韻認識を融合した音声認識 (音声認識)
- 学習移動ベクトルの相関関係を用いた音響モデルの話者適応化
- 4階層共有構造の音響モデルによる音声認識
- 音声認識エンジンREXの開発
- 音声認識における仮名・漢字文字連鎖確率に基づく統計的言語モデルの利用
- N-bestに基づく話者適応化法の検討
- N-bestに基づく教師なし話者適応化法
- 連続数字音声認識における音響モデル学習法の検討
- 連続数字音声における音響モデル学習法の検討
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 雑音適応におけるTaylor展開の2次微分項の導入による効果
- 離散混合分布型HMMにおける量子化方法の検討
- Jacobian適応法による雑音適応の性能評価
- Jacobi行列を用いた音響モデルの適応アルゴリズム
- 音声認識のための音響モデルの構造
- Taylor展開による音響モデルの適応
- Taylor展開による音響モデルの適応
- Taylor展開に基づく高速な音響モデル適応法
- スペクトルサブトラクションとNOVO合成を用いた雑音下音声認識
- N-best候補を用いた話題抽出の検討
- ニュース音声を対象とした連続音声認識に基づく話題抽出
- ニュース音声を対象とした大語彙連続音声認識と話題抽出
- ニュース音声を対象とした大語彙連続音声認識
- 高次n-gramを用いた大語彙連続音声認識の検討
- 新聞記事データベースを用いた大語い連続音声認識
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 統計的翻訳言語モデルを用いた音声理解
- 単語trigramを用いた大語彙連続音声認識
- 統計的翻訳言語モデルを用いた音声理解
- 単語trigramを用いた大語彙連続音声認識
- 音声理解のための言語モデル自動獲得
- 新聞記事読み上げタスクを用いた大語彙連続音声認識における音響モデルの検討
- 新聞読み上げタスクを用いた大語彙連続音声認識における言語モデルの検討
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 新聞記事を用いた大語彙連続音声認識の検討
- 音声研究会報告 : 解説と展望
- 大語彙日本語連続音声認識研究基盤の整備 : 汎用音素モデルの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
- 新聞記事を用いた大語彙連続音声認識の検討
- 音声理解のための言語モデル自動獲得の検討
- マルコフモデルによる文仮説の再編成
- IVTTA94会議報告
- 不特定話者認識
- 大語彙連続音勢認識研究用日本語コーパス : JNAS
- 大語彙連続音声認識のための読み上げ文コーパスの構築
- 大語彙連続音声認識のための読み上げ文の選択
- 大語彙連続音声認識研究のためのテキストデータ処理
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- 大語彙連続音声認識研究のためのテキストデータ整備
- スペクトルの動的および静的特徴量を用いた言語音声の検出
- マイクロホンアレーを用いた音声認識収音系の基礎検討
- スカラー量子化による4階層共有構造HMMの高速計算
- 離散混合出力分布型HMM
- NOVO合成法を用いたBarge-in音声の認識
- 学習移動ベクトル間の相関によりtyingした音響モデルの共有構造
- 4階層共有構造音素モデルにおける分散値共有化の効果
- 学習移動ベクトル間に相関を持つ音響モデルの共有構造
- 4階層共有構造の音素HMM
- 4階層共有構造の音素HMM
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- HMMによる音声認識 : モデルの表現能力と頑健性
- 初期語彙発達の急増期における統計的性質と特徴量抽出(言語と学習・場の供創・意味の創発)