VQコードのBigramで制約した音韻HMMによる音声認識
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,VQコードの局所的な遷移を制約することにより,不特定話者用音韻HMMの音韻特徴量分布を,入力話者に適した範囲に制約するBigram制約HMMを提案する.本モデルにより,異なる音韻間の特徴量分布の重なりが減少し,認識性能を向上することができる.Bigram制約HMMは,VQコードのBigramと不特定話者用HMMを合成することにより生成され,出力シンボル確率は,前時刻のVQコードの条件付き確率で表現される.従って,出力シンボル確率分布は,HMMの同じ状態内であっても前時刻のVQコードの種類によって動的に変化する.本モデルはBigramを作成する音声データによって2種類考えられる.一つは,Bigramを入力話者の音声から求められる入力話者用Bigram制約HMMで,もう一つは,Bigramを多数話者の音声から求める不特定話者用Bigram制約HMMである.学習話者16名,評価話者4名が発声した5,240単語を用いて18子音の不特定話者音韻認識実験を行った.その結果,従来の不特定話者用HMMでは,平均音韻認識率が70.8%であったが,入力話者用Bigram制約HMMにより78.6%に,不特定話者用Bigram制約HMMにより76.3%に改善することができた.
- 社団法人電子情報通信学会の論文
- 1993-07-25
著者
-
松岡 達雄
Ntt
-
松岡 達雄
NTTヒューマンインタフェース研究所
-
鹿野 清宏
NTTヒューマンインタフェース研究所
-
高橋 敏
NTTヒューマンインタフェース研究所
-
高橋 敏
日本電信電話株式会社nttサイバースペース研究所
関連論文
- 自由発声中の連続数字音声認識
- 音韻ラベルを用いない HMM 評価法とそれを用いた連続音声認識用 HMM の評価
- 番号案内を対象とした大語い連続音声認識アルゴリズム
- フレーム間相関を利用した音韻 HMM による音声認識
- 電話番号案内を対象としたマルチモーダル対話システムの作成と音声入力の評価
- 音声認識の言語処理技術 (音声認識の最新技術)
- 音声認識の音響処理技術 (音声認識の最新技術)
- 音声デザインツールSesign
- ハイブリッドスケーラブル型音声合成方式
- 実対話音声を用いた有限状態トフンスデューサ型認識デコーダの評価
- 単語の文脈一貫性と音響尤度を用いた音声ドキュメント認識信頼度の推定(認識,理解,対話,一般)
- 単語音声認識における音素信頼度ゆう度を用いた未知語のリジェクション
- 話者照合機能を備えた音声秘書システム
- 音素信頼度尤度を用いたリジェクションの高精度化
- 公衆電話音声に対する音声認識性能評価
- 対立音素間の尤度差に基づく信頼度尺度によるリジェクション
- 対立音素間の尤度差に基づく信頼度尺度によるリジェクション
- 対立音素間の尤度差に基づく信頼度尺度によるリジェクション
- 語学訓練のためのHMM音声認識を用いた発声評価尺度
- 部分的尤度分布の差に着目した未知語のリジェクション
- VQコードのBigramで制約した音韻HMMによる音声認識
- 学習用テキストからの認識探索空間作成能力の評価
- 音節連鎖統計情報のタスク適応化
- Top-Down音韻認識とBottom-Up音韻認識を融合した音声認識
- Top-down音韻認識とBottom-up音韻認識を融合した音声認識 (音声認識)
- コンタクトセンタ向け音声処理技術の展開 (特集 コンタクトセンタ業務に革新をもたらす音声処理技術)
- 学習移動ベクトルの相関関係を用いた音響モデルの話者適応化
- 4階層共有構造の音響モデルによる音声認識
- 音声認識エンジンREXの開発
- 音声認識における仮名・漢字文字連鎖確率に基づく統計的言語モデルの利用
- N-bestに基づく話者適応化法の検討
- N-bestに基づく教師なし話者適応化法
- 連続数字音声認識における音響モデル学習法の検討
- 連続数字音声における音響モデル学習法の検討
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 雑音適応におけるTaylor展開の2次微分項の導入による効果
- 離散混合分布型HMMにおける量子化方法の検討
- Jacobian適応法による雑音適応の性能評価
- Jacobi行列を用いた音響モデルの適応アルゴリズム
- 音声認識のための音響モデルの構造
- Taylor展開による音響モデルの適応
- Taylor展開による音響モデルの適応
- Taylor展開に基づく高速な音響モデル適応法
- スペクトルサブトラクションとNOVO合成を用いた雑音下音声認識
- N-best候補を用いた話題抽出の検討
- ニュース音声を対象とした連続音声認識に基づく話題抽出
- ニュース音声を対象とした大語彙連続音声認識と話題抽出
- ニュース音声を対象とした大語彙連続音声認識
- 高次n-gramを用いた大語彙連続音声認識の検討
- 新聞記事データベースを用いた大語い連続音声認識
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 統計的翻訳言語モデルを用いた音声理解
- 単語trigramを用いた大語彙連続音声認識
- 統計的翻訳言語モデルを用いた音声理解
- 単語trigramを用いた大語彙連続音声認識
- 音声理解のための言語モデル自動獲得
- 新聞記事読み上げタスクを用いた大語彙連続音声認識における音響モデルの検討
- 新聞読み上げタスクを用いた大語彙連続音声認識における言語モデルの検討
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 新聞記事を用いた大語彙連続音声認識の検討
- 音声研究会報告 : 解説と展望
- 大語彙日本語連続音声認識研究基盤の整備 : 汎用音素モデルの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
- 音声認識における新しい高速化
- 新聞記事を用いた大語彙連続音声認識の検討
- 音声理解のための言語モデル自動獲得の検討
- マルコフモデルによる文仮説の再編成
- IVTTA94会議報告
- 不特定話者認識
- 大語彙連続音勢認識研究用日本語コーパス : JNAS
- 大語彙連続音声認識のための読み上げ文コーパスの構築
- 大語彙連続音声認識のための読み上げ文の選択
- 大語彙連続音声認識研究のためのテキストデータ処理
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- 大語彙連続音声認識研究のためのテキストデータ整備
- スペクトルの動的および静的特徴量を用いた言語音声の検出
- マイクロホンアレーを用いた音声認識収音系の基礎検討
- スカラー量子化による4階層共有構造HMMの高速計算
- 離散混合出力分布型HMM
- NOVO合成法を用いたBarge-in音声の認識
- 学習移動ベクトル間の相関によりtyingした音響モデルの共有構造
- 4階層共有構造音素モデルにおける分散値共有化の効果
- 典型的な応対フレーズ検出に基づく高精度用件フェーズ抽出手法(音声・音響一般,一般,オーガナイズドセッション(雑音を消せ!騒音下で有効な音声信号処理とは))
- 学習移動ベクトル間に相関を持つ音響モデルの共有構造
- 音声認識の音響モデルにおける高精度,高効率モデル化方式 (インタラクティブな音声インタフェ-スの実現を目指して)
- 4階層共有構造の音素HMM
- 4階層共有構造の音素HMM
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- HMMによる音声認識 : モデルの表現能力と頑健性