連続数字音声認識における音響モデル学習法の検討
スポンサーリンク
概要
- 論文の詳細を見る
連続数字音声認識は音声ダイアル、データ入力、クレジットカード番号/暗証番号照合など、さまざまな応用の考えられる技術である。しかし、実際の応用においては、通常、任意の数字の連続が許されるため、連続音声認識において重要な役割を果たす文法的拘束が有効に使えない。したがって、精度の高い音響モデルが必須である。本報告ではTied-mixture HMMをベースとした不特定話者連続数字音声認識のための高精度な音響モデルの学習法について報告する。単語(数字)を語頭(head)、語中(body)、語尾(tail)に分割することで効率よく音素コンテキストを考慮したサブワードモデルを用い、クラス間の識別能力を最大化するため誤り最小化学習を行うことにより、電子協音声データベースを用いた連続数字認識において非常に高い認識率を達成することができた。
- 社団法人電子情報通信学会の論文
- 1995-06-22
著者
-
松井 知子
NTTヒューマンインタフェース研究所
-
松岡 達雄
Nttマルチメディアビジネス開発部
-
松岡 達雄
Ntt
-
古井 貞熙
NTTヒューマンインタフェース研究所
-
松岡 達雄
NTTヒューマンインタフェース研究所
-
植本 尚子
東京工業大学
-
植本 尚子
東京工業大学総合理工学研究科
関連論文
- 話者照合におけるモデルとしきい値の更新法
- 4)話者認識研究の現状と展望([マルチメディア情報処理研究会 ネットワーク映像メディア研究会]合同)
- 話者認識研究の現状と展望
- テキスト指定型話者認識
- 話者認識におけるモデルとしきい値の更新法の検討
- 合成HMMによる環境適応型話者認識法
- 音韻・話者独立モデルによる話者照合尤度の正規化
- VQ ひずみ,離散/連続 HMM によるテキスト独立形話者認識法の比較検討
- 話者認識技術 (音声認識の最新技術)
- 音源・声道特徴を用いたテキスト独立形話者認識
- 1991年音響・音声・信号処理国際会議(ICASSP91)報告
- 8)話者認識技術の実用化に向けて(マルチメディア情報処理研究会)
- 話者認識技術の実用化に向けて
- ゆう度最大化による雑音とひずみへのHMM適応化法
- 自由発声中の連続数字音声認識
- パワーの分散を考慮した拡張HMM合成法
- HMM合成に基づく尤度最大化適応法
- 尤度最大化原理によるHMM適応化法
- 音韻ラベルを用いない HMM 評価法とそれを用いた連続音声認識用 HMM の評価
- 番号案内を対象とした大語い連続音声認識アルゴリズム
- フレーム間相関を利用した音韻 HMM による音声認識
- 音声認識の言語処理技術 (音声認識の最新技術)
- 音声認識の音響処理技術 (音声認識の最新技術)
- 4)話者認識研究の現状と展望([マルチメディア情報処理研究会 ネットワーク映像メディア研究会]合同)
- 話者照合におけるモデルとしきい値の更新法
- VQコードのBigramで制約した音韻HMMによる音声認識
- 音声認識エンジンREXの開発
- 頑健な話者認識システムの構築を目指して
- N-bestに基づく話者適応化法の検討
- N-bestに基づく教師なし話者適応化法
- 音声の個人性の解明を目指して
- 音声認識のためのN-bestに基づく話者適応化
- MMによる話者認識
- 連続数字音声認識における音響モデル学習法の検討
- 連続数字音声における音響モデル学習法の検討
- 識別誤り最小化による話者適応化法の検討
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 音声の個人性情報と話者認識
- N-best候補を用いた話題抽出の検討
- ニュース音声を対象とした連続音声認識に基づく話題抽出
- ニュース音声を対象とした大語彙連続音声認識と話題抽出
- ニュース音声を対象とした大語彙連続音声認識
- 高次n-gramを用いた大語彙連続音声認識の検討
- 新聞記事データベースを用いた大語い連続音声認識
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 統計的翻訳言語モデルを用いた音声理解
- 単語trigramを用いた大語彙連続音声認識
- 統計的翻訳言語モデルを用いた音声理解
- 単語trigramを用いた大語彙連続音声認識
- 音声理解のための言語モデル自動獲得
- 新聞記事読み上げタスクを用いた大語彙連続音声認識における音響モデルの検討
- 新聞読み上げタスクを用いた大語彙連続音声認識における言語モデルの検討
- テキストコーパスを用いた音声理解のための言語モデル自動獲得
- 新聞記事を用いた大語彙連続音声認識の検討
- 大語彙日本語連続音声認識研究基盤の整備 : 汎用音素モデルの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 学習・評価テキストコーパスの作成
- 大語彙日本語連続音声認識研究基盤の整備 : 評価用連続音声認識プログラムの開発
- 音声認識技術の現状 (コンピュータ・コミュニケーションの現在)
- 音声対話システムの評価法について
- 新聞記事を用いた大語彙連続音声認識の検討
- 音声理解のための言語モデル自動獲得の検討
- マルコフモデルによる文仮説の再編成
- IVTTA94会議報告
- 不特定話者認識
- 3)頑健な話者認識システムの構築を目指して([マルチメディア情報処理研究会 ネットワーク映像メディア研究会]合同)
- 大語彙連続音勢認識研究用日本語コーパス : JNAS
- 大語彙連続音声認識のための読み上げ文コーパスの構築
- 大語彙連続音声認識のための読み上げ文の選択
- 大語彙連続音声認識研究のためのテキストデータ処理
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- パネル討論「統計的言語処理/音声言語処理における大規模言語データベースの利用」
- 大語彙連続音声認識研究のためのテキストデータ整備
- ネットワークインバージョンにおける動的正則化
- 動的正則化を用いたPET画像修復
- アプリオリ情報を用いたPET画像修復系の構成
- 時期差による発声変動及び伝送歪みに頑健な話者照合
- 時期差による発声変動を考慮した話者モデルの生成法
- テキストコーパスを用いた音声理解のための言語モデル自動獲得