話者混合逐次状態分割法による不特定話者音声認識と話者適応
スポンサーリンク
概要
- 論文の詳細を見る
本研究では比較的少量の学習データによって不特定話者音素モデルを生成するための原理として,話者混合法を提案する.またこの原理に基づいて1秒以下の非常に短い発話で動作する話者適応方式として話者重み学習法を提案する.更にこの話者適応法において,認識率の低下なしに計算量の削減をする方法として話者プルーニング法を提案する.以上の原理を逐次状態分割法で生成された音素コンテキスト依存モデルと組み合わせることにより連続音声認識を行う.文節認識実験の結果,従来法の不特定話者HMM-LR法と比較して76.1%から82.6%と6.5%の認識率の向上を得た(27.2%の誤りの減少).また話者重み学習による話者適応では0.6秒の単語発声で75.8%から79.9%と4.1%の認識率の向上を得た(16.9%の誤りの減少).更に話者プルーニング手法を用いることにより,認識率の低下なしに混合連続出力分布の混合数を50〜92%削減することができた.
- 社団法人電子情報通信学会の論文
- 1994-02-25
著者
-
嵯峨山 茂樹
NTTヒューマンインタフェース研究所
-
鷹見 淳一
(株)ATR自動翻訳電話研究所
-
嵯峨山 茂樹
(株)ATR自動翻訳電話研究所
-
小坂 哲夫
(株)atr自動翻訳電話研究所((株)atr音声翻訳通信研究所)
関連論文
- 教師なし話者適応のための教師信号選択の高精度化
- バッチディクテーションのための教師なし話者適応
- バッチディクテーションのための繰り返し教師なし話者適応
- 音素認識と係り受け解析による文音声の認識 (音声音響情報処理の研究・開発)
- 隠れマルコフ網と一般化LR構文解析を統合した連続音声認識
- 混合連続分布HMM移動ベクトル場平滑化話者適用方式
- ニューラルファジィ学習法による音声認識の性能向上
- 数理統計モデルによる音声認識の現状と将来 (<特集>音声)
- 自由発話音声における音響的な特徴の検討
- 電話サービスを想定した話者照合
- 自動音声認識の現状と臨床応用の将来性
- 雑音の統計的分布を用いた音声区間検出
- HMMを用いた音響演奏の楽譜追跡による弾き直しに追従可能な自動伴奏
- 話者クラスタリング手法を用いた不特定話者音素HMM作成法
- 木構造話者クラスタリングを用いた話者適応
- 話者適応のための木構造話者クラスタリング
- 話者混合逐次状態分割法による不特定話者音声認識と話者適応
- 学習移動ベクトルの相関関係を用いた音響モデルの話者適応化
- 4階層共有構造の音響モデルによる音声認識
- 雑音適応におけるTaylor展開の2次微分項の導入による効果
- 音声認識機能を含むマルチモーダルインタフェースをもつ住所入力システムの開発と評価
- 離散混合分布型HMMにおける量子化方法の検討
- 単語グラフを用いた大語彙連続音声認識における近似演算法
- 大語彙連続音声確認のためのコンパクトな可変長n-gramモデル
- Jacobian適応法による雑音適応の性能評価
- Jacobi行列を用いた音響モデルの適応アルゴリズム
- 音声認識のための音響モデルの構造
- 単語グラフを用いた大語彙連続音声認識における近似演算手法の検討
- 効率的な仮説のマージ機能を持つLRパーザ制御による音声認識
- Taylor展開による音響モデルの適応
- 効率的な仮説のマージ機能を持つLRパーザ制御による音声認識
- Taylor展開による音響モデルの適応
- 音声認識合成による応用構築の容易な電話対話システム
- Taylor展開に基づく高速な音響モデル適応法
- スペクトルサブトラクションとNOVO合成を用いた雑音下音声認識
- 語彙制約なし音声認識における識別誤り最小化学習の検討
- 音響モデルのタスク適応における学習データに関する検討
- ICASSP'96会議報告
- 隠れマルコフ網で表現した音素コンテキスト依存モデルのための話者適応
- 全音素エルゴディック HMM を用いた教師なし話者適応
- 全音素エルゴディック隠れマルコフ網を用いた教師なし話者適応方式
- 逐次状態分割法による隠れマルコフ網の自動生成
- 隠れマルコフ網のための話者適応法
- 双方向網探索によるHMM文節音声認識系の評価
- 音声認識合成による応用構築の容易な電話音声対話システム
- インターネットと音声・オーディオ処理技術
- Delayed Arc EvaluationによるLRパーザ制御に基づくViterbiサーチ
- 逐次クラスタ分割による統計的言語モデル構築法の検討
- 音声認識による住所データ入力時間短縮の効果と不適切発声の認識性能への影響
- マルチモーダルインタフェースを持つ住所入力システムの評価実験
- 音声認識機能を持つ住所入力システム
- 音声入力機能を持つ住所入力システム
- 音声認識機能を持つ住所入力システム
- HMM-LR方式音声認識サーバを用いたマルチモーダル入力
- 語彙制約なし音声認識における音節継続時間長制御の効果
- クライアント・サーバ構成のHMM-LR連続音声認識システムとその応用
- 音素HMMの特定タスクへの適応
- 音節継続時間制御の語彙制約なし認識系での検討
- 自立語と付属語の連鎖統計モデルを用いた音声認識のための候補選択
- 識別誤り最小化を用いた少量データの学習における初期モデルの検討
- 識別誤り最小化を用いた少量データのための効果的なHMM学習法
- 識別誤り最小化と移動ベクトル場平滑化を用いた少量学習データのためのHMM学習法
- 逐次型話者適応方式MAP/VFSにおける分散適応
- 最大事後確率推定と移動ベクトル場平滑化の組合せによる逐次話者・回線適応
- 最大事後確率推定と移動ベクトル場平滑化の組合せによる逐次話者・回線適応
- スペクトルの動的および静的特徴量を用いた言語音声の検出
- 周波数-変動長フィルタによる音声強調
- スペクトログラムのベイジアンノンパラメトリックモデリングに基づく音楽信号の解析
- 時間周波数分解能の異なるスペクトログラムの並列NMFによる多重音解析
- 前向きヒューリスティック関数を用いたビーム探索によるHMM-LR連続音声認識
- スカラー量子化による4階層共有構造HMMの高速計算
- 動的リジェクト機能をもつ前向きヒューリスティック関数によるビーム探索
- 前向き尤度を用いたA^*ビーム探索によるHMM-LR音声認識
- 離散混合出力分布型HMM
- NOVO合成法を用いたBarge-in音声の認識
- 学習移動ベクトル間の相関によりtyingした音響モデルの共有構造
- 4階層共有構造音素モデルにおける分散値共有化の効果
- 周波数-変動長フィルタによる音声強調(聴覚一般,聴覚・音声・言語とその障害/一般)
- HMMを用いたオフライン手書き単語認識における環境クラスタリングとGMMの同時最適化(テーマセッション,文字・文書の認識と理解)
- 音声入力への応答タイミング決定のための強化学習の検討(音声一般・障害者支援,聴覚・音声・言語とその障害/一般)
- 学習移動ベクトル間に相関を持つ音響モデルの共有構造
- 6. 音声認識技術実用への課題 (<解説> 音声言語情報処理の現状と研究課題)
- 音声認識によるマルチモーダルインタラクションへの視点
- 4階層共有構造の音素HMM
- 4階層共有構造の音素HMM
- 楽譜情報からの作曲家らしさ認識のための音楽特徴量の提案
- F0パターン生成過程の確率モデルによる藤崎モデルパラメータの推定
- 多声MIDI演奏の楽譜追跡における演奏の即興性のモデル化と自動伴奏への応用
- 声質空間上での変換に基づく歌声らしさの転写に関する検討
- 楽譜の文脈自由2次元木構造表現に基づく多重音スペクトログラム生成モデルによる音響信号からの自動採譜
- 補助関数法によるMIDI信号の音楽音響信号への詳細なフィッティング
- 確率的手法による歌唱曲の自動作曲(音楽制作と情報処理の友好関係)
- 数理モデルによる音楽情報処理(招待講演,時系列パターン認識)
- 数理モデルによる音楽情報処理(招待講演,時系列パターン認識)
- 入出力隠れマルコフモデルの復号によるギターのための自動編曲
- なぜ音声認識は使われないか・どうすれば使われるか?
- 音楽要素の分解再構成に基づく日本語歌詞からの旋律自動作曲
- 非音声区間情報を用いた補助関数型独立ベクトル分析による音声強調(異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)
- 非音声区間情報を用いた補助関数型独立ベクトル分析による音声強調(異種メディア融合,コンテンツ処理,メディア検索,電子透かし,一般)