ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
スポンサーリンク
概要
- 論文の詳細を見る
現在の音声認識システムが自然発話の認識・理解において十分な性能を示すことができない理由に頑健性の欠落が挙げられる.頑健性の欠落の一因としては,統計的モデル学習における,パラメータ推定に基づく最尤法の汎化能力の低さが考えられる.既存の隠れマルコフモデルのみならずそれを超える音響モデリング技術においても,統計的モデル学習は引き続き根幹技術の一つであると考えられ,その汎化能力を高めることは音声認識における普遍的課題といえる.事後確率分布推定にもとづくベイズ法は,モデルパラメータの周辺化操作による高い汎化能力ゆえに,最尤法に比べて頑健なモデル学習を可能にする.ベイズ的音声認識VBECは,変分ベイズ法を用いた事後確率分布推定にもとづくため,ベイズ法の長所である汎化能力の高い頑健な推定を実現する本格的なべイズ音声認識の枠組みである.また,VBECはモデル構造を確率変数とみなすことにより,モデル構造事後確率分布の事後確率最大化をもとにして,人手無しで音響モデルの自動構築を高い精度で実現できる.本稿では発話スタイル・使用言語の異なる学習・評価セット(孤立単語音声・読み上げ音声・講演音声・英語読み上げ音声)を用い,データによらずVBECの音響モデル自動構築が有効であることを示す.また,VBECで自動構築された音響モデルが評価データによらず十分な性革を示すことを先のJNASで作られた音響モデルを質問応答音声で認識することにより検証する.
- 社団法人電子情報通信学会の論文
- 2004-12-13
著者
-
渡部 晋治
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
中村 篤
Nttコミュニケーション基礎科学研究所
-
中村 篤
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
中村 篤
Nttコミュニケーション科学基礎研究所
関連論文
- 購買行動解析のためのトピック追跡モデル(人工知能,データマイニング)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識(音声,聴覚)
- オンライン変分ベイズ学習に基づくモデル比較を用いた音声区間検出(認識)
- 「共感覚者の驚くべき日常」, リチャードE. シトーウィック著, 山下篤子訳, 草思社, 2002年(私のすすめるこの一冊)
- アンサンブル型最小分類誤り学習法の実装と実験的評価(一般セッション,CV・パターン認識のための学習・最適化)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2,コンピュータビジョンとパターン認識のための学習理論)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- カルマンフィルタによる音声認識のための特徴量トラジェクトリ生成法
- ベイズ的基準を用いた状態共有型HMM構造の選択
- 変分ベイズ法の音響モデル適応への応用
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 静的特徴量時系列と動的特徴量時系列の関係を用いたトラジェクトリパラメータ生成による音声認識手法
- 実対話音声を用いた有限状態トフンスデューサ型認識デコーダの評価
- 有限状態変換器で定義される任意の音声認識タスクのための時間同期ビタービデコーダ
- 最大幾何マージン最小分類誤り学習法を目指して
- 判別関数の一般形に対する幾何マージンの導出とその制御を伴う最小分類誤り学習(テーマセッション,CV・パターン認識のための学習・最適化)
- 最小分類誤り学習における幾何マージンの制御法について(音響モデル,認識,理解,対話,一般)
- Dirichlet事前分布を用いた音声区間検出の検討
- B-8-59 停電時上り音声通信を実現する光アクセス方式の提案(B-8.通信方式,一般セッション)
- 最小相対エントロピー識別学習に基づくカーネルマシンを利用した音声認識
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (音声)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (言語理解とコミュニケーション)
- 複数音響環境の発話単位遷移モデルに基づく適応学習法の検討(認識,理解,対話,一般)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 識別的誤り訂正学習における対立単語列と素性の選定(特徴量・音響モデル,第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 最小相対エントロピー識別学習へのラティスによる仮説表現と並列化可能な最適化手法の導入
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (音声)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (言語理解とコミュニケーション)
- 音声認識における音響モデル(自動音声認識研究の動向と展望)
- Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- 音響モデルのベイズ学習
- 最小相対エントロピー識別学習に基づくカーネルマシンを利用した音声認識
- Dirichlet事前分布を用いた音声区間検出の検討 (音声)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 5T-4 調波GMMとWienerフィルタに基づく音楽音響信号の残響抑圧(音楽信号処理,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- B-8-11 停電時上り音声通信光アクセス方式の実現技術の検討(B-8.通信方式,一般セッション)
- 最小識別誤り学習と重み付き有限状態トランスデューサによる大語彙音声認識
- 確率主成分分析を用いた音声認識の日本語話し言葉コーパスにおける評価
- 混成主成分分析を用いた音声認識(ポスターセッション)
- 混合主成分分析を用いた音声認識
- 混合主成分分析を用いた音声認識(ポスターセッション)
- 混合主成分分析を用いた音声認識(ポスターセッション)
- H-021 ファッション雑誌を用いたコーディネート推薦システム(H分野:画像認識・メディア理解,一般論文)
- ベイズ的基準を用いた状態共有型HMM構造の選択
- ベイズ的基準を用いた状態共有型HMM構造の選択
- 次世代の音声認識技術 (特集 コミュニケーションの壁を克服するための音声・音響処理技術)
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- ベイズ法による音声認識
- 混合主成分分析を用いた音声認識
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
- 次世代音声認識のための音響モデル : 学習とダイナミクス表現(チュートリアル : 次世代音声認識のための音響モデル)
- LG-002 移動ベクトルのコース/ファイン学習法にもとづく音響モデル適応(G. 音声・音楽)
- 混合主成分分析を用いた音声認識
- HMM状態-単語の同時確率を用いた音声言語処理のための複雑度指標
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討 (音声)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討 (信号処理)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討 (応用音響)
- 逐次増加型最小分類誤り学習によるパターン認識(パターン認識)
- 学生/教養のページ 音声認識における識別学習
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- ベイズ法を用いた音声認識(チュートリアル : 次世代音声認識のための音響モデル)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 音声認識における識別学習(学生/教養のページ)
- 幾何マージンに基づく誤分類尺度を用いた最小分類誤り学習法(パターン認識)
- 音声認識の音響モデルにおける最近の話題 : 生成・識別アプローチに基づく機械学習的視点(音声・言語・音響教育,一般)
- ATRの会話音声翻訳研究用データベース(音声研究関連データベースの動向)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧 (言語理解とコミュニケーション)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧 (音声)
- 音声認識における識別学習
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング(ベイズ統計モデル,統計推理,データベース,一般)
- 効率的なサンプリング手法を用いた話者モデリング