スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識(音声,聴覚)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,スパース性に基づくブラインド音源分離を用いた雑音残響下のステレオ入力音声認識手法を提案する.ステレオ入力を前提とした場合,スパース性に基づくブラインド音源分離は,雑音環境下における音声認識のフロントエンドとして有効なアプローチの一つであるが,残響環境下では分離性能が劣化するほか,時間周波数マスキングそのものが,目的とする音声のスペクトルにひずみを引き起こし,認識性能を劣化させてしまう可能性がある.本研究ではまず前者の問題に対し,我々が開発してきた,拡散雑音モデルに基づく最ゆう時間周波数マスキング法を適用し,その有効性を検証する.次に,時間周波数マスキングそのものによって生じるひずみの音声認識への影響を検討し,(1)連続値マスクの方がバイナリーマスクよりも影響が少ないこと,(2)CMN(Cepstral Mean Nomalization)によりひずみの影響が大きく改善され,特に連続値マスクの方が改善量が大きいことを,実験的に明らかにする.最後に提案手法の有効性を,雑音残響環境下での連続数字音声認識タスクにより評価し,従来手法に比べて高い認識性能が得られることを示す.
- 2010-03-01
著者
-
渡部 晋治
日本電信電話株式会社NTTコミュニケーション科学基礎研究所
-
西亀 健太
東京大学情報理工学系研究科システム情報学専攻
-
和泉 洋介
東京大学情報理工学系研究科システム情報学専攻
-
西本 卓也
東京大学情報理工学系研究科システム情報学専攻
-
小野 順貴
東京大学情報理工学系研究科システム情報学専攻
-
嵯峨山 茂樹
東京大学情報理工学系研究科システム情報学専攻
-
小野 順貴
東京大学大学院情報理工学系研究科
-
西本 卓也
東京大学大学院情報理工学系研究科システム情報学専攻
-
西本 卓也
東京大学
-
小野 順貴
東京大学情報理工学系研究科
-
小野 順貴
東京大学
-
嵯峨山 茂樹
東京大学情報理工学系研究科
-
渡部 晋治
Mitsubishi Electric Research Laboratories:NTTコミュニケーション科学基礎研究所
-
渡部 晋治
日本電信電話(株)NTTコミュニケーション科学基礎研究所
関連論文
- 購買行動解析のためのトピック追跡モデル(人工知能,データマイニング)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識(音声,聴覚)
- 音声認識応用に関する学会試行標準
- 音楽知識に基づく音高・音長の組合せ特徴量を用いたMIDIデータからの作曲家判別(音楽解析)
- 文字構造の文法記述に基づくオンライン手書き漢字列認識(テーマセッション4,文字・文書の認識・理解)
- オンライン変分ベイズ学習に基づくモデル比較を用いた音声区間検出(認識)
- 理想時間周波数マスキングの分離性能と音源スパース性の関係(ブラインド信号処理の技術とその応用論文)
- 日本語歌詞からの自動作曲(音楽とOR)
- テンポ曲線と隠れマルコフモデルを用いた多声音楽MIDI演奏のリズムとテンポの同時推定(演奏認識/合成,便利で身近な音楽情報処理)
- ラジオ放送番組におけるスポーツ実況中継の分析(視覚障害/聴覚障害,一般)
- ラジオ放送番組におけるスポーツ実況中継の分析
- 調波音・打楽器音分離手法を用いた音楽音響信号からの自動和音認識(音響分析一般(2))
- Orpheus : 歌詞の韻律に基づいた自動作曲システム(自動作曲)
- パワースペクトログラムの伸縮に基づく多重音信号の再生速度と音高の実時間制御
- 早口合成音声の聴取実験によるテキスト音声合成の評価(視覚障害/聴覚障害/一般)
- 視覚障害者の聴覚認知の解明と音声対話への利用に向けて(ヒューマンコミュニケーショングループ (HCG) シンポジウム)
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- マルチモーダル対話システムのための階層的アーキテクチャの提案
- アンサンブル型最小分類誤り学習法の実装と実験的評価(一般セッション,CV・パターン認識のための学習・最適化)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2,コンピュータビジョンとパターン認識のための学習理論)
- アンサンブル型最小分類誤り学習の提案(テーマ関連セッション2)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- 調波成分分析によるブラインド音楽信号分離の検討(音響信号処理/一般)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- ベイズ的基準を用いた状態共有型HMM構造の選択
- 変分ベイズ法の音響モデル適応への応用
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 最大幾何マージン最小分類誤り学習法を目指して
- 判別関数の一般形に対する幾何マージンの導出とその制御を伴う最小分類誤り学習(テーマセッション,CV・パターン認識のための学習・最適化)
- 最小分類誤り学習における幾何マージンの制御法について(音響モデル,認識,理解,対話,一般)
- 音声CAPTCHAのための音韻修復効果の検討
- AS-6-3 EMアルゴリズムを用いた最尤時間周波数マスキングによる雑音環境下での2ch BSS(AS-6.実環境における高品質収音のための音声信号処理,シンポジウム)
- Dirichlet事前分布を用いた音声区間検出の検討
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (音声)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価 (言語理解とコミュニケーション)
- 複数音響環境の発話単位遷移モデルに基づく適応学習法の検討(認識,理解,対話,一般)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 巨視的な時間発展系に基づく逐次モデル適応 : モデルの逐次更新における学習データの発話数に関する考察(一般(ポスターセッション),第9回音声言語シンポジウム)
- 最小相対エントロピー識別学習へのラティスによる仮説表現と並列化可能な最適化手法の導入
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (音声)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討 (言語理解とコミュニケーション)
- 音声認識における音響モデル(自動音声認識研究の動向と展望)
- Dirichlet事前分布を用いた音声区間検出の検討(韻律・VAD,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- サーチエラーリスク最小化に基づくViterbiビーム探索とその評価(デコーダ,第11回音声言語シンポジウム)
- 音響モデルのベイズ学習
- 最小相対エントロピー識別学習に基づくカーネルマシンを利用した音声認識
- Dirichlet事前分布を用いた音声区間検出の検討 (音声)
- 音声認識システムSOLONの日本語話し言葉コーパスによる評価(2006年版)(Session-7 システム,第8回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- 音声認識システムSOLONの日本語話し言葉コーパス(公開版Ver.1.0)による評価(Session-4 システム・言語モデル, 第7回音声言語シンポジウム)
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- H-021 ファッション雑誌を用いたコーディネート推薦システム(H分野:画像認識・メディア理解,一般論文)
- ベイズ的基準を用いた状態共有型HMM構造の選択
- ベイズ的基準を用いた状態共有型HMM構造の選択
- ベイズ的アプローチに基づく状態共有型HMM構造の学習
- 音声スパース性に基づく2chBSSへのEMアルゴリズムの適用(ブラインド信号処理/一般)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 話題の連続/不連続変化を考慮したトピックモデルに基づく音声認識(言語モデル・システム,第10回音声言語シンポジウム)
- 統計モデルに基づく時変フィルタによる音源分離(音源分離/一般)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 動的分散適応に基づく音声強調と音声認識の統合手法の提案(音声認識・識別,第9回音声言語シンポジウム)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- ベイズ法による音声認識
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
- ベイズ的音声認識VBECを用いたモデル構造自動構築法の多様な音声データに対する頑健性(ポスターセッション)
- LG-002 移動ベクトルのコース/ファイン学習法にもとづく音響モデル適応(G. 音声・音楽)
- HMM状態-単語の同時確率を用いた音声言語処理のための複雑度指標
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討 (音声)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討 (信号処理)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討 (応用音響)
- 調波成分分析によるブラインド音楽信号分離の検討(音響信号処理/一般)
- 逐次増加型最小分類誤り学習によるパターン認識(パターン認識)
- AS-5-6 スパースな混合モデルに基づく雑音・残響環境下の劣決定BSS(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)
- 音声のスパース性と寄与率最大2音源のMAP推定に基づく2chブラインド音源分離(アレー音響信号処理/一般)
- 学生/教養のページ 音声認識における識別学習
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- 雑音のバイアス-残差成分の分解と各成分の最適化に基づく雑音抑圧の検討(音響モデル・雑音・分析,第12回音声言語シンポジウム:情報アクセス,音声・言語処理一般)
- ベイズ法を用いた音声認識(チュートリアル : 次世代音声認識のための音響モデル)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 雑音モデルの頑健なオンライン推定法に基づく雑音抑圧の検討(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
- 音声認識における識別学習(学生/教養のページ)
- 幾何マージンに基づく誤分類尺度を用いた最小分類誤り学習法(パターン認識)
- 音声認識の音響モデルにおける最近の話題 : 生成・識別アプローチに基づく機械学習的視点(音声・言語・音響教育,一般)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧 (言語理解とコミュニケーション)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧 (音声)
- 音声認識における識別学習
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 話者適応と雑音混合モデル推定の同時適用による雑音抑圧(耐雑音処理,第13回音声言語シンポジウム)
- 階層的構造を持つディリクレ過程混合モデルを用いたフルベイズ話者クラスタリング(ベイズ統計モデル,統計推理,データベース,一般)
- 効率的なサンプリング手法を用いた話者モデリング