音響モデル変換による残響環境中の音声認識
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、残響に頑健な音声認識を実現するため、クリーン音声のモデルと残響特性を与えて、残響環境に適応させた音響モデルを作成する手法について議論する。実環境では、音源からの直接音に加えて壁からの反射などによる残響成分が重畳した音声信号が観測される。残響時間がフレーム長に対して長い場合、観測信号には観測フレーム以前の信号が伝達歪みを受けて残響成分として重畳される。このため、残響による歪みは観測フレーム以前のフレームの音声に依存している。そこで、本手法では変換する音素に対してその直前にある音素列の可能性を場合分けし、それぞれの場合で残響モデルを求める。そして残響モデルを音素列の出現確率によって重ね合わせて、変換結果とする。残響モデルの求め方としては、各フレームの残響成分を独立した分布とみなしてモデル合成をする方法と、HMMからMFCCの出力系列を構成し、直接計算した残響を残響分布の平均とする2通りの方法を提案する。実験評価のため、残響環境下の音声の特定話者孤立単語音声認識実験を行い、認識率の向上を確認した。
- 社団法人電子情報通信学会の論文
- 2005-01-21
著者
-
西本 卓也
東京大学情報理工学系研究科システム情報学専攻
-
西本 卓也
東京大学大学院情報理工学系研究科
-
嵯峨山 茂樹
東京大学大学院情報理工学系研究科
-
槐 武也
東京大学大学院情報理工学系研究科
-
槐 武也
東大・情報理工
関連論文
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識(音声,聴覚)
- 音声認識応用に関する学会試行標準
- 音楽知識に基づく音高・音長の組合せ特徴量を用いたMIDIデータからの作曲家判別(音楽解析)
- 文字構造の文法記述に基づくオンライン手書き漢字列認識(テーマセッション4,文字・文書の認識・理解)
- 日本語歌詞からの自動作曲(音楽とOR)
- テンポ曲線と隠れマルコフモデルを用いた多声音楽MIDI演奏のリズムとテンポの同時推定(演奏認識/合成,便利で身近な音楽情報処理)
- ラジオ放送番組におけるスポーツ実況中継の分析(視覚障害/聴覚障害,一般)
- ラジオ放送番組におけるスポーツ実況中継の分析
- 調波音・打楽器音分離手法を用いた音楽音響信号からの自動和音認識(音響分析一般(2))
- Orpheus : 歌詞の韻律に基づいた自動作曲システム(自動作曲)
- パワースペクトログラムの伸縮に基づく多重音信号の再生速度と音高の実時間制御
- 早口合成音声の聴取実験によるテキスト音声合成の評価(視覚障害/聴覚障害/一般)
- 視覚障害者の聴覚認知の解明と音声対話への利用に向けて(ヒューマンコミュニケーショングループ (HCG) シンポジウム)
- 音声対話技術コンソーシアム(ISTC)の活動成果報告(SIG-SLP内組織の活動報告)
- マルチモーダル対話システムのための階層的アーキテクチャの提案
- 対面朗読者と視覚障害者の対話の分析とその応用(セッション3 : 理解るインタフェース : 音声対話)
- 対面朗読者と視覚障害者の対話の分析(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
- スパース性に基づくブラインド音源分離を用いたステレオ入力音声認識
- HP-1-5 ラジオ放送支援システム「オラビー」の開発(HP-1.放送メディアにおける福祉情報の現状と可能性,パネル討論,ソサイエティ企画)
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション,手,顔,身体表現の認識,理解)
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション2)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- 4.インターネットと音声合成(バリアフリー社会に向けた音声情報処理)
- 音声CAPTCHAシステムにおける削除法と混合法の比較(福祉と音声処理,一般)
- 超早口音声の聴取における単語親密度の教示効果
- 音韻修復効果を用いた音声CAPTCHAの検討
- 音韻修復効果を用いた音声CAPTCHAの検討(高齢者の認知機能保障技術及び一般)
- 超早口音声の聴取における単語親密度の教示効果(高齢者の認知機能保障技術及び一般)
- 第46回ヒューマンインタフェース学会研究会報告
- 第2回 音声対話システムの開発方法論とプラットフォーム
- 探索的検索のための音声入力インタフェースの検討
- マルコフ確率場を用いた調認識、自動和声付け、および自動対位法
- 調波時間構造化クラスタリング(HTC)による音楽音響特徴量の同時推定
- 7. 擬人化音声対話エージェント(音声情報処理技術の最先端)
- 頭部モーションセンサと音声を用いた対話インタフェースの検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 頭部モーションセンサと音声を用いた対話インタフェースの検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 頭部モーションセンサと音声を用いた対話インタフェースの検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 頭部モーションセンサと音声を用いた対話インタフェースの検討
- 頭部モーションセンサと音声を用いた対話インタフェースの検討
- 音声CAPTCHAのための音韻修復効果の検討
- 調波構造・時間包絡・音色の統合的クラスタリングによる楽音分析(音楽音響信号処理 (2))
- ハーモニッククラスタリングと情報量規準による音楽の音高/音源数の推定(山下記念研究賞受賞記念講演)
- 音声認識技術を用いた音楽情報処理
- Specmurtにおける凖最適共通調波構造パターンの反復推定による多声音楽信号の可視化とMIDI変換(音楽音響信号認識)
- 歌唱曲自動作曲の需要と今後 - 2年間のOrpheus運用を通じて
- 単旋律と和音の確率モデルの組み合わせによるピアノ曲演奏の自動表情付け
- 非和声音規則に基づく経路制約を用いた旋律自動生成
- 単語親密度を統制した超早口音声の聴取に対する慣れの検討(福祉情報工学,ヒューマンコミュニケーション〜人間中心の情報環境構築のための要素技術〜論文)
- G-001 最大エントロピーモデルに基づく統計的な音楽情報の解析(G分野:音声・音楽)
- 第53回WIT研究会におけるリアルタイム映像配信の報告
- 音声言語インタフェースのための情報処理学会試行標準
- 歌唱曲自動作曲の需要と今後 : 2年間の Orpheus 運用を通じて
- 階層的MMIアーキテクチャに基づくプラットフォーム実装方法の検討
- 複素スペクトル円心(CSCC)の推定に基づくマイクロホンアレーによる雑音抑圧
- スパース性に基づくブラインド音源分離を用いた2チャンネル入力音声認識(音響処理・話者同定,第10回音声言語シンポジウム)
- モルフォロジ収縮処理と構造特徴複製に基づく画像インペインティング(一般セッション,手,顔,身体表現の認識,理解)
- 動的計画法に基づく自動対位法
- 動的計画法と音列出現確率を用いた対位法の対旋律の自動生成(音楽生成・システム)
- I-018 ストロークをベースとした確率自由文脈文法による手書き数式の認識(I分野:画像認識・メディア理解)
- モーダル間の共起関係を考慮した階層的トピック軌跡モデルによる映像認識検索(IBIS2010(情報論的学習理論ワークショップ))
- タスクに依存しない音声対話の制御方式(音声, 聴覚)
- ISO/IEC MPEG-4 Audio Lossless Coding (ALS)におけるチャネル内とチャネル間の長期予測(国際標準に向けたテレコム技術とその効用論文)
- 多チャンネル時系列信号のロスレス符号化
- チャネル間相関を用いた多チャネル信号の可逆圧縮符号化(産学連携論文)
- 早口音声の聴取訓練における単語親密度の影響(一般(ポスターセッション),第9回音声言語シンポジウム)
- 早口音声の聴取訓練における単語親密度の影響(一般(ポスターセッション),第9回音声言語シンポジウム)
- 早口音声の聴取訓練における単語親密度の影響(一般(ポスターセッション),第9回音声言語シンポジウム)
- 早口音声聴取における単語親密度と学習効果の検討
- 早口音声聴取における単語親密度と学習効果の検討
- 対面朗読者と視覚障害者の対話の分析とその応用(セッション3 : 理解るインタフェース : 音声対話)
- 確率文脈自由文法を用いた和声学規則の表現と楽曲の自動和声解析(表情付け・分析)
- 確率文脈自由文法を用いた和声学規則の表現と楽曲の自動和声解析(表情付け・分析)
- 複数残響特性下の音声を単一モデル学習に用いた未知残響環境に頑健な音声認識の検討(福祉と音声処理,一般)
- 確率モデルによる多声音楽演奏のMIDI信号のリズム認識(音楽情報科学)
- ストローク単位の確率文脈自由文法を用いたオンライン手書き数式データベースの作成(テーマセッション4(数式),文字・文書の認識・理解)
- ストローク単位の確率文脈自由文法を用いたオンライン手書き数式認識(テーマセッション(3),文字認識・文書理解)
- ストローク単位の確率文脈自由文法を用いたオンライン手書き数式認識(テーマセッション(3), 文字認識・文書理解)
- 実世界環境における視聴覚情報を統合した擬人化対話エージェントシステムの検討
- HMMによるMIDI演奏の楽譜追跡と自動伴奏
- 音声入力への応答タイミング決定のための強化学習の検討
- パート除去を目的とした楽譜と音響信号のアラインメント手法の検討(音楽音響信号処理 (1))
- M-016 チャンネル間相関を用いた多チャンネル信号の可逆圧縮符号化(M.ネットワーク・モバイルコンピューティング)
- ラジオ放送支援システム「オラビー」の開発
- 第58回WIT研究会におけるリアルタイム映像配信の報告 (福祉情報工学)
- 球面上非対称2chアレイによる全方位音源定位(聴覚・音声・言語とその障害,一般)
- 球面上非対称2chアレイによる全方位音源定位
- HMMを用いたオフライン手書き単語認識における環境クラスタリングとGMMの同時最適化(テーマセッション,文字・文書の認識と理解)
- ラジオ放送支援システム「オラビー」の開発(高齢者支援,一般)
- 複素スペクトル円心(CSCC)法と雑音音源方向推定を組み合わせた雑音抑圧
- 音声入力への応答タイミング決定のための強化学習の検討(音声一般・障害者支援,聴覚・音声・言語とその障害/一般)
- Specmurt分析とChroma Vectorを用いたHMMによる音楽音響信号の調認識
- 視覚障害者用早口合成音声による慣れの効果(福祉と音声処理, 一般)
- 視覚障害者用早口合成音声による慣れの効果(福祉と音声処理, 一般)
- ガウス基底音響ストリームモデルを用いた時空間クラスタリングによる多重スペクトル分離
- 早口合成音声に対する高齢者の慣れ
- 対話分析に基づく視覚障害者用音声対話システム
- 早口合成音声に対する高齢者の慣れ(特定領域研究「情報福祉の基礎」)
- 対話分析に基づく視覚障害者用音声対話システム(特定領域研究「情報福祉の基礎」)
- 畳み込み残響に頑健な音声認識のための状態分割を用いるモデル適応