発話位置依存ケプストラム平均正規化による遠隔発話の音声認識(認識・理解・対話)
スポンサーリンク
概要
- 論文の詳細を見る
遠隔環境において,伝送歪みは音声認識の性能を大きく劣化させる。本稿では発話位置依存ケプストラム平均正規化(Cepstral Men Normalization : CMN)による頑健な音声認識方法を提案する。まず,部屋をいくつかの区域に分割し,その中心位置からマイクロホンまでの伝達特性を各位置で再生されたスピーカーの音声を用いて事前に計測しておく。音声認識時には,システムはマイクロホンペア間の音声の到着時間差(Time Delay of Arrival:TDOA)に基づいて三次元の話者位置を推定する。本システムは,四つのマイクロホンをT字型に配置し,相互相関法を用いてマイクロホンペアの間の到着時間差を求める。そして,推定した発話位置によって事前に計測した伝達特性を選択し. CMNによって伝送歪みを補正して遠隔発話を認識する。さらに、提案手法では,人間からの発話のケプストラム平均とスピーカーからの発話のケプストラム平均のミスマヅチも補正することにより実際の発話に対応する。実験により提案手法は,遠隔環境下で音声認識システムの性能を有効に改善することを示した。
- 一般社団法人情報処理学会の論文
- 2004-05-27
著者
-
中川 聖一
豊橋技術科学大学
-
北岡 教英
豊橋技術科学大学
-
北岡 教英
名古屋大学大学院情報科学研究科
-
王 龍標
静岡大学システム工学科
-
王 龍標
豊橋技術科学大学情報工学系
-
北岡 教英
名古屋大学大学院情報科学研究科メディア科学専攻
関連論文
- 長時間分析に基づく位相情報を用いた音声認識の検討 (音声)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- 1987年音響・音声・信号処理国際会議(ICASSP 87)
- 文字コードに依存しない情報検索の実現
- 中間言語を用いたインドネシア語-日本語対訳辞書の拡充
- 非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
- ワードスポッティング法を用いた文脈自由文法制御フレーム同期型HMM連続音声認識法
- ニュース番組における字幕生成のための文内短縮による要約
- 3W-5 ニュース音声の認識結果を用いた要約による字幕生成
- 連続出力分布型HMMによる日本語音韻認識
- 認識結果の正解確率に基づく信頼度のリジェクション(音声情報処理 : 現状と将来技術論文特集)
- スペクトルサブトラクションと時間方向スムージングを用いた雑音環境下音声認識
- 認識結果の正解確率に基づく信頼度とリジェクション
- スペクトルサブトラクションを用いた雑音環境下音声認識における時間方向スムージングと分析窓長増加の効果
- スペクトルサブトラクションを用いた雑音環境下音声認識における時間方向スムージングの効果
- E-055 VADが音声認識性能に与える影響(E分野:自然言語・音声・音楽)
- 長時間分析に基づく位相情報を用いた音声認識の検討(認識,理解,対話,一般)
- Hidden Conditional Neural Fieldsを用いた音声認識における目的関数と階層的音素事後確率特徴量の検討
- 重要文抽出に基づく講義音声の自動要約
- Hidden Conditional Neural Fieldsを用いた音声認識の検討
- 複数の対話エージェントを扱う音声対話システムの構築と評価
- 距離付きn-gramインデックスによる認識誤りと未知語に頑健な高速検索法
- NTCIR-9 SpokenDoc: 音声検索語検出と音声ドキュメント検索の評価枠組の設計
- 自動車内情報システムインタフェース制御のための運転過負荷状態の検出
- 音声中の検索語検出のためのテストコレクション構築 : 中間報告
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- SLP音声ドキュメント処理ワーキンググループ活動報告(ドキュメント処理・翻訳・言語獲得,第10回音声言語シンポジウム)
- Spoken Term Detectionのためのテストコレクション構築とベースライン評価
- 複数の対話エージェントを扱う音声対話システムの開発
- DI-1-1 音声処理技術の新たな展開(DI-1. メディア情報技術の新たな展開:音声・言語・画像技術はどう拡大・発展するのか、どう融合するのか,依頼シンポジウム,ソサイエティ企画)
- 音声に含まれるプライバシ情報の保護(センシングウェブ)
- フィラー予測モデルに基づく話し言葉言語モデルの構築
- 日本語講義音声コンテンツコーパスの作成と分析
- 特集「音声ドキュメント処理」の編集にあたって
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 1992年音声言語処理国際会議
- 非頻出語に対して頑健な日本語固有表現の抽出(語彙・固有表現・同義語)
- フィラーの書き起こしのないコーパスからのフィラー付き言語モデルの構築(話し言葉処理)
- 機械学習を用いた日本語機能表現のチャンキング
- 日本語複合辞用例データベースの作成と分析(自然言語,情報処理技術のフロンティア)
- 誤認識に対処した自然で効率的な音声対話戦略の評価(音声対話・セグメンテーション)
- 誤認識に対処した自然で効率的な音声対話戦略の評価(音声対話・セグメンテーション)
- 講義音声ドキュメントのコンテンツ化と視聴システム(教育システムにおけるプラットホームとコンテンツ開発論文)
- 講義音声自動要約のための重要文手がかり表現の自動抽出(学生セッション II)
- 講義音声自動要約のための重要文手がかり表現の自動抽出(学生セッション II)
- 講義音声認識における収録装置とケプストラム正規化法の検討(第8回音声言語シンポジウム)
- 講義音声認識における収録装置とケプストラム正規化法の検討(Session-6 音声認識,第8回音声言語シンポジウム)
- 講義音声認識における収録装置とケプストラム正規化法の検討(Session-6 音声認識,第8回音声言語シンポジウム)
- 講義音声認識における収録装置とケプストラム正規化法の検討
- 講義音声の認識・要約・インデックス化の検討(要約・分割)
- Trigram・4-gramと文脈依存音響モデルを用いた1パス大語彙連続認識アルゴリズムとその高精度化(認識・理解・対話・一般)
- 誤認識の修復のための自然で効率的な音声対話戦略
- D-14-9 音響特徴を用いた対システム発話と対人間発話の識別(D-14.音声・聴覚,一般講演)
- 発話位置依存CMNとマルチマイクロフォンアレイ処理の併用による遠隔発話の音声認識(Session-8 ポスターセッション: 一般, 第7回音声言語シンポジウム)
- 複数の雑音抑圧手法の統合に基づく雑音下音声認識(Session-7 スペシャルセッション(ポスター): 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 位相情報を利用した話者識別・照合法の評価(ポスターセッション,第10回音声言語シンポジウム)
- 重要文の連続性を考慮した講義音声の自動要約(チャンキング・要約)
- セグメント単位入力HMMによる雑音環境下での音声認識
- 発話スタイルによる話速・音韻間距離・ゆう度の違いと音声認識性能の関係(音声情報処理 : 現状と将来技術論文特集)
- HMMに基づく音声認識のための音節モデルとtriphoneモデルの比較
- SP2000-18 発話間のVQ歪みを用いたオンライン話者交替識別と話者クラスタリング
- 話速・音韻間距離・尤度と音声認識性能の関係
- 音節モデルによる連続音声認識の性能の検討
- STRAIGHTによるスペクトル包絡特性を用いた連続音節認識
- 雑音重畳音声のフレーム間相関と音声認識性能に関する考察
- 音声知覚実験による音声認識モデル単位の検討
- HMMを用いた英単語音声からの強勢音節の自動検出とそれに基づく発音能力の韻律的評定
- HMMを用いた英単語音声からの強勢音節検出と発音の韻律評価
- ニュース文の音声要約のための韻律情報の利用
- 音素モデルに基づく中国語連続音声認識システムの性能評価
- 日本人の英語発音の評価法
- 文字コードに依存しない情報検索の実現
- 表層的言語情報と韻律情報を用いた講演音声の重要文抽出
- 係り受け関係を用いた重複表現削除
- テレビニュース番組の字幕作成のための重複部削除による要約
- 音声対話に基づく知的情報検索システム
- 音声中の検索語検出のためのテストコレクション構築 -中間報告-
- 日英報道記事からの訳語対応推定 : ターム頻度と訳語対応推定性能の相関の評価(情報抽出・翻訳知識獲得)
- フォーム型Web情報検索サービスのための音声ユーザインタフェースシステムと操作性の評価(ユーザインタフェース)
- 1990年音響・音声・信号処理国際会議(ICASSP 90)報告
- ニューラルネットワークによる確率密度関数・事後確率の推定と母音認識
- 固定長セグメントの統計量を用いたHMMによる音節認識
- 英語CALL構築を目的とした日本人及び米国人による読み上げ英語音声データベースの構築(第二言語学習とその支援に関する教育工学研究)
- 音声言語処理技術を用いた語学学習システム
- 人間の理解手法を用いたロバストな音声対話システム
- 音声対話システムにおけるN-best文認識結果の一利用法
- ロバストな対話システム構築に関する一考察
- 音声対話システムにおける自然発話の頑健な一理解法
- 事前説明によるシステムへの入力発話の変化と誤認識結果の人間による復元
- 事前説明によるシステムへの入力発話の変化と誤認識結果の人間による復元
- 自然発話の意味理解と対話システム
- SPOJUS-SYNOに基づく中国語連続音声認識システム
- 連続出力分布型HMMの話者適応化による日本語音韻・音節認識
- 字幕・副音声付きテレビニュース放送を利用可能な語学学習教材作成システムとリスニング教材プレイヤー(第二言語学習とその支援に関する教育工学研究)
- 日本人英語音声とネイティブ英語音声の強勢等時性の自動評価法
- 表層的言語情報と韻律情報を用いた講演音声の要約と評価
- テレビニュース放送を利用した語学学習システムの評価
- 字幕付きテレビニュース放送を素材とした語学学習教材作成システム
- 表層情報と韻律情報を利用した講演音声の要約