ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
スポンサーリンク
概要
- 論文の詳細を見る
近年,音声認識技術の飛躍的な発達に伴い,音声認識を活用した音声情報案内システム等が利用されるようになりつつある.しかし,騒音環境下での音声認識性能は,十分なSNRが確保できないことや,ロンバード効果と呼ばれる発話変形により低下するという問題がある.ロンバード効果とは,十分な聴覚フィードバックが確保できないときに生じ,基本周波数やフォルマント周波数等,音声認識に用いる特徴量に変化が生じる現象を示す.このロンバード効果により,騒音環境下での音声認識性能が静環境下での音声認識性能に比べ著しく低下するという問題がある.そのため,騒音環境下における音声認識性能の改善には,ロンバード効果の抑圧が必要となる.しかし,ロンバード効果の抑圧には大量のロンバード音声と平常音声が必要となるが,データが不足しているのが現状である.そこでまず,ロンバード効果を含むロンバード音声コーパスを構築した.構築したコーパスから,ロンバード効果による特徴の変化を詳細に分析し,ロンバード音声と平常音声の識別実験を実施した.識別実験は主観評価とマハラノビス距離による客観評価にて行った.その結果,主観,客観評価ともに平均80%を超える識別率が確認できた.次いで,分析したロンバード音声の特徴にリサンプリング処理を施し平常音声の特徴に変換することで,ロンバード音声の音声認識性能の改善を試みた.その結果,ロンバード音声の特徴を平常音声の特徴に変換することによって,女声約10%,男声約4%の音声認識性能の改善が確認できた.
- 2010-05-19
著者
-
西浦 敬信
立命館大学情報理工学部メディア情報学科
-
森勢 将雅
立命館大学情報理工学部
-
西浦 敬信
立命館大学情報理工学部
-
西浦 敬信
立命館大学 情報理工学部
-
植村 祐二
立命館大学大学院理工学研究科
-
西浦 敬信
立命館大学
-
森勢 将雅
立命館大学 情報理工学部
-
森勢 将雅
立命館大学
関連論文
- 基本波検出に基づく高SNRの音声を対象とした高速なF0推定法(音声,聴覚)
- ユーザ負担のない話者・環境適応性を実現する自然な音声対話処理技術の総合開発(総合報告)
- 視聴覚統合を利用した非言語的手段による音色知覚の評価について
- 視覚・聴覚を併用した複合現実感システムの開発(5)ヘッドホンとスピーカの併用による音提示法の拡張 (音声)
- 視覚・聴覚を併用した複合現実感システムの開発(5)ヘッドホンとスピーカの併用による音提示法の拡張 (パターン認識・メディア理解)
- 視聴覚統合における刺激音の時間-周波数的特徴と視覚刺激の形状特徴の検討 : 人間の知覚特性に基づく音楽の可視化システムに向けて(インタフェース)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価 (信号処理)
- 基本波検出に基づく高SNRの音声を対象とした高速なF0推定法
- 再合成音声の品質に対する音声スペクトル包絡推定法の影響について(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(3)(SIG-SLP内組織の活動報告)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境 (2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(第8回音声言語シンポジウム)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- 高品質分析合成のための有声音の非周期成分の表現と推定について
- 分析時刻に依存しない周期信号のパワースペクトル推定法を用いた音声分析(ディジタル信号処理)
- TANDEM-STRAIGHTおよび時変モーフィングのための研究用インタフェースの開発について(聴覚・音声・言語とその障害,一般)
- TANDEM-STRAIGHTおよび時変モーフィングのための研究用インタフェースの開発について
- 実時間操作インタフェースへの応用を目的とした歌唱モーフィング操作パラメタの時系列への拡張について(音響信号処理)
- 基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について(音声合成・声質変換,第10回音声言語シンポジウム)
- TANDEM-STRAIGHTによるスペクトル包絡の近似精度の改善について : 基本周波数により定まるNyquist周波数以上の空間周波数成分の復元について(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案 (応用音響)
- 近接音源位置推定のための2D-CSP法の評価 (音声)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減 (音声)
- ロンバード特徴量変換に基づく音声認識性能の改善 (音声)
- 近接音源位置推定のための2D-CSP法の評価 (信号処理)
- ロンバード特徴量変換に基づく音声認識性能の改善 (応用音響)
- 母音/子音特徴量に基づく適応形マイクロホンアレーを用いた雑音下音声認識(音声,聴覚)
- 話者方位推定を利用した動的時間領域処理に基づく遠隔発話区間検出(音声,聴覚)
- 11.人にやさしい音声インタフェース(第2部:情報の高信頼蓄積・検索技術等の開発,学と産の連携による基盤ソフトウェアの先進的開発)
- 話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)
- CENSREC-1-C : 雑音下音声区間検出評価基盤の構築
- マイクロホンアレーを用いた時間/空間情報に基づくハンズフリー発話区間検出の検討(認識・検出)
- フィルタ加算に基づく適応形ビームフォーマの指向性制御に関する検討
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 実走行車内単語音声データベースCENSREC-3と共通評価環境の構築
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- 視覚・聴覚を併用した複合現実感システムのための頭部伝達関数の個人化
- 4L-2 空間的サブトラクションアレーに基づくハンズフリー音声認識システムの開発(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- LE-006 音響信頼度に基づく動的特徴量統合を用いた全方位マルチモーダル話者方位推定の検討(自然言語・音声・音楽)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討
- 音声の平均スペクトルを用いた帯域分割型CSP法に基づく話者位置推定法に関する検討
- 帯域分割型CSP法に基づく話者位置推定法の検討(ポスターセッション)(第6回音声言語シンポジウム)
- 視覚・聴覚を併用した複合現実感システムのための頭部伝達関数の個人化
- EA2010-37 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(2)(雑音・VAD,第9回音声言語シンポジウム)
- 雑音下マルチモーダル音声認識評価基盤CENSREC-1-AVの構築
- 室内音響指標に基づく残響下音声認識性能の計測,評価,保証
- 実時間歌唱力補正に基づく新たなカラオケエンタテインメントの創出
- 話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 雑音下音声認識評価ワーキンググループ活動報告 : 認識に影響する要因の個別評価環境(Session-1 検出,第8回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- SLP雑音下音声認識評価WG活動報告 : 評価用データと評価手法について(Session-6 スペシャルセッション: 共通コーパスを利用した耐雑音技術評価, 第7回音声言語シンポジウム)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 残響指標RSR-D_nに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 残響指標RSR-D_nに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 分散マイクロホンシステムを用いた音源位置同定(福祉と知能・情動・認知障害,福祉と音声処理,一般)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- A-16-7 視聴覚併用型複合現実空間での仮想物体による実音の反射と遮音(A-16. マルチメディア・仮想環境基礎,一般セッション)
- 複合現実空間との新しいマルチモーダル・インタラクション方法の提案と実現
- A-16-30 現実空間での音検出とその複合現実空間へのイベント入力利用(A-16.マルチメディア・仮想環境基礎,一般講演)
- 実時間歌唱力補正に基づく新たなカラオケエンタテインメントの創出
- E-002 高フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減の検討(E分野:自然言語・音声・音楽,一般論文)
- 3U-8 室内音響指標に基づく残響下音声認識性能の推定と評価(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 5U-3 音響防犯システムのためのSVMを用いた叫び声の検出と音声認識(音声インタフェース・システム,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- CENSREC-3 : 実走行車内単語音声データベースと評価環境の構築(ポスターセッション)(第6回音声言語シンポジウム)
- 実環境下音声認識の評価の標準化とその動向(音声・言語における標準化動向)(第6回音声言語シンポジウム)
- A-16-6 視覚・聴覚を併用した複合現実感システムの開発(3) : 頭部伝達関数の選択と接合法の改良(A-16. マルチメディア・仮想環境基礎,一般セッション)
- A-16-29 視覚・聴覚融合型複合現実感システムの開発(A-16.マルチメディア・仮想環境基礎,一般講演)
- E-003 擬音語HMMに基づく音場ディクテーションシステムの評価(E分野:自然言語・音声・音楽,一般論文)
- 視覚・聴覚の現実と仮想を融合する2×2方式複合現実感システムの実現
- A-16-15 視聴覚併用複合現実空間のスケール感に関する実験と考察(A-16.マルチメディア・仮想環境基礎,一般講演)
- 歌唱データベースを用いたヴィブラートの個人性の制御に有効な特徴量の検討
- 正三角形型マイクロホンアレーと全方位カメラを用いた全方位マルチモーダル話者方位推定の検討
- A-16-7 超音波スピーカによる移動音源の実現と視覚補助による定位性能の向上(A-16.マルチメディア・仮想環境基礎,一般セッション)
- 室内音響指標を用いた残響指標RSR-D_nに基づく残響下音声認識性能の予測(音声,聴覚)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張