残響環境下音声認識における発話位置・話者依存性の分析評価(オーガナイズドセッション:スピーチエンハンスメント,音声・音響信号処理,音声及び一般)
スポンサーリンク
概要
- 論文の詳細を見る
本研究では残響環境下における音声認識性能の発話位置依存性と話者依存性について調査した結果を報告する.近年,使用者が大幅に増加している音声認識システム搭載の携帯機器を利用するにあたり,マイクロホンから離れて発話すると,雑音や室内残響等の混入により音声認識性能が著しく低下するという問題がある.そこで事前に各環境が与える音声認識性能の劣化量を予測できれば,音声認識の前処理にて使用者に適した音響特徴量の最適化ができる.また使用者の発話位置が既知であれば,その位置における音声認識性能の予測結果をもとに利用者に対して受音器への接近や離反を促すことが可能となる.これまでに雑音・残響環境下における音声認識性能の予測手法は数多く提案されてきた.そこで本研究では,音声認識性能の予測結果をもとに音声認識性能を向上させる基礎的研究として,残響環境下における音声認識性能の発話位置・話者依存性について調査した.具体的には,使用者の発話環境(入出力間距離,壁からの距離,発話方位)による音声認識性能の傾向を分析した.また各残響環境における複数話者の音声認識性能から残響に脆弱または頑健な話者の存在についても併せて調査した.発話位置依存評価では,壁と発話者間の距離と音声認識性能の関係が残響環境によって異なることが確認できた.また話者依存評価では,残響に脆弱な話者が存在することを明らかにした.
- 2011-05-05
著者
-
森勢 将雅
立命館大学情報理工学部
-
山下 洋一
立命館大学情報理工学部
-
西浦 敬信
立命館大学情報理工学部
-
山下 洋一
立命館大学
-
福森 隆寛
立命館大学大学院理工学研究科
-
西浦 敬信
立命館大学
-
森勢 将雅
立命館大学 情報理工学部
-
森勢 将雅
立命館大学
-
山下 洋一
立命館大学情報理工学科
-
福森 隆寛
立命館大学大学院情報理工学研究科
関連論文
- 基本波検出に基づく高SNRの音声を対象とした高速なF0推定法(音声,聴覚)
- 視聴覚統合を利用した非言語的手段による音色知覚の評価について
- 視覚・聴覚を併用した複合現実感システムの開発(5)ヘッドホンとスピーカの併用による音提示法の拡張 (音声)
- 視覚・聴覚を併用した複合現実感システムの開発(5)ヘッドホンとスピーカの併用による音提示法の拡張 (パターン認識・メディア理解)
- 視聴覚統合における刺激音の時間-周波数的特徴と視覚刺激の形状特徴の検討 : 人間の知覚特性に基づく音楽の可視化システムに向けて(インタフェース)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価 (信号処理)
- 基本波検出に基づく高SNRの音声を対象とした高速なF0推定法
- 再合成音声の品質に対する音声スペクトル包絡推定法の影響について(感情音声,韻律,声質,音声生成・知覚,脳機能,一般)
- 高品質分析合成のための有声音の非周期成分の表現と推定について
- 分析時刻に依存しない周期信号のパワースペクトル推定法を用いた音声分析(ディジタル信号処理)
- TANDEM-STRAIGHTおよび時変モーフィングのための研究用インタフェースの開発について(聴覚・音声・言語とその障害,一般)
- TANDEM-STRAIGHTおよび時変モーフィングのための研究用インタフェースの開発について
- 実時間操作インタフェースへの応用を目的とした歌唱モーフィング操作パラメタの時系列への拡張について(音響信号処理)
- 基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について(音声合成・声質変換,第10回音声言語シンポジウム)
- TANDEM-STRAIGHTによるスペクトル包絡の近似精度の改善について : 基本周波数により定まるNyquist周波数以上の空間周波数成分の復元について(音声生成・知覚,聴覚心理,音声学・音韻論,一般)
- 4L-5 STRAIGHTに基づく柔軟な音声合成技術の開発(リーディングプロジェクト e-society:自然な音声対話処理技術(2),一般セッション,リーディングプロジェクト e-society)
- リアルタイムSTRAIGHTの改良とSTRAIGHTライブラリの実装(聴覚・音声・言語とその障害,一般)
- AS-5-1 時間平均に基づく周期信号のパワースペクトル推定法(AS-5. 音響信号のモデリングと表現,シンポジウムセッション)
- ポップス系歌唱音声における基本周波数軌跡の楽譜からの変位について(スペシャルセッション・歌情報処理1)
- TANDEM-STRAIGHTによるスペクトル包絡の近似精度の改善について--基本周波数により定まるNyquist周波数以上の空間周波数成分の復元について
- リアルタイムSTRAIGHTの改良とSTRAIGHTライブラリの実装
- TANDEM-STRAIGHTに基づく基本周波数の抽出と評価について(音声合成・韻律,第9回音声言語シンポジウム)
- モーフィングに基づく歌唱デザインインタフェースの提案と初期的検討(音楽情報,インタラクションの理解とデザイン)
- 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案 (応用音響)
- 近接音源位置推定のための2D-CSP法の評価 (音声)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減 (音声)
- ロンバード特徴量変換に基づく音声認識性能の改善 (音声)
- 近接音源位置推定のための2D-CSP法の評価 (信号処理)
- ロンバード特徴量変換に基づく音声認識性能の改善 (応用音響)
- 音声のテクスチャマッピングに基づく変換関数を利用した音声モーフィングの自動化について : 音声テクスチャマッピングの一応用例
- 視覚・聴覚を併用した複合現実感システムのための頭部伝達関数の個人化
- 音源構造抽出法の初期推定値のバイアス除去と高速化について
- 零周波数フィルタ信号に基づく基本周波数抽出法のTANDEM-STRAIGHTへの応用について(音響分析一般(1))
- 音声中の複数の繰返し構造の表現とその基本周波数および非周期性抽出への応用について
- TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討(ポスターセッション,第10回音声言語シンポジウム)
- TANDEM-STRAIGHTに基づく基本周波数の抽出と評価について(音声合成・韻律,第9回音声言語シンポジウム)
- 視覚・聴覚を併用した複合現実感システムのための頭部伝達関数の個人化
- EA2010-37 歌唱合成システムの実現を目的とした高品質音声分析合成法の提案
- EA2010-35 擬似音声信号を用いた評価による音源構造抽出法の最適化について
- 母音情報に基づく話者変換システムの提案 : 音声テクスチャマッピングの一実装例(聴覚・音声・言語とその障害,一般)
- 母音情報に基づく話者変換システムの提案--音声テクスチャマッピングの一実装例
- 基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について(音声合成・声質変換,第10回音声言語シンポジウム)
- 基本周波数情報に基づく線形予測と時間軸伸縮を利用した非周期成分の抽出について(音声合成・声質変換,第10回音声言語シンポジウム)
- ポップス系歌唱音声における基本周波数軌跡の楽譜からの変位について(スペシャルセッション・歌情報処理1)
- 周期信号における時間的変動の影響を受けない位相関連情報の表現について (音声)
- 歌唱特徴付与システム「ロックボーカルレゾネータ」
- 歌声を見て触る: TANDEM-STRAIGHTと時変モーフィングが提供する基盤
- 奄美大島民謡節回し付加システム「グインレゾネータ」
- 歌唱力転写システム制作に向けての検討
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 近接音源位置推定のための2D-CSP法の評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 最適フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- TANDEM-STRAIGHTと音声モーフィング--感情音声と歌唱研究への応用 (特集 音声が伝達する感性領域の情報の諸相)
- 高品質分析合成のための有声音の非周期成分の表現と推定について(聴覚・音声・言語とその障害,一般)
- 残響指標RSR-Dnに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 残響指標RSR-D_nに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 残響指標RSR-D_nに基づく残響環境下音声認識の予測性能評価(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 擬音語HMMに基づく音場ディクテーションの検討(音声,応用音響,一般,音声,応用/電気音響,信号処理,及び一般)
- ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)
- 歌唱特徴付与システム「ロックボーカルレゾネータ」
- 窓関数による分析時刻の影響を受けにくい周期信号のパワースペクトル推定法(研究速報)
- LE-004 単母音による歌唱音声スペクトルの統計的分析に基づく音色制御法の提案と評価(自然言語・音声・音楽)
- 歌唱音声の音量変化に伴うスペクトル変形の分析について
- 音声中の複数の繰返し構造の表現とその基本周波数および非周期性抽出への応用について
- 視聴覚統合を利用した非言語的手段による音色知覚の評価について
- TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討(ポスターセッション,第10回音声言語シンポジウム)
- STRAIGHTを用いた簡易モーフィングによる印象変化の評価について(セッション2)
- STRAIGHTを用いた簡易モーフィングによる印象変化の評価について(セッション2)
- ポップス系歌唱音声のSTRAIGHTによる分析とスペクトル変動の統計的性質について(合成,生成,韻律,一般)
- 6U-4 奄美大島民謡風歌声合成のためのコブシに着目した歌声の特徴分析(音声・歌声合成,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- TANDEM-STRAIGHTに基づく基本周波数抽出法の最適化に関する一検討(ポスターセッション,第10回音声言語シンポジウム)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 視覚・聴覚を併用した複合現実感システムの開発(5) : ヘッドホンとスピーカの併用による音提示法の拡張(テーマセッション,クロスモーダル)
- 実時間歌唱力補正に基づく新たなカラオケエンタテインメントの創出
- TANDEM-STRAIGHTに基づく基本周波数の抽出と評価について(音声合成・韻律,第9回音声言語シンポジウム)
- E-041 音声モーフィングのための母音スペクトル間区分線形写像関数自動設計手法(E分野:自然言語・音声・音楽)
- 時間方向および周波数方向の周期性の影響を除去した周期信号のパワースペクトルの表現について : STRAIGHTスペクトル推定の無調整化に向けて(聴覚・音声/一般)
- STRAIGHTスペクトルに基づく音源信号の抽出と非周期成分の評価について(一般)
- 周期信号における時間的変動の影響を受けない位相関連情報の表現について(オーガナイズドセッション:「Advances in soeech decomposition」,合成,生成,韻律,音声一般)
- E-002 高フロアリング係数を用いた反復スペクトルサブトラクションによるミュージカルノイズの低減の検討(E分野:自然言語・音声・音楽,一般論文)
- 3U-8 室内音響指標に基づく残響下音声認識性能の推定と評価(音声認識・理解,学生セッション,人工知能と認知科学,情報処理学会創立50周年記念)
- 歌手によるビブラート特徴量の違いの分析(音楽・歌声,合成,生成,韻律,音声一般)
- 歌声を見て触る : TANDEM-STRAIGHT と時変モーフィングが提供する基盤
- 歌唱音声制御に伴うスペクトル変動の主成分分析と合成への応用について(聴覚・音声及び一般)
- E-003 擬音語HMMに基づく音場ディクテーションシステムの評価(E分野:自然言語・音声・音楽,一般論文)
- 対数時間軸伸縮による人間の頭部伝達関数測定の精度改善について
- 高品質音声分析変換合成システムSTRAIGHTにおける分析窓の検討(合成,生成,韻律,一般)
- STRAIGHTによるリアルタイム歌唱モーフィングシステムの実装(セッション5)
- STRAIGHTによるリアルタイム歌唱モーフィングシステムの実装(セッション5)
- 騒音適応型音楽再生システムのパラメタ設定における聴覚モデルによる評価の応用について
- A-16-7 超音波スピーカによる移動音源の実現と視覚補助による定位性能の向上(A-16.マルチメディア・仮想環境基礎,一般セッション)