ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)

概要

論文の詳細を見る
近年,音声認識技術の飛躍的な発達に伴い,音声認識を活用した音声情報案内システム等が利用されるようになりつつある.しかし,騒音環境下での音声認識性能は,十分なSNRが確保できないことや,ロンバード効果と呼ばれる発話変形により低下するという問題がある.ロンバード効果とは,十分な聴覚フィードバックが確保できないときに生じ,基本周波数やフォルマント周波数等,音声認識に用いる特徴量に変化が生じる現象を示す.このロンバード効果により,騒音環境下での音声認識性能が静環境下での音声認識性能に比べ著しく低下するという問題がある.そのため,騒音環境下における音声認識性能の改善には,ロンバード効果の抑圧が必要となる.しかし,ロンバード効果の抑圧には大量のロンバード音声と平常音声が必要となるが,データが不足しているのが現状である.そこでまず,ロンバード効果を含むロンバード音声コーパスを構築した.構築したコーパスから,ロンバード効果による特徴の変化を詳細に分析し,ロンバード音声と平常音声の識別実験を実施した.識別実験は主観評価とマハラノビス距離による客観評価にて行った.その結果,主観,客観評価ともに平均80%を超える識別率が確認できた.次いで,分析したロンバード音声の特徴にリサンプリング処理を施し平常音声の特徴に変換することで,ロンバード音声の音声認識性能の改善を試みた.その結果,ロンバード音声の特徴を平常音声の特徴に変換することによって,女声約10%,男声約4%の音声認識性能の改善が確認できた.
2010-05-19

ロンバード特徴量変換に基づく音声認識性能の改善(オーガナイズドセッション:スピーチエンハンスメント,音声,応用/電気音響,信号処理,及び一般)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク