話者方位情報とゼロ交差情報に基づくハンズフリー発話区間検出の評価(セッション5 : 音声認識+音声合成)

概要

論文の詳細を見る
ハンズフリー音声認識において発話区間検出(Voice Activity Detection : VAD)は必要不可欠である.ゼロ交差情報などの時間特微量に基づいた時間領域VAD法は,雑音によって歪みを受けた遠隔発話に対して十分な性能を得られないという問題がある.また,話者方位情報などの空間特微量に基づいた空間領域VAD法は,指向性雑音環境下で大きく性能が劣化するという問題がある.本稿ではこれらの問題を解決するために,時間領域VAD法と空間領域VAD法を統合することを検討し,話者方位情報とゼロ交差情報に基づいた雑音に頑健な時間-空間領域ハンズフリーVAD法を提案する.提案手法は,音声の到来方向推定に特化したWCSP (Weighted Cross-power Spectrum Phase)法によって空間安定度と空間信頼度を抽出する.そして,抽出した空間特微量に基づく適応型ゼロ交差検出法によって発話区間を頑健に検出する.実オフィス環境における評価実験の結果,提案手法は従来手法よりも高い発話区間検出性能を得られることを確認した.
社団法人情報処理学会の論文
2007-02-09