3次キュムラントのBispectrumとMFCCの統合による音声区間検出の検討(Session-4 一般(ポスターセッション),第8回音声言語シンポジウム)

スポンサーリンク

概要

論文の詳細を見る
雑音下において音声認識を行う際,音声非音声の判定により音声区間検出(VAD: Voice Activity Detection)を行う必要がある.静かな状況ではゼロクロッシング法などにより区間検出を行うことが可能である.しかし雑音下,特に音声の大部分が雑音に埋もれてしまっているような状況においては,従来の手法では十分な結果を得ることができない.本稿では,雑音に対するロバストな音声区間検出の手法として,高次統計量として知られている3次キュムラント(3rd order cumulant)のBispectrumを用いて,PCAによる次元圧縮後,MFCC(Mel Frequency Cepstrum Coefficient)との初期統合を行う方法を提案する.実データを用いた実験により,提案手法の有効性を検証する.
2006-12-14

著者

関連論文

もっと見る

スポンサーリンク