音声と騒音の密度比推定を用いた音声区間検出法(音声入力・区間検出,認識,理解,対話,一般)

概要

論文の詳細を見る
本報では,密度比モデルを用いた頑健な音声区間検出法を提案する.高騒音下での音声区間検出には,尤度比を用いる手法(Likelihood ratio test, LRT)が有効である.従来のLRTでは,音声と騒音のモデルを構築し,それぞれの尤度を計算したのちに,それらのモデルの尤度の比を計算し音声区間を検出する.ここには2点の課題がある.1点目は,LRTにおいては,音声と騒音のモデルの尤度比が必要とされているのであり,それぞれの尤度は必要ないことが考慮されていない点てある.提案法では音声と騒音の尤度を算出することなく,得られた密度比モデルにより直接尤度比を計算する.2点目は,閾値の決定の問題である.閾値は音声・非音声の判断に使われ,音声区間検出の性能に大きな影響を与える.われわれはクラスタリング分析の手法を用いて,閾値を自動決定する手法を提案する.実験の結果,提案法は従来法に比べて,特に非定常性の騒音下で有効であることが示された.また,騒音の特徴に応じて自動的に閾値が定められることを示した.
一般社団法人電子情報通信学会の論文
2012-07-12