線形予測残差の尖度に基づく近端/遠端話者判別の提案(一般,時系列パターン認識,一般)

概要

論文の詳細を見る
マイクロホンで受音した信号から所望の音声のみを判別することは,有用な音声インタフェースやテレビ会議システムを実現する上で重要になる.従来の発話区間検出(VAD)では,複数のマイクロホンで受音した信号から推定した音源の方向を基に所望音声と不要音声との判別を行っている.そのため,話者の方向を推定するために複数のマイクロホンが必要となる.そこで本研究では,単一のマイクロホンのみを用いて所望音声と不要音声とを判別する方法について検討した.本研究では,所望の話者はマイクロホンから一定の距離より近くに存在すると仮定する.提案法では単一のマイクロホンで受音した音声の線形予測残差の尖度に基づいて,受音した音声が近端話者によって発話されたのかどうかを判別することで,所望音声と不要音声とを判別する.実環境における評価実験の結果から,提案法は一般的な残響環境において判別の境界を1000mmとした場合に,10%以下の等誤り率で近端話者と遠端話者とを判別可能であることを確認した.また,提案法は実時間で処理が可能であることを確認した.
一般社団法人電子情報通信学会の論文
2014-02-21