コードブックを用いた実時間処理CMNの実装と評価

概要

論文の詳細を見る
人型ロボットや券売機など公共の音声認識システムには話者交替が頻繁に生じるという特徴があるため,高速な話者適応技術が重要である.話者,空間,収録機器等を簡便に一括して正規化する手法としてケプストラム平均正規化(CMN)が広く用いられている.公共の音声認識システムでは,空間や収録機器の特性が急激な変化をすることは少ないので, CMNは主に話者正規化の効果を果たす.しかしながら, CMNは一般に発話単位でケプストラム平均値を算出するため,発話の人力開始と同時に認識処理を開始できない.そのため公共の音声認識システムでは必須である実時間処理が困難である.また,公共の音声認識システムは発話が短時間である傾向があるが,そのような場合, CMNは音韻の偏りの影響により性能が劣化してしまうという問題点がある.そこで,認識処理中に母音区間を検出し,母音ケプストラムを入力情報として,コードブックにより発話者に近い話者の発話を発話データベースから選択し,近似的に長時間CMをフレーム同期で求める手法を提案する.音声対話情報案内システム「たけまるくん」により収集した実環境データを用いた実験により,公共の音声認識システムにおけるオンライン/オフラインCMNの効果を明らかにする.結果,提案法は実時間処理であるが,発話単位でCMを算出するCMNに匹敵する性能を示した.また,代表的な従来の実時間処理CMNと比較しても,提案法が優位であることがわかった.
一般社団法人情報処理学会の論文
2006-02-03

コードブックを用いた実時間処理CMNの実装と評価

スポンサーリンク

概要

著者

関連論文

スポンサーリンク