携帯端末向け大語彙連続音声認識システム(音声,聴覚)

概要

論文の詳細を見る
市販の携帯情報端末(PDA)上で動作するコンパクトな大語彙連続音声認識システムを開発した.音響モデルにはトライフォン単位を用い,MDL基準に基づく混合ガウス分布数の削減,木構造を利用した効率的な出力確率計算,などにより認識性能の劣化を抑えながらパラメータ数を約1/3に,出力確率値の計算量を1/10以下に削減した.言語モデルはクラスbigramをベースに,高頻度単語bigramを併用した.サーチは2パス方式で,単語終端テーブルのガーベジコレクションによるメモリ使用量増加の抑制や,単語終端における言語スコア計算結果の再利用による効率化などを行った.5000語の文入力タスクでは,文節程度の長さに区切って発声した音声に対して実時間動作(話者適応化あり,単語正解精度91.6%,メモリ使用量4MByte)することを確認した.5万語旅行会話音声認識タスクは,言語モデルを約10万文の旅行会話コーパスを用いて学習し,単語trigramも使用することにより,連続発声に対して実時間の約1.5倍の処理時間で動作することを確認した(男性10名1800発話に対する性別不特定話者の単語正解精度95%,メモリ使用量8MByte).
社団法人電子情報通信学会の論文
2004-02-01