中間累積距離と音節間類似度を用いた単音節音声認識

概要

論文の詳細を見る
日本語音声ワードプロセッサを目的として, 特定の話者が単音節単位に発声した音声の認識方式について論ずる. まず, 単音節の認識方式としては, 中間累積距離マッチング法を提案し, 従来必要とされていた子音・母音境界の正確な抽出なしに, 高い認識精度が得られることを示す. 次に, 発声の変動による認識率の低下に対処するため, 候補音節間の類似度に基づくテンプレートの教師付学習方法を提案する. また, 音声認識部の最終的な出力である候補音節列の最適化を図り, 候補単語数を効果的に削減するためにも, この音節間類似度が有効であることを示す. 実験の結果, 男性話者3名が日本語の68音節を10回発声したデータについて平均認識率95.3%, 第2候補まで含めるならば平均98.0%の認識率を得た. また, 出力候補音節列の最適化を図った場合, 平均98.3%の精度を保ちながら, 候補音節数を平均1.24に削減できた. これは4音節からなる単語を認識対象とする場合, 通常の方法に比べ候補単語数を1/7以下に削減できることを示している.
一般社団法人情報処理学会の論文
1986-01-15