『日本語話し言葉コーパス』を用いた汎用的な発音変動モデルの統計的学習(音声言語情報処理一般)(テーマ:音声対話システム、音声言語情報処理、一般)

概要

論文の詳細を見る
話し言葉音声の認識において,発音変動のモデル化は認識性能に深く関わる課題である.通常,音声認識に用いる発音辞書は形態素解析器が出力する標準的な読みに基づいて生成されるが,これでは話し言葉に多く含まれる発音変動をカバーできない.本研究では,まず『日本語話し言葉コーパス』(CSJ)を用いて発音変動のパターンを汎用的な音素系列のレベルで統計的に学習した.コーパスから自動的に獲得された音素列の変動パターンは265種類であり,音韻論的に妥当なものに加えて人手による規則化が困難なものを頻度統計とあわせて抽出することができた.これらのパターンに対して,バックオフ手法により可変長の音素文脈を扱える確率つき音素書き換え規則を構築する.これらの規則を適用することで,任意の語いに対して標準的な読み(baseform)から話し言葉特有の変動を含んだ発音(surface form)を生起確率とともに生成することができる.本手法をCSJとは異なるドメインのための発音辞書に適用したところ,エントリ数が21%増加した.さらに,この発音辞書を用いた音声認識により有意な単語誤り率の改善を得ることができた.
一般社団法人情報処理学会の論文
2004-10-22