木構造を用いた音韻連鎖統計モデル

概要

論文の詳細を見る
連続音声認識において音韻認識誤りを補正するための言語情報のひとつとして、音韻連鎖統計モデルが広く用いられている。音韻連鎖の統計モデルとは、情報発生源である文章や会話の音韻連鎖の内在的構造を、実際に収録された文章や会話などの有限のトレーニングデータから推定するものである。このような統計モデルとしてN-gram による音韻連鎖の確率モデルが音声認識に有効に働くことが知られている。しかしN-gram モデルでは、音韻連鎖長Nの値が増加するにつれ、モデルの分解能が向上する反面、モデルを推定するために必要な標本数が減少し、個々のモデルの推定精度が低下するためモデル全体の統計的信頼性が損なわれる問題点があった。我々は、統計的な信頼性を損なうことなく分解能、推定精度を向上させながら音韻連鎖の生成確率をモデル化するために、コンテキストに応じて参照する連鎖の長さを動的に変化させる、木構造を用いた音韻連鎖統計モデル(Vari-gram)を提案した。Vari-gram モデルは、木構造を用いて音韻連鎖のコンテキストを表現し、情報量の大きなコンテキストを選択的に分割、成長させることでモデルの長さを増加させ、分解能の高いモデルを実現する。この時、モデルの信頼性の低下を生じさせるような標本数の少ないコンテキストの成長は抑制され、モデルの信頼性が維持できる。また、従来から用いられているN-gram に対し、タスクとの適合性を示すcoverageや、一文あたりの生成確`率、認識タスクの複雑さを示すパープレキシティーの点で優れていることを実験によって検証した(2)。
一般社団法人情報処理学会の論文
1992-09-28

木構造を用いた音韻連鎖統計モデル

スポンサーリンク

概要

著者

関連論文

スポンサーリンク