木構造を用いた音韻連鎖統計モデル

概要

論文の詳細を見る
計算機における連続音声認識では、処理の効率化のために種々の言語情報を用いている。これらの言語情報としてシンボル連鎖に関する統計情報があり、認識の誤り訂正や曖昧性の解消に有効であることが知られている。連鎖の統計情報には音韻などのシンボルの生成をマルコフ過程とみなし、シンボル列の生成確率を近似するN-gramモデルがあり、統計的言語モデルとして注目されている。N-gramによる言語モデルは与えられた観測データの量が限られている場合やマルコフ過程の次数を上げ、コンテキストの弁別性を高めた時にコンテキストの組合せ数の増加で生じるデータの減少・欠落によって統計的信頼性を損ねることがあった。私達は、コンテキストに応じて参照するシンボルの連鎖長を変化させ、統計モデルの信頼性の低下を避けながら弁別性の高いモデルを生成する手法、「木構造を用いた音韻連鎖統計モデル(Vari-gram)」を提案した。Vari-gramは、コンテキスト生成と後続シンボル生成の結合確率のエントロピーを最大化するコンテキストに注目し、そのコンテキストの連鎖を後方に伸長して新たなモデルを生成する。さらに、このモデルがN-gramより優れた特性を持つことを示した。本論文ではVari-gramの設計方針と統計的連鎖モデルの良さの指標のひとつとされる条件付きエントロピーの関係について考察するとともに、Vari-gramモデルを連続音声認識システムの言語モデルに適用し、実際の音声認識における有効性について検証する。
一般社団法人情報処理学会の論文
1993-03-01

木構造を用いた音韻連鎖統計モデル

スポンサーリンク

概要

著者

関連論文

スポンサーリンク