ハンガリー語LVCSRのための有限状態トランスジューサに基づく音韻論・形態論モデル化

概要

論文の詳細を見る
本論文では、形態素単位による音声認識における音韻論と形態構文論のモデル化への新しいアプローチについて述べる。提案法は、我々が構築しているハンガリー語の大語彙連続音声認識(LVCSR)システムによって評価されている。タスクは、主要日刊新聞を流暢に読み上げた文音声の認識である。接辞や複合語のために膨大な数になる単語形を十分にカバーするために、形態素に基づく語彙単位をシステムに用いている。基本的な発音モデルと形態素Nグラムに対して、新しい音韻論モデルと新しい統計的形態構文言語モデル(SMLM)を評価した。柔軟性の高いトランスジューサに基づくシステム構成のおかげで、これらの新しい要素は、デコーダ自体を変更することなく、基本的なモジュールと親和性よく統合されている。ベースラインシステムに比較して、提案した音韻論モデルにより誤り率が8.32ルにより誤り率が17.9%低下した。1350形態素のハンガリー語ディクテーションタスクで、最良の構成で14.75%の形態素誤り率が得られている。
2002-12-12