かな・漢字文字列を単位とした言語モデルの検討

スポンサーリンク

概要

論文の詳細を見る
本研究では、形態素解析された単語を単位とせず、文字単位でN-gram言語モデルを作成した。また、文字単位は言語制約が弱くなるため、評価基準に基づいて文字列を選択し、文字と文字列によるN-gram言語モデルを作成した。文字列の選択基準としては、高頻度の文字列を選択する方法、出現頻度を考慮した相互情報量の値の高いものを文字列と選択する方法、の2つを試みた。毎日新聞テキストコーパスとJNASの音声データベースを用いて、パープレキシティおよび連続音声認識実験における文字誤り率(CER)を評価した。選択基準としては、相互情報量の方が性能は向上した。単語単位のものと比較してみると性能の改善は見られなかったが、文字単位よりも文字列単位の方が性能が向上した。また、語彙サイズを比較すると、文字、文字列単位は単語単位のものよりも50%減少している。
社団法人電子情報通信学会の論文
2002-12-13

著者

関連論文

もっと見る

スポンサーリンク