文字類似度と統計的言語モデルを用いた日本語文字認識誤り訂正法

スポンサーリンク

概要

論文の詳細を見る
本稿では, 日本語のように文字種が多くかつ単語を分かち書きしない言語のための文字認識誤り訂正法を提案する.本手法は, 文字の類似度を考慮した統計的文字認識装置モデル, 未知語を考慮した統計的言語モデル, 短い単語に適用可能な類似単語照合法, および, 確率が大きい順に任意の数の候補を求めるN-best単語列探索法から構成され, 広い範囲の日本語文および広い範囲の文字認識率に対して頑健かつ高精度な文字認識誤り訂正が可能である.EDRコーパス(約500万語)を用いた実験では, 文字認識率が70%, 80%, 90%のテキストに対して, 本手法は文字認識率はそれぞれ88.3%, 94.1%, 97.4%に改善した.
一般社団法人情報処理学会の論文
1998-09-17

著者

永田昌明
Ntt情報通信研究所

関連論文

もっと見る

スポンサーリンク