統計的形態素解析と文字n-gramを利用したOCR誤り訂正

スポンサーリンク

概要

論文の詳細を見る
近年, インターネットの普及により, OCRを用いたテキストの電子化がますます重要な課題となってきた。日本語OCR誤り訂正の先行研究において統計的言語モデルを利用して訂正対象と同じ分野の学習コーパスを用意することで高精度の訂正能力を示す研究がある。しかし, 電子化された大量テキストコーパスを期待できない場合が多い。そこで電子化されたコーパスがない分野に対して, OCR処理された誤りを含むテキストから学習を行なうモデルを構築する。この時, 辞書に無い未知語獲得もOCR処理されたテキストから行なう。実際にOCR処理されたテキストに対する訂正実験の結果, 学習コーパスと訂正対象の分野が一致していた先行研究に比べ約1/4程度の訂正精度を示したことを報告する。
一般社団法人情報処理学会の論文
1999-03-04

著者

関連論文

もっと見る

スポンサーリンク