文化系の計算機利用III : 旧字体活字の文書の自動読み取りの改良
スポンサーリンク
概要
- 論文の詳細を見る
旧字体で印刷された文書などをOCR(光学文字認識装置)で読み取った場合の誤認識を、人手の後編集の前に自動的に訂正するプログラムを開発した。 日本語の漢字かな交じり文の印刷文書を、現在のOCRは99%以上の精度で読み取るとされている。悪条件下でも、現代フォントの活字ならば95%は正確に読み取るが、旧字体の活字では正読率は80%に満たない。本プログラムはこの状況を改善することを目標としている。 本プログラムは、OCRの入力と、その人手による編集結果を比較して、どういう読み誤りをするかの知識を抽出集積して、それを自動的な訂正コマンドに作り上げるものである。実験によると、正読率80%弱のテキストに本プログラムが抽出した自動訂正コマンドをかけると、約10ポイントの向上があり、実質正読率90%に達することがわかった。
- 国際日本文化研究センターの論文
- 1993-09-30
国際日本文化研究センター | 論文
- 興行としての宣教--G・オルチンによる幻燈伝道をめぐって (特集 近代東アジア文化とプロテスタント宣教師--その研究と展望)
- 「未亡人」の家--日本語文学と漱石の『こころ』
- 日清・日露両戦役間の日本におけるドイツ思想・文化受容の一面--総合雑誌「太陽」掲載の樗牛・嘲風・鴎外の言説を中心に (共同研究報告 「総合雑誌『太陽』の総合的研究」中間報告-その2-)
- 「満州」幻想の成立過程--いわゆる「特殊感情」について
- 《三条本洛中洛外図》の人脈について