OCR自動補正用分野別辞書の検討
スポンサーリンク
概要
- 論文の詳細を見る
光学式文字読み取り装置OCR(Opticalcharacter Reader)は,いわゆるパターン認識機械の一つであり,印刷された日本語文書を電子化する道具として大変有力である.しかしながら,現段階においてはOCRの文字認識率を100%にまで向上させることは不可能であると言われている.また,OCRの誤りは対象文書の内容とか形式に依存して著しい偏在を示す傾向が指摘されている.そして,文字認識の誤りを補正する後処理の研究が,数多く行なわれている.とくに,伊東と丸山によるDRS[3]は汎用の辞書(115,900語)に加えてユーザ辞書(1000語)を認識実験用に用いた本格的なものであるが,OCR装置のアルゴリズム自身に改良を施そうとするものである.すなわち,認識過程の曖昧性を表現する方法として単語の出現頻度,単語間の遷移確率,認識実験確率および候補生起確率を基にした確信度を導入しているので,この方法は元になるOCRの認識アルゴリズムに依存したものであり,独立した補正法には採用しがたい.本研究では,既存のOCR装置を利用して,その後のオペレータによる補正処理(後処理)を自動化するための辞書を構築する方法について検討する.とくに,対象分野を刑法テキストに限定した場合に,約3%の誤りを含むOCR出力文書に対して補正率を向上させ,過剰な変更を極力押さえる方法を検討した.
- 1993-09-27
著者
関連論文
- 高校普通教科「情報」とスキル教育
- ネットワーク市民と情報倫理の課題
- ITモラル教育と情報セキュリティ実習
- ITモラル教育と情報セキュリティ実習
- 大学における情報モラル教育支援環境の課題
- 討論 : 初等中等教育における情報倫理教育の確立を目指して
- ポータブルマルチメディアプレゼンテーションシステムHarmonyのアーキテクチャ
- 多重階層表現が有効なプログラム構造とそのデバッグ環境
- 操作可能なPDGによるプログラミング支援について
- ファジィ・プロダクション・システムの拡張 : 作業記憶の分割と複数ルールの実行
- 科学リテラシーと高校教科「情報」について
- JavaScriptプログラミングと情報教養教育
- 情報倫理構築の構造 : 技術的視点
- IT革命と情報倫理
- 情報倫理教育について
- 自律分散系における柔らかい協調機構について(3)
- 異質エージェントを含む系における柔らかい協調機構について
- WWWの構築と運用
- OCR自動補正用分野別辞書の検討
- 単語間の共出現度数によるかな漢字一括変換
- 関西大学構内ネットワーク(KAISER)の紹介
- 2.自律分散系における協調アルゴリズム(関西支部 第3回例会)
- 浅居喜代治(編), ファジィ科学-人間・社会・自然への応用-, 海文堂出版, 発 行 1994年9月, A5判, 274頁, 4,500円
- 進路指導支援システムにおける学生モデルの時間的推移
- ファジィ集合の日本語による言語近似
- 1. シフト型ファジィによるファジィ集合の言語近似(関西支部第1回例会)
- ファジィ修飾語(ファジィ理論入門(6))
- インターネット倫理国際シンポジウムISIE2012に参加して(情報セキュリティ・一般,インターネットと情報倫理教育,一般)