OCR文書の認識誤り修正支援システムの開発
スポンサーリンク
概要
- 論文の詳細を見る
ディジタル図書館の実現のために, 紙でしか存在しないもののディジタル化手段として, OCR (Optical Character Recognition)の需要が高まっている。OCR結果には, 文字認識誤りが多く, 誤りの訂正には時間がかかるため, 入力工数削減が望まれている。本研究では, 技術情報サービスで対象としている文書の特徴をとらえて, 訂正能力が優れ, 操作性のよい認識誤り修正支援システムを開発した。スペル誤りのチェックおよび自動訂正の研究は古く, 英文で30年, 和文で10年以上の歴史があるが, 今日もなお研究が続いている。それぞれの手法は用途が限られ, また誤り訂正能力に制約があり, OCRなどでは, スペル誤りの訂正に要する工数は今なお, 多大なためである。従来のスペルチェック・訂正の研究では, 1つの単語に含まれる文字誤りは少ないこと(せいぜい2, 3個)が前提となっていることが多い。しかし, 英字を含む和文OCRでは, 長さ10文字の英単語に4, 5文字のエラーが含まれていることが珍しくない。われわれは, 先に, 日本語OCR文において認識エラーの多い英字, カタカナを対象を対象としたスペル誤りの訂正方式を開発した。ここで開発したスペルチェッカ(SpellChecker-1)は, 誤りのある単語を一つずつダイアログボックスで確認して, 修正するものであった。本稿では, これをさらに発展させ, 単語の切り出し精度の改善と, 誤りを含む単語を一斉に表示して, 正しい単語が第一候補にある場合, ワンタッチで修正できる認識誤り修正支援システム(SpellChecker-2)を提案する。
- 一般社団法人情報処理学会の論文
- 1997-09-24
著者
-
畑田 稔
日立製作所システム開発研究所情報センタ
-
遠藤 裕英
日立製作所システム開発研究所
-
野里 真喜子
株式会社日立製作所システム開発研究所情報センタ
-
野里 真喜子
日立製作所システム開発研究所
-
遠藤 裕英
立命館大学理工学部情報学科
関連論文
- 分散型総合病院情報システムへのマイクロコンピュータの応用
- 高性能マイクロプロセッサの技術動向
- WWW活用決裁業務支援システムの試作
- 研究付帯業務へのグループウエアの活用事例
- 研究開発プロセスへのWWW活用事例
- 研究所イントラネット環境の構築
- 企業内研究部門における電子メール環境整備と運用
- ニューラルネットワークによる図書の自動分類
- WWWベースの高速データ検索システム
- WWW環境における研究情報サービスシステムの構築と評価
- OCR文書の認識誤り修正支援システムの開発
- 日本語OCR文における英字・カタカナのスペル誤り訂正法
- ネットワークを活用した研究所内技術情報サービス
- WWW-RDB連携システムの開発