OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
スポンサーリンク
概要
- 論文の詳細を見る
本論文では、多様な紙文書から所望のキーワードとその関係構造を抽出することを目的とした新しい情報抽出方式を提案する。提案方式は、紙文書を文書画像に変換したあと、文字認識技術を用いて文書画像を電子テキストに変換し、それに対して抽出すべきキーワードとその関係構造で構成された文書モデルを適用して情報抽出を行う。本方式は、文書中に含まれる文字認識誤りや未知語や複合語などを適切に扱って高精度な情報抽出結果を得るために、以下の3つの機能で構成されている。まず典型的な文字認識誤りを用いて拡張されたキーワードや部分キーワードで構成されるキーワード辞書を用いて、文字認識候補で構成される2次元のテキストに対してキーワードマッチングを行う。そして、キーワードマッチング結果と文書モデルの間でモデルマッチングを行うことによりキーワードマッチング結果の大域的な整合性を獲得する。最後に、ヒューリスティクルールを用いてモデルマッチング後処理を行うことでキーワードマッチング結果を変更し、さらにキーワードマッチング誤りを解消する。本方式ではこれらの機能を相補的に組み合わせることで、上述した文字認識誤り、未知語、複合語などの問題に対して頑健な情報抽出方式を実現している。また、多様な日本語名刺画像を対象とした実験により本方式の有効性を確認することができた。
- 社団法人電子情報通信学会の論文
- 2002-03-07
著者
関連論文
- 階層的モデルあてはめによるフォーム読み取りシステム
- 多階層構造と階層間相互作用に基づく文書構造解析 : 多様な印刷文書を対象とした文書認識システム
- 意味クラス解析と意図推定に基づくインタラクティブな情報検索インターフェース(テーマセッション1(テキスト処理・文字列画像処理),文字・文書の認識・理解)
- LK-005 ペン操作型情報収集とイベント型情報再利用に基づく情報活用システム(K分野:ヒューマンコミュニケーション&インタラクション)
- I-003 応用規格に基づいたXML文書への変換を可能とする紙文書を対象とした階層的文書変換システム(I分野:画像認識・メディア理解)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- I-71 デジタルカメラで撮影した展示パネル画像の認識(物体認識,I.画像認識・メディア理解)
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- 隣接関係ネットワークに基づく文字列抽出
- 連合グラフを用いたモデルマッチングによるフォーム理解
- D-12-13 創発の概念を導入した文書画像構造解析
- 創発的計算に基づく文書画像からの論理要素の抽出 : ドキュメントリーダによる既存文書のディジタル化
- 創発に基づいた文書画像のレイアウト解析
- 紙文書を対象としたピボットXML文書に基づくXML文書変換システム(文字とドキュメントの認識・理解)
- 紙文書を対象としたピボットXML文書に基づくXML文書変換システム(文字とドキュメントの認識・理解)