Line-Shared-Adjacent(LSA)セルフォーマットを用いたフォーム処理
スポンサーリンク
概要
- 論文の詳細を見る
近年,オフィスにおける帳票(フォーム)によるデータ処理はますます増える一方である.そこで,OCRシステムを用いてこれらの帳票を自動的に処理しようという研究が数多くなされている.ここでいう帳票とは,項目が罫線により区切られている表形式の文書のことを指す.帳票は大きく分けて三種類に分類することが可能である.帳票すべての罫線の位置や項目(フィールド)の大きさが決まっているもの,項目の配置の順序などは決まっているが,位置や大きさなどが決まっていないもの,そして、項目は決まっているが,その順序,位置等は決まっていないものである.第一の帳票は広く使われており,多くの研究がなされている.第三の帳票に関しては現段階では困難な点が多く,実用的な段階にいたっていない.第二の帳票は官公庁指定の帳票などで数多くみられ,これらの処理の自動化に関しては現段階ではまだ研究の途上である.本論文は第二の帳票を一つの書式(フォーマット)に基づいてOCR処理するためのレイアウト解析の方法を示すことを目標としている.ここにおけるレイアウト解析とは,フォーマット情報に基づき書式に定義されているすべてのフィールドの位置・大きさを帳票のイメージ上で特定するということである.
- 1996-09-04
著者
関連論文
- 印刷文書認識システムAutoReco/2 : テキストプロセス
- 印刷文書認識システムAutoReco/2 : イメージプロセス
- 印刷文書認識システムAutoReco/2 : システムの構成と概要
- 表データのカット&ペーストの一方式
- 複雑なカラム構造をもつ文書イメージの領域分割法
- Line-Shared-Adjacent(LSA)セルフォーマットを用いたフォーム処理
- DPマッチングを用いた表形式データの解析方法
- 文書OCRにおける出力テキストの整形方法
- レイアウト構造を利用したページ記述への電子透かし埋め込み手法
- レイアウト構造を利用したページ記述への電子透かし埋め込み手法
- ロジカルフォーマットをによる帳票処理