複雑なカラム構造をもつ文書イメージの領域分割法
スポンサーリンク
概要
- 論文の詳細を見る
大量に存在する印刷文書を自動的に電子化してデータベース等に格納する場合,文字認識の前段階としての自動領域分割処理,すなわち文書画像をテキスト領域と図表領域とに自動的に分ける処理,が非常に重要な処理になってきている.そこで,本論文ではこの自動領域分割処理をする一方法を提案する.多くの文書において,そのレイアウトを構成している主要素はテキスト領域である.従って本方法では,主にテキスト領域を解析することによって領域分割を行う.まず,文書画像から文字列,縦横線分そしてその他の黒画素領域を方形として抽出し,その中の文字列の並びの規則性からテキスト領域の候補を推定する.そのために文字列方形の高さと,上下に隣り合って並んでいる二つの文字列のべースライン間の距離のヒストグラムを作る.これらのヒストグラムを解析して規則性を調べ,その規則性から文字列をグルーピングし,テキスト領域の候補を取り出す.次にこのテキスト領域の候補の左右の境界線からページ全体を格子状に分割する.更に過分割した領域を統合し,統合領域それぞれについて射影をとり,最終的にテキスト領域と図表領域を求める.日本語の技術論文,雑誌の91ページを対象に本方法の実験を行った結果,テキスト領域の95.1%,図表領域の93.6%を正しく抽出できた.
- 1996-11-25
著者
関連論文
- 印刷文書認識システムAutoReco/2 : テキストプロセス
- 印刷文書認識システムAutoReco/2 : イメージプロセス
- 印刷文書認識システムAutoReco/2 : システムの構成と概要
- 表データのカット&ペーストの一方式
- 複雑なカラム構造をもつ文書イメージの領域分割法
- Line-Shared-Adjacent(LSA)セルフォーマットを用いたフォーム処理
- DPマッチングを用いた表形式データの解析方法
- 文書OCRにおける出力テキストの整形方法
- レイアウト構造を利用したページ記述への電子透かし埋め込み手法
- レイアウト構造を利用したページ記述への電子透かし埋め込み手法
- ロジカルフォーマットをによる帳票処理