文書OCRにおける出力テキストの整形方法
スポンサーリンク
概要
- 論文の詳細を見る
印刷文書用OCRシステムを用いて文書を認識した後に、その処理結果を有効利用するために、認識結果をどのような形態で出力するのがよいかというのは大きな問題である。また、認識しながら、あるいは認識が終了した後に、認識結果を確認修正する場合に、どのような形態で表示すればより効率的な確認修正ができるかということもシステム全体から見て重要である。認識した文字をテキストファイルとして出力するのがもっとも一般的な方法であると考えられるが、そのテキストファイルでの出力の従来の方法として(1)文字を認識した順に、上から文字列単位で出力する方法、と(2)オリジナルイメージのレイアウトをできるだけ再現して出力する方法、がある。(1)も(2)もそれぞれ認識結果を利用する際には有用な表現形式である。特に、(2)の方法では確認修正の際にオリジナル文書と比較がしやすい等の利点を持つ。従来は、(2)を実現するために文字の座標情報から位置を計算してその位置に文字を表示するという方法で実現していた。しかし、この方法は複数カラムをもつドキュメントを処理した場合などに第2カラム目以降の左端がそろわないなどの問題点をもっている。この問題点の原因としては、座標から文字数を計算する時の誤差、オリジナル文書とテキストファイルとで文字ピッチ、行ピッチ、フォントサイズ等が異なるということがあげられる。そこで本稿では、従来(2)の方法で生じていた問題点を解決するために文字認識に先だって行なわれるレイアウト解析の結果を利用して認識された文字を整形して出力する方法を示す。
- 1994-09-20
著者
関連論文
- 印刷文書認識システムAutoReco/2 : テキストプロセス
- 印刷文書認識システムAutoReco/2 : イメージプロセス
- 印刷文書認識システムAutoReco/2 : システムの構成と概要
- 表データのカット&ペーストの一方式
- 複雑なカラム構造をもつ文書イメージの領域分割法
- Line-Shared-Adjacent(LSA)セルフォーマットを用いたフォーム処理
- DPマッチングを用いた表形式データの解析方法
- 文書OCRにおける出力テキストの整形方法
- レイアウト構造を利用したページ記述への電子透かし埋め込み手法
- レイアウト構造を利用したページ記述への電子透かし埋め込み手法
- ロジカルフォーマットをによる帳票処理