非巡回型グラフサーチを用いた日本語文書の文字切り出し方式
スポンサーリンク
概要
- 論文の詳細を見る
日本語印刷文書では、印字間隔(文字ピッチ)が基本的には等間隔であり、隣接文字との接触が少ないため、文字の位置情報を利用して切出しを行う場合が多い。従来の方法の多くは、日本語の文字は大体において外接矩形がほぼ正方形で幅が一定であること、偏とつくりの間の距離は文字と文字の間の距離よりは近いこと、文字ピッチはほぼ一定であることといったルールを適用して文字切り出しを行っているが、全半角等サイズの異なる文字が混在し、しかも印字品質の低下により接触文字が多発する文書に対しては不十分である。本稿では、複数の可能な組み合わせを非巡回型グラフで表現し、文字のピッチ、サイズ、相対的な位置関係及び認識結果を総合的に加味したコスト関数を用いてグラフサーチし、最適パスを見つける方法について述べる。
- 一般社団法人情報処理学会の論文
- 1996-09-04
著者
関連論文
- 文書画像のレイアウトモデル作成方式
- 印刷文書認識システムAutoReco/2 : テキストプロセス
- 印刷文書認識システムAutoReco/2 : イメージプロセス
- 印刷文書認識システムAutoReco/2 : システムの構成と概要
- 非巡回型グラフサーチを用いた日本語文書の文字切り出し方式
- 表データのカット&ペーストの一方式
- モデルに基づいた文書画像のレイアウト理解