日本語印刷文書における文字切り出し : 新聞自動読み取りへの応用
スポンサーリンク
概要
- 論文の詳細を見る
本論文は, 日本語印刷文書における文字切り出し手法について述べたものである. 日本語印刷文書では, 1行あたりの文字数を1文字増やしたり, 減らしたりすることがしばしば行われる. これは, 追い込み, 追い出し操作と呼ばれるものであり, 文字ピッチが大きく乱れる原因となっている. したがって, 黒画素の一次元射影を調べ, 文字ピッチが一定であるという先験的知識のみに依存して文字切り出しを行う従来の手法では, 文字切り出しの成功率は低いと思われる. 著者らの手法は, まず文字ピッチの乱れを検出し, さらにそれが追い込み, あるいは追い出し操作によるものか否かを判定する. もしそうであれば, それらの操作が行われた場合の文字配置に関する知識を利用して, 文字切り出しを行う. このような知識の利用とともに, 従来の画素単位の処理に加えて, 処理の早い段階から, 1文字に相当する画素の集合を処理の単位とするために, 新たに8連結ブロックと呼ぶ黒画素の集合を定義し, 8連結ブロックの大小とそれらの相対的位置関係を利用して文字切り出しを行う点に大きな特徴がある. 著者らは, 新聞などの自動読み取りシステムについて研究中であり, この手法は, そのシステムの一部分として新聞を対象に開発したが, 新聞に限らず他の日本語印刷文書にも十分適用できると考えられる.
- 一般社団法人情報処理学会の論文
- 1983-07-15
著者
-
豊田 順一
大阪大学基礎工学部情報工学科
-
西村 康
大阪大学基礎工学部情報工学科
-
野口 要治
大阪大学基礎工学部情報工学科
-
豊田 順一
大阪大学基礎工学部情報工学科:(現)大阪大学産業科学研究所
-
野口 要治
大阪大学基礎工学部情報工学科:(現)シャープ(株)
関連論文
- 構造化プログラミング用語LSP(PL/I)
- 亜順序文法とその構文解析法
- L-Fuzzy論理 (多値論理およびその応用 II)
- Fuzzy代数 (多値論理およびその応用研究会報告集)
- 日本語印刷文書における文字切り出し : 新聞自動読み取りへの応用
- ウエッブ文法によるデータ構造取り扱いシステム
- ウエッブ文法によるグラフの表現
- 新しい記号処理概念によるSNOBOL インタプリタ