複数セル候補の組み合わせ探索に基づく帳票画像からのセル抽出(テーマセッション,文字認識・文書理解)
スポンサーリンク
概要
- 論文の詳細を見る
未知フォーマットの帳票画像から表を構成するセル領域を抽出する方式を提案する。本方式では表罫線が交差する交点の情報を用いてセル領域の候補を複数抽出し、組み合わせ探索によって最適なセル集合を求める。交点情報を用いて帳票を認識する手法は過去にも見られるが、その多くはフォーマット情報を用いた帳票照合に通用されたものであり、未知帳票の認識に用いるためには交点情報の誤りに頑強な方式が求められる。我々は暖味な交点には複数の候補を用意し、複数のセル候補を生成することによって交点誤りの影響の低減を目指した。本稿では交点情報に基づくセル候補の生成方法と、最適なセル集合を求める組み合わせ探索アルゴリズムについて述べる。また本方式の効果と課題についても考察する。
- 社団法人電子情報通信学会の論文
- 2006-02-16
著者
-
武部 浩明
(株)富士通研究所ソフト&ソリ研究所言語・メディア研究部
-
藤本 克仁
(株)富士通研究所ソフト&ソリ研究所言語・メディア研究部
-
田中 宏
(株)富士通研究所
-
藤本 克仁
株式会社富士通研究所
-
田中 宏
東邦大学医療センター佐倉病院外科
-
藤本 克仁
富士通研究所
-
藤本 克仁
(株)富士通研究所
-
武部 浩明
株式会社富士通研究所
-
武部 浩明
(株)富士通研究所
関連論文
- テロップ文字パターン抽出の一検討(テーマセッション6,文字・文書の認識・理解)
- 文字認識技術を利用した講義動画のスライド同定--文字配置の類似度によるスライド同定方式と講義動画のスライド同定作業コストの削減効果
- ペンインタフェースのための手書き文字認識技術
- 低解像度テキスト画像の高速かつ高精度な2値化方式
- D-11-108 プレプリント接触数字認識の一方式
- 文書間の色一様性に基づく文書画像群からの機密パターン抽出(ソフトコンピューティング及び一般)
- 二値化閾値の補正と罫線形状判定による罫線抽出の高精度化(テーマセッション1,文字・文書の認識・理解)
- 平行測地線からの形状復元によるデジカメ文書画像の歪み補正(テーマセッション3(文字画像処理2),文字・文書の認識・理解)
- D-12-146 認識誤りに対応した単語抽出方式(D-12.パターン認識・メディア理解,一般講演)
- D-12-142 参照画像の動的合成に基づく罫線接触文字の一括認識(D-12.パターン認識・メディア理解,一般講演)