ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出(画像認識,コンピュータビジョン)
スポンサーリンク
概要
- 論文の詳細を見る
文書から内容情報を抽出するには,一般に文書のファイル形式に対応した情報抽出フィルタを用いる.情報抽出フィルタは文書内のテキスト(コード化文字)を抽出するが,文書に含まれる画像中の文字や図面に線分で描かれた文字などの非コード化文字は抽出困難であり,抽出した情報に欠損がある.また抽出できる情報はテキストであり,レイアウト情報や,章節や表構造などの文書論理構造が取得できない課題がある.本論文では,これらの課題に対応した文書解析方式を提案する.本方式は,文書を擬似的に印刷処理してプリンタが印刷を行うための情報を格納したページ記述言語のデータを作成し,内部のグラフィック要素を解析することで,文書中に含まれるコード化文字と非コード化文字の情報を漏れなく抽出できる.更に印刷時のレンダリング情報を解析することで,従来は主に文書画像に適用されていたレイアウト解析方式を電子文書にも適用でき,ファイル形式に依存しない文書論理構造の抽出が可能となる.実験では,ファイル形式の異なる文書画像,電子文書,CAD図面に本方式を適用し,その有効性を確認した.
- 社団法人電子情報通信学会の論文
- 2008-05-01
著者
-
岡野 祐一
三菱電機株式会社 情報技術総合研究所
-
依田 文夫
三菱電機(株)
-
岡田 康裕
三菱電機インフォメーションシステムズ(株)
-
平野 敬
三菱電機株式会社情報技術総合研究所
-
岡田 康裕
三菱電機株式会社情報技術総合研究所
-
依田 文夫
三菱電機株式会社情報技術総合研究所
-
平野 敬
三菱電機株式会社 情報技術総合研究所
関連論文
- FAX-OCRシステムにおける自由帳票読取り技術について
- 文字認識・文書画像解析技術の課題と応用 : 電子文書の解析と映像認識に向けて(複合現実感のためのパターン認識・理解)
- タッチパネルの最新技術動向
- アナログタッチパネルによるマルチタッチインタフェース
- 自由書式文書からの属性自動抽出・視覚化手法の検討(一般セッション(1))(ユビキタスコンピューティングのためのパターン認識・理解)
- 指の近接/接触検知が可能な3次元タッチパネル(セッション1,あったかいインタラクション)
- ページ記述言語の解析に基づく多様な文書からの構造化内容情報の抽出(画像認識,コンピュータビジョン)
- 確率伝播法を用いた文書検索用キーワードの自動抽出(単語・語彙(I))
- D-13-1 表形式UIモデル記述からのWeb画面プログラム自動生成方式(D-13. 知能ソフトウェア工学,一般セッション)
- D-9-5 ルールの部分構造再利用による設計文書チェックルール作成方式(D-9. オフィスインフォメーションシステム,一般セッション)
- D-5-6 文書の論理構造を用いたブートストラップ手法による重要語句の抽出(D-5. 言語理解とコミュニケーション,一般セッション)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- 技術文書からの用語知識の自動獲得方式の検討(セッション2:情報のラベリングと知識の獲得,学生チャレンジ特集)
- D-13-8 注釈付きXMLスキーマを利用したデータ変換プログラム生成方式(D-13.知能ソフトウェア工学,一般講演)
- D-5-8 表層格解析を用いた業務文書チェック方式(D-5.言語理解とコミュニケーション,一般講演)
- D-5-7 設計文書における同義語辞書自動作成方式 : 表記ゆれ抽出の検討(D-5.言語理解とコミュニケーション,一般講演)
- 設計品質向上・開発力強化のための設計書チェック技術とその応用ソリューション"naviQ" (特集 企業・社会の発展を支えるITソリューション)
- D-13-7 設計知識のグラフ表現に基づくプッシュ型文書作成支援システム(D-13.知能ソフトウェア工学,一般講演)
- D-12-87 電子文書からの表領域抽出方式基礎検討(D-12.パターン認識・メディア理解,一般講演)
- D-11-126 図面画像内シンボル抽出方式の検討(D-11.画像工学D(画像処理・計測),一般講演)
- D-12-64 図面内文字列抽出における抽出誤り推定方式の検討(D-12. パターン認識・メディア理解, 情報・システム2)
- PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))
- PDLデータの解析による多様な形式の文書からの情報抽出方式の検討(一般セッション(3))(CVのためのパターン認識・学習理論の新展開)
- K-080 1次元タッチセンサを用いたジェスチャ認識の検討(K.ヒューマンコミュニケーション&インタラクション)
- I-080 構造情報を用いた白線・横断歩道検出に関する検討(I.画像認識・メディア理解)
- 木の編集距離を用いた文の類似度計算方式
- 木の編集距離を用いた文の類似度計算方式
- 車載カメラでの移動物体検出による超音波センサ検出領域の動的拡大
- 木の編集距離を用いた文の類似度計算方式
- D-12-51 多言語文書内の画像に対する言語種類判定処理の検討(D-12.パターン認識・メディア理解,一般セッション)
- HMMを用いた路面標示認識方式に関する検討(テーマセッション,CV・パターン認識のための学習・最適化)
- 木・表構造間写像モデルに基づくXML入力画面自動生成方式(コンテンツ処理)
- FAXOCRにおける一般帳票の読み取り--ロバストなモデル照合に基づく劣化した一般帳票画像の解析
- ロバストなモデル照合に基づくFAX送信された一般帳票の読取り
- D-12-76 オンライン中国語文字認識
- D-12-61 レイアウト解析に基づいた帳票種類判別処理の検討
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- 形状特徴併用検索とその並列処理による大量文書検索方式の検討
- FAX送信された既存帳票画像からの認識フィールド抽出方式の検討
- オンライン文字列認識精度向上に関する検討
- 車両断面形状への直線当てはめとDPマッチングによる車種識別
- D-12-20 ストローク間情報を用いたオンライン文字認識の改良
- 表の構造解析によるFAX送信帳票からの文字認識フィールド抽出法
- オンライン特徴とパターンマッチング手法によるオンライン文字認識
- オンライン特徴とパターンマッチング手法によるオンライン文字認識
- 低品質画像データによる形状特徴併用検索方式の評価
- 既存帳票からの文字認識フィールド抽出に関する検討
- オンライン文字認識における言語情報の効果について
- ストローク情報による文字認識結果の信頼度判定精度向上に関する一検討
- 3M-6 障害物検出方式の検討
- 2L-5 OCR手法を用いたオンライン手書き文字認識の改良
- 中国語オンライン手書き文字認識 : 日本語のオンライン手書き漢字認識との比較と認識性能・文字入力効率の改善 (画像の認識・理解)
- 4D-4 情景画像中の文字検出に関する検討
- 4D-3 ストローク情報を用いた検定によるオンライン文字認識精度向上の検討
- 4D-2 OCR手法を用いたオンライン手書き文字認識
- 1D-6 単板カラーCCDによる撮像文字画像の輝度変換に関する検討
- 外郭ゼロ交差特徴と正準判別分析法による低品質印刷文字認識
- 文字認識誤りを含むテキストからの全文検索方式の一検討
- FAXOCR装置における帳票画像からのノイズ除去
- 文字認識を利用したホームページ自動作成
- 移動物体検出法の検討
- セグメント特徴を使用したオンライン署名照合方式
- ピンイン情報を併用したオンライン中国語文字認識
- 情景画像中の文字検出に関する一検討
- 文書読取における棄却判定方式の検討
- 文書画像からの罫線抽出方式
- A-20-3 携帯端末向けバーコード読取り支援機能の基礎検討(A-20. スマートインフォメディアシステム)
- D-12-32 携帯端末向け文字認識方式の基礎検討
- D-5-6 単語の接続情報を用いた予測入力方式の基礎検討
- オンライン手書き文字データ(TUAT)の分析
- 大局的整合法とDPによるストロークの対応付けを併用したオンライン手書き文字認識
- D-12-27 省メモリオンライン中国語文字認識
- 印刷文書読取システムの試作
- 文字画像中の影の除去に関する一検討
- ニュ-ロ応用の文字認識技術 (ニュ-ラルネットワ-ク応用技術)
- 複合改良LVQニューラルネットワークによる印刷漢字認識方式の評価
- D-9-7 文書検索システムにおける検索結果可視化方式の検討(D-9. オフィスインフォメーションシステム)
- D-12-21 形状特徴照合と形態素解析による文書情報抽出方式の検討
- 情報化オフィスにおける文書インタフェース技術 (特集 IT時代のヒューマンインタフェース技術)
- D-12-17 手書き文書への形状特徴併用検索方式の適用検討
- 方向コード特徴とストローク特徴を用いたオンライン文字認識方式
- 中国語単語知識処理方式の開発
- 中国語オンライン手書き文字データの分析
- オンライン筆者照合技術 (特集 暗号・セキュリティ技術及びその応用) -- (個人識別)
- 大局的特徴と局所的特徴とを併用したオンライン筆者識別方式
- D-12-33 カラー文書からの文字列検出方式
- 双方向Feature Mapによるアーム制御
- 文字認識における距離計算の高速化の検討
- レイアウト情報と記述内容による文書項目の自動分類
- Gaborフィルタを用いた線分特徴抽出手法による手書き数字認識
- 複合改良LVQ方式を用いた手書き漢字認識
- 表形式伝票からの読取領域抽出
- A-11-1 超音波センサの指向性と強度比を利用した開口合成画像からの虚像除去(A-11.超音波,一般セッション)
- タッチパネルの最新技術動向
- D-12-1 領域内の最適化に基づく文字列抽出手法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))
- D-12-2 文字認識処理におけるガベージデータを考慮した特徴次元圧縮法(D-12.パターン認識・メディア理解A(パターンメディアの認識・理解・生成))