紙文書を対象としたピボットXML文書に基づくXML文書変換システム(文字とドキュメントの認識・理解)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,複数ページで構成される紙文書を既存の応用規格に基づいたXML文書に自動変換する新しいシステムを提案する.本システムは主に,文書画像解析,文書構造解析,XML文書変換の3つの機能で構成されている.本システムに複数ページ分の紙文書が文書画像として与えられると,まず文書構造解析処理により,タイトル,著者,パラグラフ,章節見出し,箇条書き,表要素,図表キャプションなどの文書論理要素とその文字認識結果を文書画像から抽出する.次に,文書構造解析処理によって,文書論理要素を読み順にしたがって並び替えたあとで章節構造,箇条書き構造,表構造などの階層的な文書構造を抽出すると共に抽出結果を木構造で記述する.そして.XML文書変換処理により,文書論理構造をXHTLMで記述されたピボットXML文書(中間XML文書)に変換したあと,XSLTや意味タグ付け処理によりピボットXML文書を応用規格に基づいたXML文書に変換する.実験において文書論理要素の抽出精度とXML文書変換工程に要した作業時間を計測したところ良好な結果を得ることができた.
- 2004-02-12
著者
関連論文
- 階層的モデルあてはめによるフォーム読み取りシステム
- Cross-language情報検索のためのBMIR-J2を用いた一考察
- 情報フィルタリングシステムNEATのための検索要求文からのプロファイル生成
- ベンチマーク BMIR-J1 を用いた情報フィルタリングシステム NEAT の評価
- 情報フィルタリングシステム NEAT の開発
- 自動抄録機能をもつ対話的文書検索システム : システムの機能と構成
- コモンHIサービス環境の開発
- 情報フィルタリングシステムNEATのための検索要求文からのプロファイル生成
- AI:過去・現在・未来
- 文脈理解における解釈の情報量について
- 編集にあたって(「実世界に近づくインタフェース技術」)
- 多階層構造と階層間相互作用に基づく文書構造解析 : 多様な印刷文書を対象とした文書認識システム
- 「知的メディア検索技術の動向」にあたって
- 意味クラス解析と意図推定に基づくインタラクティブな情報検索インターフェース(テーマセッション1(テキスト処理・文字列画像処理),文字・文書の認識・理解)
- LK-005 ペン操作型情報収集とイベント型情報再利用に基づく情報活用システム(K分野:ヒューマンコミュニケーション&インタラクション)
- 文書構造解析に基づく自動抄録生成と検索提示機能としての評価
- 自動抄録機能をもつ対話的文書検索システム : 自動抄録機能
- 自動抄録機能をもつ対話的文書検索システム : 検索機能
- 対話的文書検索のための文書構造解析
- 文書の構造解析に基づく文書情報検索
- 日本語論説文自動抄録システムの試作と評価
- 日本語論説文の自動抄録のための文脈構造解析
- I-003 応用規格に基づいたXML文書への変換を可能とする紙文書を対象とした階層的文書変換システム(I分野:画像認識・メディア理解)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- I-71 デジタルカメラで撮影した展示パネル画像の認識(物体認識,I.画像認識・メディア理解)
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- 隣接関係ネットワークに基づく文字列抽出
- 連合グラフを用いたモデルマッチングによるフォーム理解
- WWWを対象にした情報フィルタリングサービス
- WWW情報フィルタリング・検索システム : FreshEye : 全体システムの構成と動作
- WWW情報フィルタリング・検索システム : FreshEye : サービス概要
- 知的情報検索の動向
- 文の意味役割解析に基づく全文検索
- 文の意味解析に基づく全文検索
- 対話的抄録生成機能を持つ文書検索システム
- D-12-13 創発の概念を導入した文書画像構造解析
- 創発的計算に基づく文書画像からの論理要素の抽出 : ドキュメントリーダによる既存文書のディジタル化
- 創発に基づいた文書画像のレイアウト解析
- 日中英3言語6方向音声翻訳システム(翻訳・要約)
- 日中英3言語6方向音声翻訳システム(翻訳・要約)
- 紙文書を対象としたピボットXML文書に基づくXML文書変換システム(文字とドキュメントの認識・理解)
- 紙文書を対象としたピボットXML文書に基づくXML文書変換システム(文字とドキュメントの認識・理解)
- マルチデータベース日本語インタフェースの試作 : 問合せの生成・実行
- マルチデータベース日本語インタフェースの試作 : 日本語入力文解析処理
- 知識共有と協創のためのテキスト構造化と活用支援(テキストマイニング)
- RD-003 口コミ情報からの目的情報抽出(情報アクセス支援,D分野:データベース)