XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では, 紙媒体の表をXMLスキーマやDTDに基づいたXML文書に変換する新しい方法を提案する.本方式ではまず, 文書画像に変換した表から罫線で区切られたデータフィールドをセル特徴として抽出する.次に, 各セル特徴をあらかじめ定めた5つのタイプに分類することによりセル配置が不規則な表を識別すると共に, 特定のセルに対して変形処理を実施することにより規則正しいセル配置を形成する.さらに, 規則正しいセルの並びから行(row)構造を抽出することにより階層的な表構造を構成し, 得られた表構造をDOMツリーで記述する.さらに, XMLパーザーを用いてDOMツリーをXHTMLに基づいたピボットXML文書(中間XML文書)に変換したあと, ピボットXML文書に対して情報抽出処理と構造変換処理を適用することによりターゲットXML文書を生成する.科学技術文献, 医薬品添付文書, マニュアル, 約款, 法令集など実際の文書に含まれる表を用いた実験でXML文書変換性能を評価したところ良好な結果を得ることができた.
- 社団法人電子情報通信学会の論文
- 2005-03-11
著者
-
石谷 康人
(株)東芝
-
住田 一男
株式会社東芝研究開発センター
-
住田 一男
(株)東芝 研究開発センター
-
布目 光生
(株)東芝研究開発センター知識メディアラボラトリー
-
住田 一男
(株)東芝研究開発センター 知識メディアラボラトリー
-
石谷 康人
株式会社東芝研究開発センター
-
布目 光生
(株)東芝
-
石谷 康人
東芝 研開セ
-
布目 光生
東芝研究開発センター
関連論文
- 階層的モデルあてはめによるフォーム読み取りシステム
- 文書の様々な活用を可能にするXML構造化技術 (特集 日本語ワードプロセッサIEEEマイルストーン認定記念 自然言語処理技術)
- 機械翻訳を用いた英日・日英言語横断検索に関する一考察
- 確率モデルに基づく日本語情報フィルタリングにおけるフィードバックによる検索条件展開および検索精度評価
- Cross-language情報検索のためのBMIR-J2を用いた一考察
- 情報フィルタリングのためのブール式と文書構造を利用した検索条件生成と検索精度評価
- 情報フィルタリングシステムNEATのための検索要求文からのプロファイル生成
- ベンチマーク BMIR-J1 を用いた情報フィルタリングシステム NEAT の評価
- 情報フィルタリングシステム NEAT の開発
- 電子図書館のための効率的な文書検索 : 検索/提示のための文書構造化と抄録生成
- 自動抄録機能をもつ対話的文書検索システム : システムの機能と構成
- オントロジーメンテナンスのための固有名詞抽出技術の検討(オントロジー,「Webインテリジェンス」及び一般)
- コモンHIサービス環境の開発
- 情報フィルタリングシステムNEATのための検索要求文からのプロファイル生成
- 人名と番組名の言い換えに対応する音声認識インタフェース
- 5H-3 投稿情報に基づくビジネスメールの話題分類(自然言語処理,一般セッション,人工知能と認知科学)
- AI:過去・現在・未来
- セマンティックWebのツール(セマンティックWeb)
- 文脈理解における解釈の情報量について
- 編集にあたって(「実世界に近づくインタフェース技術」)
- 多階層構造と階層間相互作用に基づく文書構造解析 : 多様な印刷文書を対象とした文書認識システム
- 「知的メディア検索技術の動向」にあたって
- セマンティックWebにおけるメタデータとその活用(セマンティックWeb)
- 意味クラス解析と意図推定に基づくインタラクティブな情報検索インタフェース(ユーザインタフェースとインタラクティブシステム,インタラクションの理解とデザイン)
- 意味クラス解析と意図推定に基づくインタラクティブな情報検索インターフェース(テーマセッション1(テキスト処理・文字列画像処理),文字・文書の認識・理解)
- LK-005 ペン操作型情報収集とイベント型情報再利用に基づく情報活用システム(K分野:ヒューマンコミュニケーション&インタラクション)
- 文書構造解析に基づく自動抄録生成と検索提示機能としての評価
- 文書構造に基づく自動抄録生成
- 自動抄録機能をもつ対話的文書検索システム : 自動抄録機能
- 自動抄録機能をもつ対話的文書検索システム : 検索機能
- 対話的文書検索のための文書構造解析
- 文書の構造解析に基づく文書情報検索
- 日本語論説文自動抄録システムの試作と評価
- 日本語論説文の自動抄録のための文脈構造解析
- オントロジーメンテナンスのための固有名詞抽出技術の検討(オントロジー,「Webインテリジェンス」及び一般)
- 表層表現抽出と論理構造解析に基づく規程文書構造化技術の開発(テーマ : 社会の活動を支えるデジタルドキュメント)
- I-003 応用規格に基づいたXML文書への変換を可能とする紙文書を対象とした階層的文書変換システム(I分野:画像認識・メディア理解)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- 表層表現抽出と文書構造解析に基づくXML文書変換システム(セッション1 : Web文書生成・管理)
- I-71 デジタルカメラで撮影した展示パネル画像の認識(物体認識,I.画像認識・メディア理解)
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- OCR誤りに対してロバストな文書画像を対象としたモデルベースト情報抽出
- 隣接関係ネットワークに基づく文字列抽出
- 連合グラフを用いたモデルマッチングによるフォーム理解
- WWWを対象にした情報フィルタリングサービス
- WWW情報フィルタリング・検索システム : FreshEye : 全体システムの構成と動作
- WWW情報フィルタリング・検索システム : FreshEye : サービス概要
- キー概念辞書を利用しない構造抽出ルールの学習
- 知的情報検索の動向
- 文の意味役割解析に基づく全文検索
- 文の意味解析に基づく全文検索
- 対話的抄録生成機能を持つ文書検索システム
- データ駆動型処理と概念駆動型処理の相互作用による文書画像レイアウト解析(21世紀のグループウェア)
- D-12-13 創発の概念を導入した文書画像構造解析
- 創発的計算に基づく文書画像からの論理要素の抽出 : ドキュメントリーダによる既存文書のディジタル化
- 創発に基づいた文書画像のレイアウト解析
- モデルマッチングによる表形式文書の理解
- 電子書籍の論理構造に基づくポーズ情報の推定とSSML構造化
- 電子書籍の論理構造に基づくポーズ情報の推定とSSML構造化
- 日中英3言語6方向音声翻訳システム(翻訳・要約)
- 日中英3言語6方向音声翻訳システム(翻訳・要約)
- 紙文書を対象としたピボットXML文書に基づくXML文書変換システム(文字とドキュメントの認識・理解)
- 紙文書を対象としたピボットXML文書に基づくXML文書変換システム(文字とドキュメントの認識・理解)
- マルチデータベース日本語インタフェースの試作 : 問合せの生成・実行
- マルチデータベース日本語インタフェースの試作 : 日本語入力文解析処理
- 知識共有と協創のためのテキスト構造化と活用支援(テキストマイニング)
- 音声合成の多様性向上の取り組み
- RD-003 口コミ情報からの目的情報抽出(情報アクセス支援,D分野:データベース)