表層表現抽出と文書構造解析に基づくXML文書変換システム(セッション1 : Web文書生成・管理)
スポンサーリンク
概要
- 論文の詳細を見る
本論文では,法令集,官報,約款集,規定集,論文,名刺などの既存文書を応用規格に基づいたXML文書に自動変換する新しい文書変換システムを提案する.本システムは,表層表現抽出処理,構造詳細化処理,整合性獲得処理の3つの機能で構成されている.本システムでは,まず,表層表現抽出により,入力文書から見出し語やキーワードなどの表層表現を自動抽出すると共に,表層表現を手がかりとして文書要素に対する柔軟なタグ付けを行う.次に,文書要素へのタグ付け結果に対して構造詳細化処理を適用することにより,応用規格にしたがった文書構造の複雑化をボトムアップに実施する.そして,整合性獲得処理により,部分構造の並べ替えや不要な文書要素の削除などを行うことにより応用規格に基づいた高品位なXML文書を自動生成する.実験では,実際の業務で利用されている文書を特定の応用規格に基づいたXML文書に変換すると共に,変換精度ならびに変換作業時間を計測して提案システムの有効性を評価した.
- 一般社団法人情報処理学会の論文
- 2004-09-24
著者
-
住田 一男
株式会社東芝研究開発センター
-
布目 光生
(株)東芝研究開発センター知識メディアラボラトリー
-
石谷 康人
株式会社東芝研究開発センター
-
布目 光生
株式会社東芝研究開発センター
-
石谷 康人
東芝 研開セ
-
布目 光生
東芝研究開発センター
関連論文
- 文書の様々な活用を可能にするXML構造化技術 (特集 日本語ワードプロセッサIEEEマイルストーン認定記念 自然言語処理技術)
- 機械翻訳を用いた英日・日英言語横断検索に関する一考察
- 確率モデルに基づく日本語情報フィルタリングにおけるフィードバックによる検索条件展開および検索精度評価
- Cross-language情報検索のためのBMIR-J2を用いた一考察
- 情報フィルタリングのためのブール式と文書構造を利用した検索条件生成と検索精度評価
- 情報フィルタリングシステムNEATのための検索要求文からのプロファイル生成
- ベンチマーク BMIR-J1 を用いた情報フィルタリングシステム NEAT の評価
- 情報フィルタリングシステム NEAT の開発
- 電子図書館のための効率的な文書検索 : 検索/提示のための文書構造化と抄録生成
- 自動抄録機能をもつ対話的文書検索システム : システムの機能と構成
- オントロジーメンテナンスのための固有名詞抽出技術の検討(オントロジー,「Webインテリジェンス」及び一般)
- コモンHIサービス環境の開発
- 情報フィルタリングシステムNEATのための検索要求文からのプロファイル生成
- 人名と番組名の言い換えに対応する音声認識インタフェース
- 5H-3 投稿情報に基づくビジネスメールの話題分類(自然言語処理,一般セッション,人工知能と認知科学)
- AI:過去・現在・未来
- セマンティックWebのツール(セマンティックWeb)
- 編集にあたって(「実世界に近づくインタフェース技術」)
- セマンティックWebにおけるメタデータとその活用(セマンティックWeb)
- 意味クラス解析と意図推定に基づくインタラクティブな情報検索インタフェース(ユーザインタフェースとインタラクティブシステム,インタラクションの理解とデザイン)
- 意味クラス解析と意図推定に基づくインタラクティブな情報検索インターフェース(テーマセッション1(テキスト処理・文字列画像処理),文字・文書の認識・理解)
- 文書構造解析に基づく自動抄録生成と検索提示機能としての評価
- 文書構造に基づく自動抄録生成
- 自動抄録機能をもつ対話的文書検索システム : 自動抄録機能
- 自動抄録機能をもつ対話的文書検索システム : 検索機能
- 対話的文書検索のための文書構造解析
- 文書の構造解析に基づく文書情報検索
- 日本語論説文自動抄録システムの試作と評価
- 日本語論説文の自動抄録のための文脈構造解析
- オントロジーメンテナンスのための固有名詞抽出技術の検討(オントロジー,「Webインテリジェンス」及び一般)
- 表層表現抽出と論理構造解析に基づく規程文書構造化技術の開発(テーマ : 社会の活動を支えるデジタルドキュメント)
- I-003 応用規格に基づいたXML文書への変換を可能とする紙文書を対象とした階層的文書変換システム(I分野:画像認識・メディア理解)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析(文書・文字メディアの認識・理解, 一般)
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- XML文書変換を目的としたセル分類およびセル変形に基づく表構造解析
- 表層表現抽出と文書構造解析に基づくXML文書変換システム(セッション1 : Web文書生成・管理)
- I-71 デジタルカメラで撮影した展示パネル画像の認識(物体認識,I.画像認識・メディア理解)
- WWWを対象にした情報フィルタリングサービス
- WWW情報フィルタリング・検索システム : FreshEye : 全体システムの構成と動作
- WWW情報フィルタリング・検索システム : FreshEye : サービス概要
- キー概念辞書を利用しない構造抽出ルールの学習
- 知的情報検索の動向
- 文の意味役割解析に基づく全文検索
- 文の意味解析に基づく全文検索
- 対話的抄録生成機能を持つ文書検索システム
- データ駆動型処理と概念駆動型処理の相互作用による文書画像レイアウト解析(21世紀のグループウェア)
- D-12-13 創発の概念を導入した文書画像構造解析
- 創発的計算に基づく文書画像からの論理要素の抽出 : ドキュメントリーダによる既存文書のディジタル化
- 創発に基づいた文書画像のレイアウト解析
- モデルマッチングによる表形式文書の理解
- 電子書籍の論理構造に基づくポーズ情報の推定とSSML構造化
- 電子書籍の論理構造に基づくポーズ情報の推定とSSML構造化
- 日中英3言語6方向音声翻訳システム(翻訳・要約)
- 日中英3言語6方向音声翻訳システム(翻訳・要約)
- マルチデータベース日本語インタフェースの試作 : 問合せの生成・実行
- マルチデータベース日本語インタフェースの試作 : 日本語入力文解析処理