文書構造情報の抽出とメタデータ化
スポンサーリンク
概要
- 論文の詳細を見る
文書はその本文内部に、自身に関する書誌データ、すなわちメタデータを含んでいることが多い。本稿では、プレーンテキストやHTML文書の内容記述部分から作者や見出し階層のようなメタデータを自動的に抽出する技術を紹介する。次に、抽出したメタデータを格納するための枠組みをRDF Schemaによって定義して、メタデータを流通させる仕組みを提案する。最後に、文書からのメタデーク自動抽出、およびSemantic Web標準に準拠したその構造表現化による情報流通上の効果について論じる。
- 一般社団法人情報処理学会の論文
- 2003-03-28
著者
関連論文
- 迷惑メールフィルタのためのベイジアンフィルタの改良
- 特徴抽出方法の改善によるベイジアンフィルタの精度向上
- SVG-DOMによるアニメーションとXHTML中心複合文書の可能性
- SVG-DOMによるアニメーションとXHTML中心複合文書の可能性
- 文書構造情報の抽出とメタデータ化
- XMLデータベースの種別と活用法上の留意点および問合せ言語への要求について
- 強AI、認知科学の成果を如何に弱AI、製品開発に反映できるか--自然言語処理応用システムの開発経験を通じて (小特集 使えるAI基礎技術)
- 迷惑メールフィルタのためのベイジアンフィルタの改良
- 学習型spamフィルタの体感精度指標の考案とそれによる精度比較実験(オフィスインフォメーションシステム及び一般)
- spamフィルタにおける体感精度向上のための評価手法(Webサービスベースのオフィスアプリケーション・ネットワーキング・マネジメント及び一般)