テンプレートの交差とDOM構造の解析による情報抽出手法の提案(データマイニング)
スポンサーリンク
概要
- 論文の詳細を見る
Web上には大量の情報が存在しているが,これらは整形されておらず,多種多様な記述形式で記述されている.このため,これらの不均一な文書から情報を属性と属性値の形で整形して抜き出す情報抽出の研究が行われている.特に近年,その中でも教師信号を必要としないブートストラッピングアルゴリズムを用いた情報抽出手法が注目を浴びている.しかし,これまで提案されている手法には二つの問題がある.一つ目の問題は,従来手法は前後の文字列をテンプレート化するためWeb上の表や箇条書きからは抽出できないという点である.二つ目の問題は,Web上の文書は多様性が高いため決まったテンプレートでは微妙な差があるだけで抽出できない場合が多い点である.本研究ではこれに対し,WebページのDOM構造を解析するテンプレートを作成することで表や箇条書きからも抽出を行い,生成したテンプレート同士を交差させてテンプレートを増やすことで微妙な記述の揺れに強い抽出手法を提案する.
- 社団法人電子情報通信学会の論文
- 2007-09-01
著者
-
西田 正吾
大阪大学大学院基礎工学研究科
-
土方 嘉徳
大阪大学大学院 基礎工学研究科
-
土方 嘉徳
大阪大学大学院基礎工学研究科
-
楠村 幸貴
大阪大学大学院基礎工学研究科
-
楠村 幸貴
大阪大学大学院基礎工学研究科:necサービスプラットフォーム研究所
関連論文
- ユビキタス環境における目的指向型フィルタリングシステム
- 表出時間の変化に伴う笑顔の印象変化の分析 : 表情表出過程トレーニング支援に向けて(言語・非言語コミュニケーション〜メタレベルのコミュニケーションへの接近〜)
- 思い出を語る : 共感コミュニケーションの場構築に向けて(ヒューマンコミュニケーショングループ(HCG)シンポジウム)
- 大規模災害時における情報提示へのアプローチ(安心してわくわくどきどき/教育・安心のためのインタラクション, どきどきわくわくインタラクション)
- 携帯端末を使った地図表示インタフェースのユーザビリティ評価
- レイトレース法のための3次元地図情報を用いた電波伝搬パスの高速算出手法
- 3次元仮想空間を用いた都市設備管理システム
- 笑顔の視覚化が会話参加者に与える影響 (ヒューマンコミュニケーション基礎)
- 協調的な意思決定型議論を支援する情報提示に向けた検討(コミュニケーション支援(1),HCGシンポジウム)
- 発見性を考慮した協調フィルタリングアルゴリズム(情報検索,データ工学論文)