Webページ内の目的部分の自動抽出(情報抽出・翻訳知識獲得)

概要

論文の詳細を見る
本論文ではWebページから目的部分のテキストを自動抽出する手法を提案する.本論文で扱うタスクは,Webニュースのページからそのニュース記事のタイトルと本文を抽出するというタスクである.本手法ではまずテキストブラウザを利用して,Webページをテキスト化する.このテキストファイルをもとに抽出規則の学習を行なう.具体的には行を事例としたSTART/END法とクラス間の出現順序や位置情報などの制約を取り入れた状態遷移図を利用する.本手法はWrapper学習の一種であるが,従来までのWrapper学習とは異なり,HTMLのタグを抽出手がかりとして使わない.そのためにサイトの異なるページに対しても適用できる抽出規則を学習することが期待できる.実験では訓練データの元になったサイトから取り出したページと別サイトから取り出したページを使って抽出実験を行なった.単純なレイアウトのページであれば,高精度に抽出できたが,複雑なレイアウトのページでは抽出に失敗していた.また本手法は様々な応用が可能である.ここでは対訳コーパスの自動構築に応用できることを示した.今後は自然言語の情報を素性に組み入れる.本タスクに関しては,タイトルの判定の精度を高めて改善を行なう.
一般社団法人情報処理学会の論文
2004-07-15

Webページ内の目的部分の自動抽出(情報抽出・翻訳知識獲得)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク