HTML文書中の箇条書きとその表題に注目した下位語の自動獲得(情報抽出・単語分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)

スポンサーリンク

概要

論文の詳細を見る
本稿では,Web上にあるHTML文書から予め指定された単語もしくは複合語について,その下位語を獲得する方法について述べる.本研究では,「HTML文書中に現れる箇条書きや表の表題には,それらの要素に共通の上位語が含まれやすい」という仮説を設け上位下位関係の獲得を試みる.本手法は,我々が以前に提案した,箇条書きや表の要素に共通する上位語を,統計量を用いて求める手法を拡張することで,予め指定された単語や複合語を上位語として持つ下位語の獲得を可能にする.実験により,従来手法であるパターンベースの手法も含め,他の手法では獲得できない多数の上位下位関係を本手法では獲得できることを示す.
一般社団法人情報処理学会の論文
2004-09-16

著者

関連論文

もっと見る

スポンサーリンク