Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)

概要

論文の詳細を見る
ディレクトリ型の検索サービスはあらかじめWebページが項目別にまとめられているので,初心者でも簡単にWWW(World Wide Web)検索をすることができる.このようなサービスを運営する側はWebディレクトリへのサイト登録や分類,管理といった作業を人手により行っているため,膨大なWebページを処理することが困難となる.そのため,我々は人手で行っているWebディレクトリの管理作業を自動化するシステムの構築を目指している.これまで,サイトの内容語を扱わず,ホームページに記述されたmetaタグのname属性値であるkeywordとdescriptionをキーワードとして階層のトップレベルで分類を行い,その結果として分類精度が82%となり,本文を利用した場合の55%を大幅に上回る分類性能を得ることができた.本稿では,これまでトップレベルで行っていた分類を拡張し,ディレクトリ階層全体を対象としてWebサイトを分類する手法について述べる.階層構造全体を対象とすることで,より現実的で,実用的なWebディレクトリの構築を行うことが可能となる.階層的な分類においてもkeyword,description属性値をキーワードとして利用することの有効性を確かめるために,未分類のデータを利用して実験を行った結果,metaタグのみをキーワードとして利用したシステムは平均62.7%の分類精度を得ることができた.比較として,metaタグを使わずにHTML文書の本文を利用した場合の分類結果を求めると42.3%であった.これより,階層的な分類においてもHTML文書の本文を利用するよりmetaタグのみを利用した方が有効であることが分かった.また,平均精度が60%を超えていることから,半自動でのWebディレクトリの構築が可能であると考えられる.
社団法人電子情報通信学会の論文
2007-07-17

Webサイトの階層的なWebディレクトリへの自動分類手法(QA・Web検索)

スポンサーリンク

概要

著者

関連論文

スポンサーリンク