Webサイトの階層的なWebディレクトリへの自動分類手法
スポンサーリンク
概要
- 論文の詳細を見る
ディレクトリ型の検索サービスはあらかじめWebページが項目別にまとめられているので,初心者でも簡単にWWW(World Wide Web)検索をすることができる.このようなサービスを運営する側はWebディレクトリへのサイト登録や分類,管理といった作業を人手により行っているため,膨大なWebページを処理することが困難となる.そのため,我々は人手で行っているWebディレクトリの管理作業を自動化するシステムの構築を目指している.これまで,サイトの内容語を扱わず,ホームページに記述されたmetaタグのname属性値であるkeywordとdescriptionをキーワードとして階層のトップレベルで分類を行い,その結果として分類精度が82%となり,本文を利用した場合の55%を大幅に上回る分類性能を得ることができた.本稿では,これまでトップレベルで行っていた分類を拡張し,ディレクトリ階層全体を対象としてWebサイトを分類する手法について述べる.階層構造全体を対象とすることで,より現実的で,実用的なWebディレクトリの構築を行うことが可能となる.階層的な分類においてもkeyword, description属性値をキーワードとして利用することの有効性を確かめるために,未分類のデータを利用して実験を行った結果,metaタグのみをキーワードとして利用したシステムは平均62.7%の分類精度を得ることができた.比較として,metaタグを使わずにHTML文書の本文を利用した場合の分類結果を求めると42.3%であった.これより,階層的な分類においてもHTML文書の本文を利用するよりmetaタグのみを利用した方が有効であることが分かった.また,平均精度が60%を超えていることから,半自動でのWebディレクトリの構築が可能であると考えられる.
- 一般社団法人情報処理学会の論文
- 2007-07-24
著者
関連論文
- EMアルゴリズムの最適ループ回数の予測を用いた語義判別規則の教師なし学習(自然言語)
- 潜在的文脈関連度を用いた検索質問拡張
- 語義の特異性を利用した慣用表現の自動抽出
- 片方向の共起性による述語型定型表現の自動抽出
- コーパスからの付属語的表現の自動抽出
- 疑似Nグラムを用いた助詞的定型表現の自動抽出
- コーパスからの関係表現の自動抽出
- JEIDA機械翻訳システム評価基準(品質評価編) : 英日翻訳の品質評価項目の検討と評価用コーパスの作成
- 機械学習を用いた喉頭摘出者音声を対象とした無声摩擦音の補完(福祉と知能・認知障害/一般)
- 機械学習を用いた喉頭摘出者音声を対象とした無声摩擦音の補完(福祉と知能・認知障害/一般)