HTTPログファイルからの情報抽出によるインターネットドメインの分析く

スポンサーリンク

概要

論文の詳細を見る
WWW (World-Wide Web)の通信プロトコルであるHTTP (Hyper Text Transfer Protocol)のアクセスログファイルは, キャッシュサーバの最適配置や強調キャッシュのトポロジー設計などに役立つ有用な情報を含むと考えられる.しかし, 大規模サイトにおいてはその量の多さが障害になり, 十分な分析を行うことが困難になっている.本論文では, 文献検索の分野で近年利用されている自動索引付け手法LSI(Latent Semantic Indexing)を大規模ログファイルに適用して, ホストドメイン間の類似度を求める手法を検討する.特に膨大なログデータを扱うために, URL階層上でカルバック情報量を尺度としてデータの要約を試み, その効果を実際のログデータを用いて検証する.
1998-11-25

論文 | ランダム

もっと見る

スポンサーリンク