大域ウェブアクセスログを用いた検索語クラスタリング(クラスタリング, 夏のデータベースワークショップDBWS2005)
スポンサーリンク
概要
- 論文の詳細を見る
検索語はサイバー空間におけるユーザの目的や意思を表す重要な要素であり, ウェブページを閲覧する人々の行動を把握するために有用である.本稿ではテレビ視聴率調査と同様, 統計的に偏りなく抽出された人(パネル)を対象にURL履歴の収集を行ったログ(パネルログ)の解析から検索語のクラスタリングを行う.先行研究では, 検索語を入力した後に閲覧したURLを基にしているが, 我々はコミュニティ技術とウェブページの形態素解析から得られる名詞空間を用いる手法を提案する.実験結果より提案手法はURLだけを用いた手法よりも良好な結果が得られた.
- 2005-07-13
著者
関連論文
- 多周期的更新アクセスに適した二次記憶管理技法 : 連続的Webクローリングへの適用(ファイル編成,情報爆発論文)
- 編集にあたって(平成21年度長尾真記念特別賞紹介)
- グリーンレプリケーション : 二次系ディスクストレージの省電力化(ストレージ 並列分散データベース,データ工学論文)
- 編集にあたって(平成21年度論文賞の受賞論文紹介)
- 大規模ウェブテキストからの片仮名用言の自動獲得(テキストマイニング,データ工学論文)
- ATM結合PCクラスタにおける動的リモートメモリ利用方式を用いた並列データマイニングの実行
- 並列DBMSに於ける動的負荷分散機構の実装
- 一般化相関ルールマイニングの並列処理方式における統計情報を用いた候補分割負荷分散手法の評価
- 大規模PCクラスタにおける並列相関ルールマイニング処理方式の評価
- ATM結合PCクラスタにおける並列データマイニングの実装とTCP再送機構の性能解析