部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)

スポンサーリンク

概要

論文の詳細を見る
ブログの増加が著しい近年、ブログスパムが大きな問題であり、スパム検出の技術の発達が求められている。スパム検出に関する研究は内容解析やリンク解析によるものが多く、複雑な処理やアルゴリズムを使用する。我々はブログスパムの内容ではなく、コピーされ大量に生成される性質に着目した手法を提案する。テキストの部分文字列を数え上げた時、出現頻度と異なり数にはジップの法則が成り立つことを利用して、自然言語の知識を必要としない、高速なスパム検出の技術を得ることができる。また、我々は人工的なデータによる本手法の正当性を調べ、実際のブログデータから本手法によりブログスパムを検出することに成功した。
2006-05-30

著者

関連論文

もっと見る

スポンサーリンク