部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)
スポンサーリンク
概要
- 論文の詳細を見る
ブログの増加が著しい近年、ブログスパムが大きな問題であり、スパム検出の技術の発達が求められている。スパム検出に関する研究は内容解析やリンク解析によるものが多く、複雑な処理やアルゴリズムを使用する。我々はブログスパムの内容ではなく、コピーされ大量に生成される性質に着目した手法を提案する。テキストの部分文字列を数え上げた時、出現頻度と異なり数にはジップの法則が成り立つことを利用して、自然言語の知識を必要としない、高速なスパム検出の技術を得ることができる。また、我々は人工的なデータによる本手法の正当性を調べ、実際のブログデータから本手法によりブログスパムを検出することに成功した。
- 2006-05-30
著者
-
山田 泰寛
九州大学ユーザーサイエンス機構
-
池田 大輔
九州大学大学院システム情報科学研究院
-
成澤 和志
九州大学大学院システム情報科学府情報処理学専攻
-
池田 大輔
九州大学付属図書館
-
池田 大輔
九州大学システム情報
-
池田 大輔
九州大学システム情報科学研究院
関連論文
- 〈「ディジタル図書館」ワークショップ第38回 発表論文〉スモールサイエンスのための e-Science リポジトリの要求分析
- 外部連携サービスによる機関リポジトリの潜在需要の解析
- 接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法(ポスターセッション,iDBフォーラム2008(招待講演・ポスター英語ディスカッション))
- プレーリストからの曲目やアーティストの相互関連抽出
- SNS(Social Networking Service)における信頼と図書館における応用(第33回ディジタル図書館ワークショップの論文)
- <発表論文>SNS (Social Networking Service) における信頼と図書館における応用 (「ディジタル図書館」ワークショップ 第33回)
- 3次元分散共有仮想空間を媒介とする3次元マルチメディアデータの交換・流通環境
- 統合検索システムDAISEnでの検索サイトフォーム分析(セッション9B : 情報統合)
- 統合検索システムDAISEnでの検索サイトフォーム分析(情報統合)(「夏のデータベースワークショップ(DBWS2003)」一般)
- 新個人認証システムPersonal IDが変える図書館の個人情報管理 : 個人情報やプライバシーに配慮した一歩先行く図書館サービスとは