Unsupervised Spam Detection by Document Probability Estimation with Maximal Overlap Method
スポンサーリンク
概要
- 論文の詳細を見る
In this paper, we study content-based spam detection for spams that are generated by copying a seed document with some random perturbations. We propose an unsupervised detection algorithm based on an entropy-like measure called document complexity, which reflects how many similar documents exist in the input collection of documents. As the document complexity, however, is an ideal measure like Kolmogorov complexity, we substitute an estimated occurrence probability of each document for its complexity. We also present an efficient algorithm that estimates the probabilities of all documents in the collection in linear time to its total length. Experimental results showed that our algorithm especially works well for word salad spams, which are believed to be difficult to detect automatically.
著者
-
Uemura Takashi
Hokkaido University
-
Ikeda Daisuke
Kyushu University
-
Kida Takuya
Hokkaido University
-
Arimura Hiroki
Hokkaido University
関連論文
- Unsupervised Spam Detection by Document Probability Estimation with Maximal Overlap Method
- TK-7-1 知の創出を支える次世代IT基盤拠点(TK-7.情報・電気・電子グローバルCOEの活動と今後の計画,大会委員会企画)
- TK-7-1 知の創出を支える次世代IT基盤拠点(TK-7.情報・電気・電子グローバルCOEの活動と今後の計画,大会委員会企画)
- 位置情報付き個人コンテンツ分類のための線形HMMを用いたイベントクラスタリング(機械学習応用,テキスト・Webマイニング,一般)
- 長大な拡張文字列パターンに対する大規模文字列照合の高速化
- 疎な接尾辞木構築のWord RAM上の高速化
- Counterexamples to the long-standing conjecture on the complexity of BDD binary operations
- A Dynamically Reconfigurable FPGA-Based Pattern Matching Hardware for Subclasses of Regular Expressions
- 超グラフ中に含まれる非巡回部分超グラフの効率よい列挙 (特集 「Big data と機械学習・データサイエンス」および一般)
- Improving Parse Trees for Efficient Variable-to-Fixed Length Codes
- Improving Parse Trees for Efficient Variable-to-Fixed Length Codes
- 超辺の縮約を許した非巡回部分超グラフの効率よい列挙
- 非対称で個体差がある関係データ分析のための機会調整型無限関係モデル(ベイズ統計モデル,統計推理,データベース,一般)
- 木に含まれる限定サイズ部分木の列挙
- 長さ極大な群れパターンを軌跡集合から効率良く発見するアルゴリズム
- 系列二分決定グラフを操作するための豊富な演算体系の構築
- 拡張文字列パターンのクラスに対するGPU上の並列照合アルゴリズムとその性能評価
- D-009 大規模並列文字列照合のGPUによる高速化(ストレージと検索,D分野:データベース)
- G-024 木構造のランダム生成と学習(バイオ情報学,G分野:生体情報科学)
- 拡張文字列パターンのクラスに対するGPU上の並列照合アルゴリズムとその性能評価 (回路とシステム)
- 拡張文字列パターンのクラスに対するGPU上の並列照合アルゴリズムとその性能評価 (システム数理と応用)
- Efficient Algorithms for Finding All Length-Maximal Flock Patterns from a Set of Trajectories (コンピュテーション)
- ゼロサプレス型二分決定グラフに基くコンパクトかつ高速な索引構造(一般)