部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)
スポンサーリンク
概要
- 論文の詳細を見る
ブログの増加が著しい近年、ブログスパムが大きな問題であり、スパム検出の技術の発達が求められている。スパム検出に関する研究は内容解析やリンク解析によるものが多く、複雑な処理やアルゴリズムを使用する。我々はブログスパムの内容ではなく、コピーされ大量に生成される性質に着目した手法を提案する。テキストの部分文字列を数え上げた時、出現頻度と異なり数にはジップの法則が成り立つことを利用して、自然言語の知識を必要としない、高速なスパム検出の技術を得ることができる。また、我々は人工的なデータによる本手法の正当性を調べ、実際のブログデータから本手法によりブログスパムを検出することに成功した。
- 2006-05-30
著者
-
山田 泰寛
九州大学ユーザーサイエンス機構
-
池田 大輔
九州大学大学院システム情報科学研究院
-
成澤 和志
九州大学大学院システム情報科学府情報処理学専攻
-
池田 大輔
九州大学付属図書館
-
池田 大輔
九州大学システム情報
-
池田 大輔
九州大学システム情報科学研究院
関連論文
- 〈「ディジタル図書館」ワークショップ第38回 発表論文〉スモールサイエンスのための e-Science リポジトリの要求分析
- 外部連携サービスによる機関リポジトリの潜在需要の解析
- 接尾辞木を用いた圧縮尺度計算による効率よいスパムポスト検出手法(ポスターセッション,iDBフォーラム2008(招待講演・ポスター英語ディスカッション))
- プレーリストからの曲目やアーティストの相互関連抽出
- SNS(Social Networking Service)における信頼と図書館における応用(第33回ディジタル図書館ワークショップの論文)
- <発表論文>SNS (Social Networking Service) における信頼と図書館における応用 (「ディジタル図書館」ワークショップ 第33回)
- 3次元分散共有仮想空間を媒介とする3次元マルチメディアデータの交換・流通環境
- 統合検索システムDAISEnでの検索サイトフォーム分析(セッション9B : 情報統合)
- 統合検索システムDAISEnでの検索サイトフォーム分析(情報統合)(「夏のデータベースワークショップ(DBWS2003)」一般)
- 新個人認証システムPersonal IDが変える図書館の個人情報管理 : 個人情報やプライバシーに配慮した一歩先行く図書館サービスとは
- 接尾辞配列による効率的な文字列上の同値類計算
- 部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)
- 部分文字列の数え上げによるブログスパムの検出(マイニングとフィルタリング)
- 平成18年度における研究開発 電子図書館システムの研究開発
- 文書群の局所性と大域性の差を利用したキーワード粒度評価(重要語抽出・検索・文書分類)
- 文書群の局所性と大域性の差を利用したキーワード粒度評価(重要語抽出・検索・文書分類)
- 教員データに対する多面的検索システム(eラーニング2, 夏のデータベースワークショップDBWS2005)
- 教員データに対する多面的検索システム(eラーニング2, 夏のデータベースワークショップ2005)
- 変化点検出を応用した時系列データからの突発現象の前兆検出アルゴリズム
- 変化点検出を応用した時系列データからの突発現象の前兆検出アルゴリズム
- 不一致を許す文字列照合のためのFFTを用いた確率的アルゴリズムの精度評価
- 部分文字列増幅法による共通パターン発見アルゴリズム
- 交代数を用いた多言語Webテキストからの共通部分特定とラッパーの生成法(データマイニング)
- テンプレート発見問題の定式化と部分文字列増幅法を用いたアルゴリズム(文字列アルゴリズム)
- 部分文字列増幅法による共通パタン発見アルゴリズム(パターン認識)
- 半構造化文書に対する木構造と文字列を組合せたラッパーの自動生成法(コーパス構築)(セマンティックウェブと自然言語処理その他一般)
- 文字列の頻度分布による共通パタン発見(パタン発見)(セマンティックウェブと自然言語処理その他一般)
- 文字列の頻度分布による共通パタン発見
- 九州大学自己点検・評価関連情報システム(セッション2:XML応用システム)
- Web上の多言語テキストデータからのラッパー自動生成
- D-6 専門検索サイトの動的統合による次世代検索システムDAISENにおける検索サイトエディタの開発(Web検索(1),D.データベース)
- n-gram交代数を用いた半構造化データの不要部分削除
- n-gram交代数を用いた半構造化データの不要部分削除
- Webグラフの構造解析 (「Webシステムにおける情報獲得支援技術」)
- 3次元分散共有仮想空間を媒介とする3次元マルチメディアデータの交換・流通環境
- D-1-6 動的刈り込み接尾辞木を用いた圧縮尺度計算によるスパム検出(D-1. コンピュテーション,一般セッション)
- 背表紙画像を用いたネットワーク透過な仮想書架
- <発表論文>研究支援ツールとしての機関リポジトリにおけるバージョン管理機能 (「ディジタル図書館」ワークショップ 第33回)
- ユビキタス図書館 : 偏在する図書館サービス
- 電子図書館と利用者のプライバシー : 履歴・個人情報の保護と利用の両立を目指して
- Webサービスを用いた読書録サービスの設計と実装
- 単純な部分文字列照合によるWebからの書誌情報の抽出
- 仮想書架における背表紙画像生成の自動化
- 高性能RFIDリーダ付き書架の性能評価と新たな図書館サービスの提案
- <発表論文>RFID技術を用いた図書館自動化への期待 (「ディジタル図書館」ワークショップ第26回)
- RFID技術を用いた図書館自動化への期待
- WWWからの情報抽出 : Webラッパーの自動構築(WWW上の情報の知的アクセスのためのテキスト処理)
- ウェブデータマイニング(「データマイニング特集号」)
- 部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集(Webマイニング)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集(Webマイニング)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- 部分文字列の頻度分布に基づいた同一テンプレートを持つWebページの自動収集
- 学会講演データの多面的解析システム (テーマ:特集「ウェブデータの知的処理」および一般)
- A-025 非可逆圧縮を用いた類似性指標と画像検索への応用(A分野:モデル・アルゴリズム・プログラミング,一般論文)
- 高性能RFIDリーダ付き書架の性能評価と新たな図書館サービスの提案
- 電子図書館の歴史と九大附属図書館の取り組み
- イベント列データにおけるVLDCエピソード生成モデル (「メディアとAI」および一般)
- リポジトリシステムWEKOのコンテンツ再利用環境(SarabiWEKO)の開発
- The Computational Complexity of Hereditary Elementary Formal Systems
- 役を構成するゲームに対する効率的な行動決定アルゴリズムの提案
- リポジトリシステムWEKOのコンテンツ再利用環境(SarabiWEKO)の開発 (「ディジタル図書館」ワークショップ第41回 発表論文)
- 組込環境用プロセス仮想マシンの実装とETロボコンへの適用 (制御研究会 : ETロボコン2012におけるソフトウェア設計モデル)
- 圧縮文字列に対する省メモリなパターンマッチアルゴリズム
- マルチトラック文字列の順列パターン照合と索引構造
- 種々のパターン照合問題に対するポジションヒープの構築(一般)
- 2-E-7 SAT ソルバを用いた学位論文審査の時間割作成システムの試作(スケジュール(1))
- マルチトラックデータ上の近似順列パターン照合と索引構造
- 文字列に含まれる連の最大指数和の解析 : n=57までの厳密値と新たな下界2.03696の発見