スプログ検出におけるHTML構造の類似性の有効性の評価
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,ブログにおいてアフィリエイト収入を得ることを目的とするスパム (スパムブログ,スプログ) のうち,特に,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログの検出において,HTML 構造の類似性が効果的であることを示す.具体的には,ブログの HTML ファイルにおける DOM ツリーから,コンテンツの最小単位に相当するブロックを抽出し,複数のスプログの間でブロック構造の類似性を測定する.その結果,同一ブログホストにおけるスプログのうち,同一のスパムブログ作成者が自動的に大量生成したと推測されるスプログ同士では,ブロック構造が類似する傾向があることを示す.また,ブロック構造の類似性を素性として用いることにより,SVM によるスプログ検出の性能が向上する場合があることを示す.
- 一般社団法人情報処理学会の論文
- 2009-11-13
著者
-
福原 知宏
東京大学人工物工学研究センター
-
福原 知宏
東京大学
-
福原 知宏
図書館情報大学
-
宇津呂 武仁
筑波大学大学院システム情報工学研究科
-
河田 容英
(株) ナビックス
-
宇律呂 武仁
筑波大学大学院システム情報工学研究科
-
福原 知宏
産業技術総合研究所サービス工学研究センター
-
片山 太一
筑波大学大学院システム情報工学研究科
-
芳中 隆幸
東京電機大学大学院工学研究科
-
芳中 隆幸
東京電機大学未来科学部情報メディア学科
-
福原 知宏
独立行政法人産業技術総合研究所サービス工学研究センター
-
宇津呂 武仁
筑波大学システム情報系
関連論文
- 6ZK-6 QRコードを用いた実世界からの関係情報の抽出と分析(情報爆発時代におけるストリームデータと実世界情報処理,学生セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 2P-8 ソーシャルブックマークにおけるスパムの検出(Webマイニング,学生セッション,データベースとメディア)
- FTTHにおけるPublic Opinion Channel実証実験 : Public Opinion Channelの概念とシステム構成
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定
- パブリック・オピニオン・チャンネル : 知識創造コミュニティの形成に向けて(近未来チャレンジ特集)
- パブリック・オピニオン・チャンネル : 実装と社会的インパクト
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定(自然言語処理)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 特許情報処理を指向したテストコレクションの構築 : 情報検索と自然言語処理の融合を目指して(NTCIR特別セッション)
- 特許情報を対象とした機械翻訳 : 共通基盤による評価タスクを目指して
- 特許情報を対象とした機械翻訳 : 共通基盤による評価タスクを目指して(文書分類・翻訳)
- 対象物に「触れる」行為と記憶の遍在化による日常記憶支援(ヒューマンコンピュータインタラクション)
- 代表・派生関係を利用した日本語機能表現の解析
- 日本語機能表現の自動検出と統計的係り受け解析への応用
- 機能表現を考慮した統計的日本語係り受け解析(解析・対話)
- 機能表現を考慮した統計的日本語係り受け解析
- 機械学習を用いた日本語機能表現のチャンキング
- 日本語複合辞用例データベースの作成と分析(自然言語,情報処理技術のフロンティア)
- Wikipediaを介した関連ニュース・ブログの対応付け? Wikipediaエントリの分析?
- 特定トピックの日英ブログ収集・分析・類型化:事例研究
- マルチメディアプレゼンテーションシステムSPOC を用いた社会問題に関する情報提供とウェブログを用いた情報発信に関する実験報告
- 文書空間ナビゲーションのための出次数制約付き有向グラフ生成手法
- 次数制約を加えた共起語グラフに基づくキーワード間ナビゲーション
- Public Opinion Channel : コミュニティのためのインタラクティブ放送システム
- 日本語機能表現辞書の編纂
- 機械学習を用いた日本語複合辞のチャンキング(抽出, 言い換え)
- Wikipediaエントリとブログサイトの対応付けによる日本語ブログ空間のトピック分布推定(トピック)
- 関連用語収集問題とその解法
- 対訳特許文書からの専門用語対訳辞書半自動獲得におけるフレーズテーブルと既存対訳辞書の併用(機械翻訳・要約・評判分析)
- 3D-5 フレーズテーブルと要素合成法を用いた対訳特許文書からの専門用語対訳辞書生成(自然言語処理,一般セッション,人工知能と認知科学)
- ウェブから収集した専門分野コーパスと要素合成法を用いた専門用語訳語推定
- ウェブを利用した専門用語の分野判定(自然言語処理)
- インタラクティブメディアを利用したデジタルクラブ活動の報告
- パブリックオピニオンチャネルによるコミュニテイ知の創造実験(コミュニティ支援システムの実践)
- FTTHトライアルにおけるPublic Opinion Channel実証実験 : コミュニティ運営と視聴行動の分析
- FTTHにおけるPublic Opinion Channel実証実験 : Public Opinion Channelの概念とシステム構成
- FTTHトライアルにおけるPublic Opinion Channel実証実験 : コミュニテイ運営と視聴行動の分析
- POC caster : インターネットコミュニティのための会話表現を用いた情報提供エージェント
- 自動検出のための慣用句の分類と語彙的情報(語と慣用句)
- 音韻論的・形態論的制約を用いたモンゴル語句生成・形態素解析
- 日英関連報道記事を用いた訳語対応推定
- 質問文中のキーワードと解候補の連想の強さを用いた解の決定
- 音韻論的・形態論的制約を用いたモンゴル語形態素解析(解析)
- 音韻論的・形態論的制約を用いたモンゴル語形態素解析(解析)
- 音韻論的・形態論的制約を用いたモンゴル語句生成(機械翻訳)
- 日英二言語文書を用いた訳語対応推定 : ウェブ上の非対訳文書を用いた訳語候補順位付け(情報抽出・翻訳知識獲得)
- 日英報道記事からの訳語対応推定 : ターム頻度と訳語対応推定性能の相関の評価(情報抽出・翻訳知識獲得)
- スプログ検出におけるHTML構造の類似性の有効性の評価
- 5J-6 キーワードのバースト特性を利用したスパムブログデータセットの作成と分析(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- Wikipedia を介した関連ニュース・ブログの対応付け : Wikipedia エントリの分析
- 5K-5 HTML構造の類似性を利用した大規模スパムブログ収集(情報爆発時代におけるWeb解析,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 2K-6 テレビ番組の視聴履歴を用いた番組推薦システムの構築(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- ディジタル図書館における情報作成支援環境
- 文献紹介 Wang, Y.-M., Ma, M., Niu, Y., and Chen, H.: Spam double-funnel: Connecting Web spammers with advertisers, Proc. 16th Int. World Wide Web Conf. (WWW2007), pp. 291-300 (2007)
- 5J-3 特定トピックのブログサイト検索 : Wikipediaエントリとブログサイトの対応付けに向けて(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 個人適応型Splogフィルタリングの実現に向けて : Splog判定データセットの構築と機械学習を用いたシステムの実装(第1回集合知シンポジウム〜言語処理が紡ぎ出す未来〜)
- D-015 ソーシャルブックマークにおけるスパム検出のための特徴とその評価(データベース,一般論文)
- 1B1-3 時系列テキスト集合からの社会的関心の分析(1B1 OS:共創・価値創成)
- コミュニティ支援システムにおけるコミュニティ分析支援機能(福祉工学)
- 放送型コミュニティ支援システム : Public Opinion Channelのリスクコミュニケーションへの応用
- M-56 ネットワークコミュニティにおける活動分析支援システムの提案(情報共有システム(1),M.ネットワーク・モバイルコンピューティング)
- Voice Cafe : 音声対話による知識形成支援システム
- Public Opinion Channel における自動要約手法
- 統計情報を用いた話題特定と文脈の再構築による複数テキスト要約
- 統計情報と概念知識を用いたテキスト間の話題特定
- ブログ記事とWebページを用いたイベント情報抽出手法の提案(セッション2:Webと社会のつながり、応用技術)
- ブログ記事とWebページを用いたイベント情報抽出手法の提案(セッション2:Webと社会のつながり、応用技術)
- ユーザ適応型Splogフィルタリングのためのユーザ固有Splog空間の分析(ウェブ情報とデータベースに関して(ポスター講演))
- E-002 実験的評価に基づくユーザ固有Splog空間の検証 : ユーザ適応型Splogフィルタリングに向けて(自然言語・音声・音楽,一般論文)
- 5J-7 スパムブログに関する定量的調査支援ツールの開発(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 5J-4 Wikipediaを用いた多言語ブログ検索のための訳語抽出(情報爆発時代におけるWebおよびblogマイニング,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- 出次数制約付き有向グラフを用いた関連語による文書空間ナビゲーション手法
- フレーズテーブル及び既存対訳辞書を用いた専門用語の訳語推定
- ニュースにおけるトピックのバースト特性の分析
- ブラウザ操作ログ収集ツールを用いたWebページ閲覧行動分析
- Wikipediaを知識源とする日英ブログ記事集合の観点分類と言語間対照分析
- ニュースにおけるトピックのバースト特性の分析
- Wikipediaを多言語知識源とするブログ集合の話題分析(意見抽出/文書分類,第1回テキストマイニング・シンポジウム)
- Wikipediaを知識源とする分野トピックモデルの推定と分析
- 現場共有知による看護・介護サービスにおける記録支援 (社会システムと情報技術研究ウィーク)
- 日中ブロガー・コミュニティの収集・俯瞰・対照分析
- 日中ブロガー・コミュニティの収集・俯瞰・対照分析
- パテントファミリーを用いた専門用語訳語獲得における対訳文対非抽出部分およびフレーズテーブルの利用
- 作業時点記録システムによる看護業務の効率化(一般セッション 医学・看護)
- 日中時系列ニュース・ブログにおけるトピックモデルの推定と分析(分析,第2回テキストマイニング・シンポジウム)
- 現場主導のサービス設計に向けて : User-driven Product/Activity Design(介護・医療システムの現場参加型開発)
- 家電製品の利用シーン、要求機能、製品体系の知識に基づく商品推薦システム:実装と評価
- 日中ブロガー・コミュニティの収集・俯瞰・対照分析(ブログ・ソーシャルネットワーク,ビッグデータを対象とした管理・情報検索・知識獲得及び一般)