複製文字列検知に基づいた Splog フィルタリング手法

概要

論文の詳細を見る
ブログなどの CGM (Consumer Generated Media) のデータは,消費者の実体験や生の声を含んでおり,顧客のニーズを分析したり,プロモーションの効果を検証したりするための情報源として,その重要性が増してきている.しかし,ブログには,商品の販売促進や,特定の web サイトのランクをあげることなどを目的とした splog と呼ばれるスパムコンテンツが含まれており,ブログの検索や分析に悪影響を及ぼしている.本稿では特に日本語における splog の特徴であるコピーコンテンツの検出に注目し,そのフィルタリング手法を提案する.日本語の splog は,さまざまな文書に含まれる文字列をコピーしつなぎ合わせることによって機械的に生成されることが多い.そこで,本稿では,動的計画法と suffix array を用いて,各ブログに含まれる文字列で,他の文書にも現れる文字列を効率良く検出するアルゴリズムを提案し,そのような文字列がブログに占める割合に基づいた splog のフィルタリング法を提案する.また,フィルタリング性能を評価するためのコーパスを構築し,提案手法が高いフィルタリング性能を実現できることを示すとともに,その特性を分析する.
一般社団法人情報処理学会の論文
2009-03-31