文書分類を用いたスパムメール判定手法(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)

概要

論文の詳細を見る
近年,クライアント側でスパムメールのフィルタリングを行う研究が盛んに行われている,しかし,現在ではスパムメールの中にもいくつかの種類が存在するため,フィルタリング技術を用いたとしても,必要なメールであると判定するスパムメールも存在する.そこで,本研究では複数のスパムメールの内容を考慮して,スパムメールの判定を行う手法を提案する.この手法は,スパム,非スパムすべてのメールを,一般的なクラスタリングアルゴリズムであるk-meansアルゴリズムを用いて自動的にいくつかのクラスタに分類することで,様々な内容を持つスパムメールを個別の内容としてとらえることを目的としている.その結果,我々の提案手法はスパムメールを約90%以上,非スパムメールを96%以上の高い精度で判別することができた.そのため,スパムメールが持つ広範囲なトピックを抽出することやスパムメールの細かい特徴をとらえることが可能となった.また,SVMとbogofilterを用いて比較評価を行ったところ,提案手法はSVMと比較して少々見劣りはするものの同等の判定精度を持ち,bogofilterと比較すると非常に有効な手法であることが分かった.
一般社団法人情報処理学会の論文
2004-09-16