不均衡データにおける偽陽性率を考慮したスパム判別器のオンライン学習

スポンサーリンク

概要

論文の詳細を見る
ウェブスパム判別においては,あらかじめラベル付けされた訓練データを用いて機械学習の枠組みでスパム判別器を生成する方法が広く用いられている.本稿では,ウェブスパム判別において特に課題となる偽陽性率に着目し,偏りのある訓練データを用いた場合においても偽陽性率を抑えつつ,高精度な判別が可能となるマージン識別器のオンライン学習手法を提案する.提案手法では学習時にスパムと非スパム側に異なるマージンサイズを設定することで偽陽性率を抑え,クラスを確率的に選択したうえで当該クラスにおいて最大損失を与える事例を更新に用いることで,訓練データの偏りの影響を排除しつつ高精度な学習を可能とする.本稿ではスパムブログデータセットを用いて訓練データの事例数に偏りがある場合においても提案手法によって偽陽性率を抑えた高精度なスパム判別が可能であることを示す.
2013-03-29

著者

関連論文

もっと見る

スポンサーリンク