不均衡データにおける偽陽性率を考慮したスパム判別器のオンライン学習
スポンサーリンク
概要
- 論文の詳細を見る
ウェブスパム判別においては,あらかじめラベル付けされた訓練データを用いて機械学習の枠組みでスパム判別器を生成する方法が広く用いられている.本稿では,ウェブスパム判別において特に課題となる偽陽性率に着目し,偏りのある訓練データを用いた場合においても偽陽性率を抑えつつ,高精度な判別が可能となるマージン識別器のオンライン学習手法を提案する.提案手法では学習時にスパムと非スパム側に異なるマージンサイズを設定することで偽陽性率を抑え,クラスを確率的に選択したうえで当該クラスにおいて最大損失を与える事例を更新に用いることで,訓練データの偏りの影響を排除しつつ高精度な学習を可能とする.本稿ではスパムブログデータセットを用いて訓練データの事例数に偏りがある場合においても提案手法によって偽陽性率を抑えた高精度なスパム判別が可能であることを示す.
- 2013-03-29
著者
-
数原 良彦
日本電信電話株式会社NTTサイバーソリューション研究所
-
鈴木 潤
日本電信電話株式会社 Ntt コミュニケーション科学基礎研究所
-
数原 良彦
日本電信電話株式会社NTTサービスエボリューション研究所
-
鷲崎 誠司
日本電信電話株式会社NTTサービスエボリューション研究所
-
数原 良彦
日本電信電話株式会社 NTT サービスエボリューション研究所
-
鷲崎 誠司
日本電信電話株式会社 NTT サービスエボリューション研究所
関連論文
- ソーシャルブックマークにおけるタグ付与行動に基づくスパマー判別
- ソーシャルブックマークユーザのタグ付与行動に基づくスパマー判別手法(ウェブ情報とデータベースに関して(ポスター講演))
- F値最大化学習に基づく文書の多重ラベリング(機械学習)
- 高次元特徴空間に適した半教師あり条件付確率場の検証(機械学習)
- 識別学習による組合せ最適化問題としての文短縮手法
- 単一言語コーパスにおける文の自動対応付け手法(自然言語)
- 階層非循環有向グラフカーネル(情報論的学習理論論文)
- SVMを用いた学習型質問応答システムSAIQA-II(自然言語)
- 単語属性N-gramと統計的機械学習による質問タイプ同定(自然言語)(「インタラクション:理論,技術,応用,評価」)
- 機械学習のための組み合わせ素性の選択基準について(分類、クラスタリング,機械学習)
- 言語パターンに着目した複数文書要約(要約)
- 機械学習のための組み合わせ素性の選択基準について(分類、クラスタリング, 機械学習)(言語理解とコミュニケーション)
- 言語パターンに着目した複数文書要約(言語理解とコミュニケーション)
- 機械学習のための組み合わせ素性の選択基準について
- 言語パターンに着目した複数文書要約
- 素性選択機能をもったString Kernelの提案(パタン発見)(セマンティックウェブと自然言語処理その他一般)
- 素性選択機能をもった String Kernel の提案
- 階層構造を利用したテキスト間類似度の効率的計算法
- LE-10 統計的機械学習を用いた質問タイプ同定(E. 自然言語・文書)
- SAIQA : 大量文書に基づく質問応答システム
- SAIQA : 大量文書に基づく質問応答システム
- 適合性分布が異なる情報源を用いたランキング学習
- 構文情報に依存しない文短縮手法
- E-038 文書構造を考慮した近接度スコアを用いた文書検索結果ランキング方式(E分野:自然言語・音声・音楽,一般論文)
- セグメント単位の評価指標最大化に基づく条件付確率場の学習(自然言語処理)
- 大規模データを用いた半教師あり学習による高精度係り受け解析モデルの学習
- 不均衡データにおける偽陽性率を考慮したスパム判別器のオンライン学習
- 地域特有の話題発見を支援するスマートフォン向けマップ型検索システム : 発見探地図エリアダス(地理情報システム,データ工学と情報マネジメント論文)
- D-007 偽陽性率に着目したオンライン学習を用いたスパム判別(Web,D分野:データベース)
- 画像検索でのユーザ行動を利用した大規模画像アノテーション(一般物体認識,文字・文書,映像,医用画像,画像の認識・理解論文)
- 地域特徴語選択を用いたマルチクラス分類によるTwitterユーザの居住地推定(地域情報&ソーシヤルメデイア,第4回集合知シンポジウム)
- RD-003 知名度の地理的広がりを考慮した実世界スポットの地域局所性推定(D分野:データベース)
- D-019 POI情報を利用したWeb文書からの地名の抽出(D分野:データベース)