Support Vector Machineによるテキスト分類における属性選択
スポンサーリンク
概要
- 論文の詳細を見る
本論文ではSupport Vector Machine (SVM)を使ったテキスト分類における属性選択手法について述べる.我々は最適な属性選択を調べるため相互情報量を基準とした属性選択と品詞を基準とした属性選択を比較した.前者の実験では相互情報量の大きい単語を順に追加して属性を増やし, 後者の実験では普通名詞のみの単語属性から始めて固有名詞, サ変名詞, 未定義語, 動詞を追加して属性を増やした.その結果, 1)最適な属性数はカテゴリごとに異なるが, 2)平均すると品詞基準の属性選択で普通名詞, 固有名詞, サ変名詞, 未定義語, 動詞の5品詞の単語をすべて使用したときに最高の精度が得られた.この結果からSVMの汎化能力は非常に高く, 高い分類精度を得るためには品詞によるフィルタリングという単純な処理のみを行い, 後は全単語を入力として用いればよいことが明らかになった.
- 2000-04-15
著者
関連論文
- Support Vector Machineによるテキスト分類における属性選択
- 最大マージン原理にもとづく多重トピック文書の自動分類(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活動と自然言語処理」その他一般)
- 最大マージン原理にもとづく多重トピック文書の自動分類(フィルタリング、文書分類)(テーマ:「Webマイニングによる情報活用と自然言語処理」その他一般)
- SAIQA : 大量文書に基づく質問応答システム
- SAIQA : 大量文書に基づく質問応答システム
- EU Advanced Course in Computational Neuroscience 1999の報告
- 最大マージン原理に基づく多重ラベリング学習(自然言語処理)
- 生物医学文献からの遺伝子機能フレーズの抽出(抽出,マイニング)
- 「納得感」のある研究を目指して(編集委員今年の抱負2011)
- 決定木を用いた日本語係受け解析
- 6 バイオ自然言語処理のための機械学習技術(ポストゲノム時代に高まるバイオ自然言語処理への期待 : バイオ自然言語処理最新事情)
- 質問応答システムの比較と評価
- AAAI-99参加報告
- 生物医学文献からの遺伝子機能フレーズの抽出(抽出, マイニング)(言語理解とコミュニケーション)
- 機械翻訳辞書構築支援ツ-ル (特集論文 日英機械翻訳技術)
- 汎用的な意味解析技術への挑戦 (特集 ポータルサービスを支える自然言語処理技術)
- TD-3-3 SVMのテキスト分類への応用(TD-3. 天下無敵のサポートベクトルマシン?)
- 生物医学文献からの遺伝子機能フレーズの抽出
- 生物医学質問応答システム(bio-QA)の提案
- 生物医学質問応答システム(bio-QA)の提案
- トランスダクティブ・ブースティング法によるテキスト分類
- テキスト分類 : 学習理論の「見本市」(情報論的学習理論とその応用)
- トランスダクティブ・ブースティング法によるテキスト分類
- 機械学習の手法による自然言語処理
- 機械学習の手法による自然言語処理
- 5 対訳テキストから辞書を自動生成 (フィールドを広げる自然言語処理)
- Support Vector Machineによるテキスト分類
- 機械学習の手法による自然言語処理
- 阿部重夫, パターン認識のためのサポートベクトルマシン入門, pp.204, 森北出版, 2011
- 高橋誠, かけ算には順序があるのか(岩波科学ライブラリ), pp.128, 岩波書店, 2011
- 特集「ポスト経験主義の言語処理」にあたって
- 少ない要素で「理解」する(編集委員今年の抱負2013)
- タイトル無し
- 画像検索を用いた語義別画像付き辞書の構築