カテゴリ間の単語頻度の差分を用いたテキストの自動分類
スポンサーリンク
概要
- 論文の詳細を見る
本研究では,前稿において"蓄積手法"という新たな分類手法を提案した.蓄積手法は,特徴語を限りなく利用することができるという特性を持っている.そこで本稿では,この性質を利用して,文字単位のN-gramや単語単位のN-gramを特徴語として用いることを提案する.そして,従来手法であるナイーブベイズ法と本提案手法を用いて,電子的な新聞記事"CD-毎日新聞2002"を分類させる実験を行った.その結果,本提案手法を用いた場合,88.7%という非常に高い分類性能を実現することができ,ナイーブベイズ法に比べて大幅に分類精度が向上することが確認できた.
- 2008-10-15
著者
関連論文
- 高次元ベクトル空間モデルによるテキスト分類問題について : 分類性能と距離構造の漸近解析(理論・技術)
- 単語と N-gram の各カテゴリにおける出現頻度の比の和を用いたテキスト自動分類手法
- カテゴリ間の単語頻度の差分を用いたテキストの自動分類
- 高次元ベクトル空間モデルによるテキスト分類問題について : 分類性能と距離構造の漸近解析
- 信頼性を考慮した推論について
- D-8-6 ベイズ推定に基づく不確実な知識を用いた推論に関する一考察
- 不確実な知識を用いた推論のモデル化と推論法について
- 4J-2 マルチエージェントにおける情報交換ルールの自動獲得に関する一考察
- 2J-4 EMアルゴリズムによるパラメータ推定に関する一考察
- 推論の信頼性を考慮した不確実な知識の表現法と推論法について
- カテゴリ間の単語頻度の差分を用いたテキストの自動分類手法に関する有効性の検証
- テキスト自動分類におけるキーワード選択に関する一考察
- 確率的推論のモデル化と推論結果の信頼性を保証する推論方式について
- 任意の外部記憶容量で動作するマージソート(情報・システム基礎,学生論文)