文書分類への二次元クラスタリングの適用
スポンサーリンク
概要
- 論文の詳細を見る
二次元クラスタリングを用いて,文書分類の精度を向上させる方法を提案する.文書分類に対する確率モデルによるアプローチでは,同一カテゴリー文書は同一の確率分布から生起したものと仮定されている場合が多い.我々は,そのような仮定が誤りであることを実験的に示し,またその問題を軽減する枠組を提案する.提案手法では,上記仮定が成り立つように訓練文書がクラスター化され,またデータスパースネス問題を軽減するために,文書を表現している素性も同時にクラスター化される.この二次元クラスタリング手法の有効性を示すために実験を行い,精度の向上を確認した.
- 一般社団法人情報処理学会の論文
- 2002-05-23
著者
関連論文
- テキスト情報分析のための判断情報アノテーション(自然言語処理,意味解析,情報爆発論文)
- 現場発想による自然言語処理ブレークスルーの探求(平成21年度論文賞の受賞論文紹介)
- Espresso 型ブートストラッピング法における意味ドリフトのグラフ理論に基づく分析 : 語義曖昧性解消における評価
- バイパス付き編集グラフを用いた日本語並列構造解析(学習・系列解析・構文解析)
- グラフを用いたバイオ医療専門用語の類義語獲得(語彙・知識獲得)
- 系列ラベリングのための前向き後ろ向きアルゴリズムの一般化(学習・系列解析・構文解析)
- 被験者判定のゆれと要約モデル(コンテンツ処理)
- 係り受け解析器の部分解析精度評価とその利用(形態素・係り受け解析・感情)
- トーナメントモデルを用いた日本語係り受け解析
- Semi-Markov Conditional Random Fields のための損失関数スムージング