大量文書データ中の単語間共起を利用した文書分類
スポンサーリンク
概要
- 論文の詳細を見る
本稿では,特徴ベクトルを用いて自動的に文書分類を行う二つの手法を提案する.一つは,大量の文書データを用いて,同一記事中の単語間共起関係から分野の特徴を表す単語出現頻度分布の近似値を求め,この値を要素とする特徴ベクトルを用いて文書を分類する手法である.もう一つは,EDRの辞書をシソーラスとして用い,単語間の類似度を求め,この単語類似度を要素とする特徴ベクトルを用いて文書を分類する方法である.これらの手法を人手による分類比較したところ,単語間共起を用いた手法では83.5%の記事が正しく分類され,易しい記事だけに限定すれば98.0%の記事が正しく分類されることが確認できた.また,シソーラスを用いた手法では,63.75%の記事が正しく分類されることが確認できた.
- 一般社団法人情報処理学会の論文
- 1995-08-15
著者
-
上田 徹
シャープ(株)応用システム研究所
-
外川 文雄
シャープ(株)応用システム研究所内新機能シャープ研究室
-
湯浅 夏樹
シャープ(株)応用システム研究所
-
湯浅 夏樹
Rwcp 新機能シャープ研究室 シャープ(株)応用システム研究所内
-
外川 文雄
RWCP 新機能シャープ研究室 シャープ(株)応用システム研究所内
関連論文
- 仮想の人を介した対話型インタフェース
- 音のリズム抽出による表示タイミング制御
- SA-6-3 音のリズム抽出による表示タイミング制御(SA-6. メディア変換・統合技術とヒューマンコミュニケーション,シンポジウム)
- 繰り返しを利用した音声要約の有用性検討
- 大量文書データ中の単語間共起を利用した文書分類
- 大量の文書データから自動抽出した名詞間共起関係による文書の自動分類
- 9)Poly-Si TFT LCDにおける絵素微小化(〔情報入力研究会情報ディスプレイ研究会コンシューマエレクトロニクス研究会〕合同)
- Poly-Si TFT LCDにおける絵素微小化
- マルチモーダル対話データベースに基づく音声と身振りの認識系統合モデル
- 概念識別子の頻度分布を利用した文書分類
- 複数カメラによる顔の向きの識別