概念識別子の頻度分布を利用した文書分類
スポンサーリンク
概要
- 論文の詳細を見る
本稿では、大量新聞記事テキストデータを用いて概念識別子の頻度分布を学習し、文書を分類する手法について述べる。概念識別子とはEDR単語辞書に記述されている「単語の概念を表す数値」のことである。朝日新聞一年分のデータ中の概念織別子の出現頻度分布から各概念識別子に対応する特徴ベクトルを生成し、新聞の記事を分類する手法を開発した。この手法を用いた分類を人手による分類と比較したところ、特徴ベクトルの次元数を2048とした場合、本手法で85%程度の記事が正しく分類され、そのうち分類が易しいと考えられる記事だけに限定すれば98%の記事が正しく分類されることが確認できた。
- 一般社団法人情報処理学会の論文
- 1995-09-14
著者
-
外川 文雄
シャープ(株)応用システム研究所内新機能シャープ研究室
-
湯浅 夏樹
シャープ(株)応用システム研究所
-
湯浅 夏樹
Rwcp 新機能シャープ研究室 シャープ(株)応用システム研究所内
-
外川 文雄
RWCP 新機能シャープ研究室 シャープ(株)応用システム研究所内
関連論文
- 音のリズム抽出による表示タイミング制御
- SA-6-3 音のリズム抽出による表示タイミング制御(SA-6. メディア変換・統合技術とヒューマンコミュニケーション,シンポジウム)
- 繰り返しを利用した音声要約の有用性検討
- 大量文書データ中の単語間共起を利用した文書分類
- 大量の文書データから自動抽出した名詞間共起関係による文書の自動分類
- マルチモーダル対話データベースに基づく音声と身振りの認識系統合モデル
- 概念識別子の頻度分布を利用した文書分類
- 複数カメラによる顔の向きの識別