日本語テキスト分類における特徴素抽出

スポンサーリンク

概要

論文の詳細を見る
テキスト分類や検案においてその文書の内容を表現するインデキシング言語をどのように設定するかは, 分類・検索の精度を決定する大きな要因になっている. そこで, 特許文書を対象として, 特徴素として単漢字, 単語, フレーズを使用したインデキシング言語て分類実験を行なうことにより, 日本語テキストではどのような特徴素抽出が有効なのかを実験・検討した. その結果, 単漢字ベースのインデキシング言語は最も分類精度が悪く, フレーズベースのインデキシング言語が単語ペースのインデキシング言語より良く, 単語のbigramモデルによるインデキシング言語が最も良い結果を得た. これらの結果から, 多少の雑音の混入を気にせずに有効そうな特徴素を多く抽出することが分類精度向上に良い結果をもたらす可能性が高いということがわかった.
一般社団法人情報処理学会の論文
1996-03-14

著者

関連論文

もっと見る

スポンサーリンク