単語の長さの情報に基づいた文章のパターンの分類
スポンサーリンク
概要
- 論文の詳細を見る
著者不明の文章の著者の推定などを行なう際、文章の中のどんな情報を用いるかが鍵である。著者の個性が十分含まれていない情報では、有効な方法でも著者の推定、著者別の文章の分類が正しくできないのは言うまでもない。欧米における文章については長年にかけ多くの研究が行なっているが、日本文の場合は著者の推定などに用いる情報に関しては研究が十分行なっていない。本文では品詞別にわけていない場合と品詞別に分けた場合の単語の長さの情報に基づいて著者別の文章の分類について分析を行なった。分類がもっとも良いのは動詞の長さの情報で、品詞別に分けていない、すべての単語の長さの情報を用いた場合よりはるかに良い。分析の手法としては群内距離と最小の群間の距離との差の大小を統計量・分散比で評価し、分散比が大きいほど分類が良いと判断した。分類結果を視覚化する手法としては主成分分析を用いた。
- 一般社団法人情報処理学会の論文
- 1994-03-07