正規圧縮距離を用いた和文小説の著者別分類と圧縮プログラムの妥当性
スポンサーリンク
概要
- 論文の詳細を見る
本研究では和文小説の著者別分類において正規圧縮距離(NCD)を用いた距離行列法が有効であるか調べた.距離行列のみでは文章間の関係が確定しないため,非加重平均結合法(UPGMA法)・近隣結合法(NJ法)・古典的多次元尺度構成法(MDS法)により文章間の関係を推定することを試みた.これらの方法が有用であるか判断するために,ある和文から順次改編を行い作成した文章群に対しNCDを適用して距離行列を作成し,これらにUPGMA法・NJ法・MDS法を適用して文章間の関係を推定した.また和文小説への適用可能性を調べるために,圧縮プログラムbzip2およびgzipを利用し,小説のデータからNCDによる距離行列を求めた.本研究では距離行列の対角要素を利用した圧縮プログラムの選択方法について考察した.また距離行列にNJ法およびMDS法を適用し,著者別の分類が可能であるか調べた.以上により,本研究ではNCDで用いられる圧縮プログラムの選択基準として,距離行列の対角要素の値の分布において,平均値が小さいことおよび分布の幅が狭いことを条件として提案した.またNJおよびMDSを用いることで,NCDによる距離行列法が和文小説の著者別分類に有用であることを示した.
- 一般社団法人情報処理学会の論文
- 2008-12-15
著者
関連論文
- 21aEH-5 x^4型ポテンシャルを持つ模型におけるTsallis分布の影響(21aEH 量子論基礎・量子カオス系,領域11(統計力学,物性基礎論,応用数学,力学,流体物理))
- 5A-4 直線データに対する正規圧縮距離へのガウス型白色ノイズの影響(数理モデルとデータマイニング,一般セッション,ソフトウェア科学・工学,情報処理学会創立50周年記念)
- 2B-6 正規圧縮距離に対するガウス型白色ノイズの影響(数理モデル化と問題解決,一般セッション,ソフトウェア科学・工学)
- 正規圧縮距離を用いた和文小説の著者別分類と圧縮プログラムの妥当性
- Effects of nonlinear terms on parametric resonance in λφ^4 theory