K語近接相関パタンの高速発見アルゴリズム

スポンサーリンク

概要

論文の詳細を見る
与えられた大量の文書の集積から, 分類精度を最大にする文字列パタンを見つける問題を考察する.複数の文字列の近接した出現を記述する近接語相関パタンを導入し, 文字出現が独立で一様な確率分布にしたがうランダムテキストに対して, 分類精度を最大化する近接度がkでd個の語からなる語相関パタンを平均計算時間O(k^<d-1>nlog^<d+1>n)および領域O(k^<d-1>n)で計算するアルゴリズムを与える.このアルゴリズムは, すべての部分語を枚挙する自明なアルゴリズムの時間計算量O(n^<2d+1>)に対して, 著しい高速化を達成しており, 遺伝子情報データのようなほぼランダムなテキストに対するデータマイニング問題に適用可能である.この結果は, 任意個数の語からなる近接相関パタンに対して, 分類精度最適化問題が多項式時間近似スキームをもたない事実と対照的である.
1998-11-20

著者

関連論文

もっと見る

スポンサーリンク