FFTを用いた繰り返しパターン発見手法の提案(セッション5B : パターン抽出)
スポンサーリンク
概要
- 論文の詳細を見る
半構造テキスト中から自明でない情報を取り出す取り出す技術である,データマイニング,あるいはテキストマイニングは,拡大するWWW上の情報を取り扱う上で非常に重要である.その技術の一つとして,対象のデータに繰り返し出現するパターンを発見する問題がある.発見されたパターンを用いることで,そのデータを加工する,あるいはデータから新たな情報を抽出する事が可能となる.繰り返しパターンを発見する方法として,対象となるデータをそれ自身のコピーと位置をずらして重ね,一致部分を見つける素朴な方法が考えられる.しかしこの方法は,テキストのサイズnに対して計算量が0(n^2)となり,大きなデータに対しては現実的でない.本研究では,我々が提唱しているFFTを用いた効率的な近似文字列照合アルゴリズムを適用し,O(nlog n)の計算量で繰り返しパターンを発見する手法について提案する.
- 2003-07-16
著者
関連論文
- 概念束によるヒヤリハット報告書の分析システム (言語理解とコミュニケーション・第1回集合知シンポジウム--言語処理が紡ぎ出す未来)
- Webシラバス統合による教育情報ライブラリ構築
- キーワード連動広告でのキーワード発見手法の提案(夏のデータベースワークショップ2007(データ工学,一般))
- キーワード連動広告でのキーワード発見手法の提案(メタデータ,夏のデータベースワークショップ2007(データ工学,一般))
- プレーリストからの曲目やアーティストの相互関連抽出
- WebDBにおける出力レコードのメタデータ自動抽出(セッション2:Web応用)
- D_040 WebDBをコンポーネントとするセマンティック・メタ検索の提案(D分野:データベース)
- マッシュアップを簡単に実現するメタCGIとそのアーキテクチャ(セッション2:Web応用)
- FFTを用いた繰り返しパターン発見手法の提案(セッション5B : パターン抽出)
- Webシラバス情報収集エージェントの試作(ソフトウェアエージェントとその応用論文)