編集距離による最類似文字列の探索高速化に関する研究(テーマ,膨大なデータから学ぶもの)
スポンサーリンク
概要
- 論文の詳細を見る
文字列の集合T(索引の作成を許す)の中から,クエリ文字列qとの編集距離が最小となる要素を求める問題を考える.この探索を高速化する索引付けの方法として,従来はTの要素同士の距離の関係に基づき索引を作るものが主であった.これに対し我々は,要素が文字列であることを積極的に利用した索引付けを考え,索引付けおよび探索を高速化する.本研究では,編集距離の近似としてn-gram距離を導入し,距離空間における探索木の一つであるVP木の構築を高速化する.実験の結果,探索速度を落とさずに,VP木構築の時間を編集距離をそのまま用いる場合に比べて8分の1に削減できた.
- 2008-06-12
著者
-
工藤 峰一
北海道大学大学院情報科学研究科
-
工藤 峰一
北海道大学大学院工学研究科システム情報工学専攻
-
Kudo Mineichi
Division Of Systems And Information Engineering Graduate School Of Engineering Hokkaido University
-
工藤 峰一
北海道大学情報科学研究科
-
花田 博幸
北海道大学大学院情報科学研究科
-
Kudo Mineichi
The Division Of Systems And Information Engineering Graduate School Of Engineering Hokkaido Univeris
-
花田 博幸
北海道大学 大学院情報科学研究科
-
工藤 峰一
北海道大学 大学院情報科学研究科
関連論文
- Data compression by volume prototypes for streaming data
- Probably correct k-nearest neighbor search in high dimensions
- 複数アクションを選択するAdversarial Bandit問題について
- 編集距離による最類似文字列の探索高速化に関する研究(テーマ,膨大なデータから学ぶもの)
- 多面体識別子族における識別子選択(一般セッション1,移動カメラ画像処理におけるパターン認識とメディア理解)
- 非確率的なmulti-armed bandit問題における分散投資の効果について(一般セッション4,移動カメラ画像処理におけるパターン認識とメディア理解)
- パッキングアライメントとその音楽マイニングへの応用
- Notes on Enumeration of Concepts in a Sperner Family Concept Class Using Subconcept Queries (Foundations of Theoretical Computer Science : For New Computational View)
- 部分クラスの複雑さと列挙法について
- 木構造データに対する頻出類似部分木の発見(テーマセッション,データ工学とメディア理解との融合)
- LA_001 繰返し表現木最小化アルゴリズム(A分野:モデル・アルゴリズム・プログラミング)
- 繰返し構造をもつラベル付順序木の簡潔な表現法(計算理論とアルゴリズムの新展開)
- 両方向 N-gram 確率を用いた誤り文字検出法(自然言語処理)
- 節点包含制約を満たす頻出木マイニング
- ルールの予測精度と興味深さに関する検討(テーマセッション(1))(データマイニングとパターン認識・メディア理解)
- 両方向N-gram確率を用いた確率変化パターンによる誤り検出(テーマセッション(1))(データマイニングとパターン認識・メディア理解)
- 哺乳類における5'-スプライスサイトの配列パターンの位置木による解析
- ポスター講演 超矩形による貪欲被覆学習の効率的実装と実データによる性能評価 (情報論的学習理論と機械学習)
- グラフによるインタラクティブなデータ分析と決定木の構成(パターン認識)
- 識別情報を利用したクラス情報のグラフ表示
- グラフによる多次元データの構造解析
- 編集距離による最類似文字列の探索高速化に関する研究(テーマ,膨大なデータから学ぶもの)
- パターン認識における都市伝説 (パターン認識・メディア理解)
- 体積プロトタイプの解析と混合分布モデルとの比較(一般セッション,データ工学とメディア理解との融合)
- 体積プロトタイプの解析と混合分布モデルとの比較(一般セッション,データ工学とメディア理解との融合)
- パターン認識問題における終端条件の付加によるk近隣法の高速化
- スプライン曲面を用いた画像の2チャネル符号化
- 通過領域に着目した多次元空間における曲線分類
- 分枝限定法利用の最近隣法における終端条件の効果
- 複数領域の隣接関係に基づく自然シーンの高速ラベリング
- 非線形識別関数のための特徴選択
- 顔の幾何学的特徴による個人識別
- 領域の隣接関係を用いたラベル画像の生成
- 極小値が単峰列な傾向をもつ多峰関数の大域的最適化法
- 極小値が単峰列で単峰領域幅が等しい一変数多峰関数の大域的最適化法
- パターン認識における都市伝説(テーマセッション,パターン認識とメディア理解のフロンティアとグランドチャレンジ)
- 凸包によるクラス領域の近似
- 混合分布を用いた識別規則における最適な混合数の選択
- 手書き漢字同定のための動的モデルによるストローク抽出
- 識別問題におけるMDL基準を用いたクラスタリング法
- ラフ集合理論を用いたパターン識別
- ボルテラ級数を用いた非線形画像後元
- 画像の小領域に基づく復元フィルタの構成
- 緩和型神経回路モデルによる図形分節候補抽出
- 圧力センサを用いた着席者の姿勢識別に関する研究(ユビキタス・センサネットワークの要素技術,コンテクストの抽出,スマートスペース,ユビキタス生活支援,一般)
- 圧力センサを用いた着席者の姿勢識別に関する研究(ユビキタス・センサネットワークの要素技術,コンテクストの抽出,スマートスペース,ユビキタス生活支援,一般)
- Design of Decision Trees Using Class-Dependent Feature Subsets
- 劣決定信号復元における最小l_1ノルム系列の効率的構成(一般セッション(8))(データマイニングとパターン認識・メディア理解)
- モデル選択基準を用いた非線形識別関数の構成
- 孤立発声母音を用いた聴覚モデルによる話者認識
- スプライン曲面を使った画像情報の圧縮
- 階層的重複クラスタリングによるウェブ検索結果の集約(一般セッション4,移動カメラ画像処理におけるパターン認識とメディア理解)
- データ部分集合と特徴部分集合の同時選択による識別子統合(一般セッション,データ工学とメディア理解との融合)
- データ部分集合と特徴部分集合の同時選択による識別子統合(一般セッション,データ工学とメディア理解との融合)
- Knowledge-Based Enhancement of Low Spatial Resolution Images
- Interactive Data Analysis Based on Graph and Construction of Decision Trees
- 超矩形による貪欲被覆学習の効率的実装と実データによる性能評価(IBIS2010(情報論的学習理論ワークショップ))
- 木構造データに対する頻出類似部分木の発見(テーマセッション,データ工学とメディア理解との融合)
- 体積プロトタイプによるデータ集約(テーマセッション(4),パターン認識・メディア理解のための学習理論とその応用)
- 情報の粒度を用いた属性値の抽象化(テーマセッション(4),パターン認識・メディア理解のための学習理論とその応用)
- 特徴選択 : これまでと今後の展開(テーマセッション(2),パターン認識・メディア理解のための学習理論とその応用)
- 特徴選択 : これまでと今後の展開
- 最小包含球の族による被覆を用いたノンパラメトリック識別(一般セッション(2))(ユビキタスコンピューティングのためのパターン認識・メディア理解,一般)
- 節点包含制約を満たす頻出木マイニング
- 包含と排除によるκ最近隣法の高速化(テーマセッション(3))(データマイニングとパターン認識・メディア理解)
- クラスに依存した特徴集合を用いた決定木の設計(パターン認識)
- クラスに依存した特徴集合の有効性の検討
- クラスに依存した特徴集合の有効性の検討
- 所属性質問を利用した区分的線形識別規則の追加学習
- 統計的弛緩法による図形分節モデル
- 明度および色度の段階的クラスタリングによる色彩画像の限定色表示
- 極小値が単峰列となる多峰関数の大域的最適化手法(1)単峰領域幅が等しい目的関数の大域的最適化
- 極小値が単峰列となる多峰関数の大域的最適化手法(1) : 単峰領域幅が等しい目的関数の大域的最適化(数値計算,数理計画法)
- 大規模データに対する識別子独立型の特徴選択(一般セッション,PRMUのフロンティア・グランドチャレンジ)
- Closeness Centralityの高いノードを発見する高速アルゴリズム
- 1-Median問題の高速な近似アルゴリズム (特集 「Webと知識連携・統合,発想支援」および一般)
- マッチング選択多腕bandit問題の効率的解法アルゴリズム (特集 「Webと知識連携・統合,発想支援」および一般)
- 編集距離による最類似文字列の探索高速化に関する研究
- 編集距離による最類似文字列の探索高速化に関する研究
- 順列バンディット問題における新しいUCB型アルゴリズム(一般)