複合ソート法による高速な全ペア類似度検索(特別セッション,機械学習とその応用)
スポンサーリンク
概要
- 論文の詳細を見る
近年、画像や信号などを、数十ビット程度のスケッチとよばれるビット列で表す手法が、多く提案されている。ここから、半教師つき学習などに必要な類似度ネットワークを作成するには、ハミング距離の意味で近いペアを網羅的に発見する必要がある。しかし、全てのペアに関して距離を計算する方法は遅すぎ、三角不等式を用いて枝刈りをする方法を用いても十分な速度が得られない。本発表では、アイテムセットマイニングに用いられるPatternGrowth法と、基数ソートを組合わせた複合ソート法という手法を紹介し、160万サンプルの画像データに適用して、cover tree, Lanczos bisectionなどの他手法よりも、大幅に高速であることを示す。特に、Locality sensitive hashingを用いてスケッチを作成した際の平均的な偽陰性確率(見逃しの確率)や、重複した発見を避けるための工夫についても述べる。また、同じアイデアを編集距離に基づくペア発見に適用することによって、生物配列への適用も可能になる。この方法で、数千万本の短いDNA配列に対して全ペア類似度検索を行った結果、Suffix Arrayを用いる方法に比べて、20-1000倍の高速化を達成した。
- 2010-06-07
著者
関連論文
- 機械学習研究の楽しみ(平成21年度長尾真記念特別賞紹介)
- 複数生物種ネットワークの同時予測:半教師つき学習によるアプローチ
- ネットワーク型雑音除去によるマイクロアレイデータからの薬剤耐性予測(機械学習によるバイオデータマイニング)
- ネットワーク型雑音除去によるマイクロアレイデータから由薬剤耐性予測(機械学習によるバイオデータマインニング)
- 複合ソート法による高速な全ペア類似度検索(特別セッション,機械学習とその応用)
- カーネル行列補完による生物学的ネットワークの推定(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- カーネル行列補完による生物学的ネットワークの推定(学習理論とパターン認識メディア理解, 学習理論とパターン認識メディア理解, 機械学習による自然言語処理・言語処理を利用したメディア理解, 一般)
- HMMによる系列の向き及び位置の変分推定法と蛋白質の構造比較への応用(バイオインフォマティクスとパターン認識)
- カーネルマシンによる複数情報源からのイースト菌遺伝子機能予測
- 全ての2残基間の相関を考慮したSplice Siteのモデリング
- 産業連関表の情報幾何(ネットワーク,テキスト・Webマイニング,一般)
- 劣モジュラ性を用いた特徴集合列挙(離散系と機械学習,テキスト・Webマイニング,一般)
- International Conference on Machine Learning (ICML)-2005
- 複数のネットワークを用いたタンパク質の高速分類(バイオインフォマティックス(1))
- カーネル設計の方法
- Fisher Kernelとその周辺
- Fisher Kernelとその周辺
- サポートベクターマシン : 最適化からのアプローチ (サポートベクターマシン : その仕組みと応用 : 分類手法の新展開)
- ウェーブレット木によるバイナリコードの高速検索(機械学習とその応用)
- 大規模データの類似度検索技術(離散構造処理系-知能情報処理を支えるアルゴリズムの技法)
- DK-2-3 フロンティア法の電力網構成制御への応用(DK-2.第3回ERATO湊離散構造処理系シンポジウム-グラフ列挙索引化アルゴリズムの新展開-,ソサイエティ特別企画,ソサイエティ企画)
- DK-2-3 フロンティア法の電力網構成制御への応用(DK-2.第3回ERATO湊離散構造処理系シンポジウム-グラフ列挙索引化アルゴリズムの新展開-,ソサイエティ特別企画,ソサイエティ企画)
- isAI 2011報告
- 大規模データの類似度検索技術
- フロンティア法を用いた電力網解析手法(新世代・次世代ネットワーク,ネットワークとシステムの仮想化,仮想化環境の管理・監視,オーバーレイ,IPv6ネットワーク,フォトニックネットワーク及び一般)
- ゼロサプレス型二分決定グラフに基くコンパクトかつ高速な索引構造(一般)