文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用
スポンサーリンク
概要
- 論文の詳細を見る
これまでデータと言えば,数や数ベクトルが大部分を占めていたが,近年,計算機科学や生物学において,テキストデータや生物配列など,大量の文字列データが生成されるようになり,文字列データの分類問題は,様々な領域に共通の問題となっている.この問題に対して現在最もよく用いられている方法は,文字列カーネルによって文字列を数ベクトルに変換し,それにサポートベクターマシーンを適用することである.しかし,この変換は 1 対 1 ではなく,文字列を構成する文字の並びに関するかなりの量の情報を捨ててしまう.また,この接近法のより重要な問題は,学習機械を訓練し,テストするために与えられたデータはある確立法則に従って生成された文字列であるという重要な側面を考慮し,確立論を用いて学習機械の汎化誤差を理論的に評価することを不可能にしていることである.なぜ,文字列データを分類するために,それを数ベクトルに変換し,数ベクトル空間上で動作する学習機械を用いるのだろうか.文字列を分類するには,文字列の集合上で動作する学習機械を用いるのが自然だろう.我々は,文字列を数ベクトルに変換せずに,文字列自体を入力として受け取る学習機械を構築することにより,この分類問題に接近した.このような学習機械の汎化誤差を理論的に評価するには,文字列に対する確率論が必要である.文字列は,これまで,数学の対象というよりは,計算機科学の対象であり,文字列の集合に位相構造や代数構造を与えて,その上で確立論を展開するということはなされてこなかったが,著者等のうちの 1 人と彼の共同研究者は,以前の研究において,Levenshtein 距離が与えられた文字列の距離空間上で確立論を展開して,ベクトル空間における大数強法則の,この空間におけるアナロジーを証明した.この研究において,我々は,この文字列の集合上の確立論を応用することにより,ある正則条件の下で,我々の学習機械が漸近的に最適な仕方で文字列を分類することを証明した.更に,我々の学習機械を,アミノ酸配列を用いたタンパク質間相互作用の予測問題に応用して,実際のデータ解析におけるその有用牲を示した.
- 2014-06-18
著者
-
阿久津 達也
京都大学化学研究所バイオインフォマティクスセンター
-
林田 守広
京都大学化学研究所バイオインフォマティクスセンター
-
阿久津 達也
京都大学化学研究所
-
小谷野 仁
京都大学大学院医学研究科臨床研究総合センター
関連論文
- 代謝ネットワークの最小反応カットを求めるアルゴリズム
- 整数計画法を用いたブーリアンネットワークの解析・制御手法(システムバイオロジー,システムバイオロジー,一般)
- 高さの制限された無順序木の編集距離問題に対する近似アルゴリズム
- タンパク質ドメインネットワークに対する二部グラフのモデル
- タンパク質間相互作用ネットワークにおける相互作用ドメイン対の確率的選択に基づくべき乗分布のモデル化
- 最適degenerate pattern探索アルゴリズムと転写因子結合部位同定問題への適用
- 最適 degenerate pattern 探索アルゴリズムと転写因子結合部位同定問題への適用
- 高さの制限された2個の無順序木に対する最大共通部分木の近似アルゴリズムの改良
- 2J-3 確率モデルに基づく木の類似度のパラメータ学習について(情報爆発時代におけるマルチメディアデータと交通情報システム,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- パス頻度ベクトルからのグラフ推定問題の困難性について
- 類似度の高い無順序木の比較に対する高速アルゴリズム
- ブール関数推定のための貪欲アルゴリズムの性能解析
- タンパク質ベータシート予測 : 動的計画法と形式文法によるアプローチ(一般セッション3)
- 形式文法に基づくRNA2次構造予測(若手研究者のための講演会)
- DNAマイクロアレイ画像の解析
- 期待精度最大化に基づくRNAシュードノット予測
- 構造トポロジーと複雑ネットワーク特徴量からのタンパク質フォールディング速度予測
- 無順序木の編集距離計算のための厳密アルゴリズム
- 整数計画法によるシュードノットつきRNA2次構造予測
- 整数計画法によるシュードノットつきRNA2次構造予測
- 相互作用RNA2次構造予測 : 形式文法によるアプローチ
- 効率的クリークアルゴリズムに基づく電気泳動画像マッチング、タンパク質構造マッチング、および、タンパク質側鎖パッキング
- DNA2次元電気泳動画像のパターンマッチング : 問題の困難さとヒューリスティック・アルゴリズム
- DNA2次元電気泳動画像のパターンマッチング : 問題の困難さとヒューリスティック・アルゴリズム
- ゲノムDNA解析のための2次元電気泳動画像システム
- 確率ブーリアンネットワークのアトラクター検出とブーリアンネットワークとのアトラクターの関係
- タンパク質間相互作用ネットワークにおける相互作用ドメイン対の確率的選択に基づくべき乗分布のモデル化
- 入次数に制約のあるブーリアンネットワークに対する先行状態検出問題および制御問題について
- 細胞アレイ解析のための線形計画法を用いたレポーター遺伝子の最適配置
- タンパク質間相互作用強度予測の高速化と困難性(ニューラルネットワーク及び生物工学)
- 制約付きプロファイルアライメント(文字列アルゴリズム)
- タンパク質間の相互作用強度予測(バイオインフォマティック)
- タンパク質間の相互作用強度予測
- パス頻度ベクトルからのグラフ推定問題の困難性について
- 生育温度による代謝ネットワーク構造の差異
- 21aTP-11 原核生物における代謝ネットワークの構造と成育温度の関係(生物・生態系(社会・言語・ゲーム等含む)1,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- 半空間の和集合の例からの推定
- 位置依存スコア行列の例からの学習の計算複雑度について
- 2K-1 高さ制約付き無順序木の高速類似検索アルゴリズムについて(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 生物配列の局所マルチプルアラインメントの計算困難性
- 計算生物学におけるカーネル法(数学者のための分子生物学入門,研究会報告)
- 遺伝子発現量ダイナミックスにおける自己相似性について(バイオインフォマティックス(2))
- バイオインフォマティクスと人工知能の相互作用(バイオインフォマティクスと人工知能の新たなインタラクション)
- 確率的数理モデルを用いたアポトーシス制御機構の解明
- DNAマイクロアレイ技術および関連する数学的課題(数学者のための分子生物学入門,研究会報告)
- AND/OR節点で構成されるブーリアンネットワークの定常状態を検出するアルゴリズムの改良
- AND/OR節点で構成されるブーリアンネットワークの定常状態を検出するO(1.787^n)時間アルゴリズム
- アラインメントとアミノ酸構成比に基づいたサポートベクターマシンによるタンパク質の細胞内局在予測
- 生体内ネットワーク構造の数理モデルと情報解析
- 機械学習を用いたDNA修復タンパク質の識別と分類
- バイオインフォマティクスにおける基本アルゴリズム(数学者のための分子生物学入門,研究会報告)
- Detection and Enumeration of Steady States in Biological Information Networks (Acceleration and Visualization of Computation for Enumeration Problems)
- 局所アラインメントカーネルを用いたアミノ酸置換行列の最適化(セッション4)
- 双対分解によるRNA構造アラインメント
- BI-7-5 遺伝子ネットワークと代謝ネットワークの離散数理モデルとその制御(BI-7.情報ネットワーク科学が目指すもの,依頼シンポジウム,ソサイエティ企画)
- 無順序木の編集距離の指数時間厳密アルゴリズム
- 文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用
- 文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用
- 無順序木の編集距離の指数時間厳密アルゴリズム