計算生物学におけるカーネル法(数学者のための分子生物学入門,研究会報告)
スポンサーリンク
概要
- 論文の詳細を見る
1.緒言 計算生物学の研究目的の一つは、実験的研究により生成される大量のデータを解析し、生物学的に有用な仮説を自動的に導くための計算手法を開発することである。また、生物学においては多種多様なデータが生成されるため、それらを統合して扱うことのできる数学的枠組みを見出すことは重要な課題の一つである。計算生物学において対象となるデータには、遺伝子配列データ、化学構造データ、遺伝子発現データなどがあるが、ここでは、これらを統一的に扱うことを可能とするカーネル法について説明する。カーネル法はここ十年間に機械学習分野において発展してきた手法であり、生物学を含む数多くの問題に応用されている。2. Mercerカーネル 集合Xの直積から実数へ関数K(x,y)が、対称性(K(x,y)=K(y,x))を満たし、さらに、正定値性を満たす場合に、関数K(.,.)はMercerカーネルと呼ばれる。K(.,.)がMercerカーネルである場合、あるヒルベルト空間Φ、および、XからΦへの関数φ(x)が存在し、K(x,y)はφ(x)とφ(y)の内積となる。より、厳密にはRKHS (reproducing kernel Hilbert space)と呼ばれるヒルベルト空間を用いることにより、MercerカーネルとRKHSを対応づけすることができる。また、RKHSの重要な性質として、RKHSが無限次元空間であっても、ある条件下で正則化された関数の最小化が有限個の点のみを考慮することで行えるということがあげられる。3.カーネル法 カーネル法の大きな利点の一つとして、ヒルベルト空間へ写像すること無しに種々の計算が行えることがあげられ、このことはカーネルトリックと呼ばれる。簡単な例としてはヒルベルト空間における2点間の距離がカーネル関数の簡単な組み合わせで求めることができる。より有用な例として、統計解析の主要手法の一つである主成分分析(PCA)が、カーネルを用いた場合にも、ヒルベルト空間における計算なしに行える。カーネルを用いた正準相関分析(CCA)は固有値計算問題に帰着することができ、二種類のデータを統合した解析を行うのに有用である。サポートベクターマシン(SVM)はカーネル法に基づく(教師あり)機械学習のための手法で、正負の例が与えられた時、正負の例を分離し、かつ、最近点までの距離(マージン)が最大となる超平面を計算する。実際には、正負の例を完全に分離することが不可能である場合が多いので、分類誤差と距離をトレードオフしたものを最適化する。SVMでは、カーネルトリックにより、最適な分離超平面が(多くの場合には少ないサイズの)正負の例の部分集合に対するカーネルの組み合わせにより表現される。4.タンパク質データに対するカーネル法 カーネル法を生物学データに適用するため、タンパク質や関連するデータに対するカーネル関数が提案されている。特に、配列(文字列)に対するカーネル関数はよく研究されている。長さkの部分文字列の出現頻度のベクトルを用いることにより、文字列からユークリッド空間へのカーネル関数を定義できるが、この手法はspectrumカーネルと呼ばれている。また、配列解析に広く利用されている確率モデルである隠れマルコフモデル(HMM)などから情報を抽出することによりカーネル関数を定義する、Fisherカーネルも提案されている。配列データ以外には、遺伝子発現データ、Phylogenetic Profileなどを扱うためのカーネルや、グラフ構造に関するdiffusionカーネルとカーネルCCAを組み合わせ代謝パスウェイと発現データの相関を抽出する研究などが行われている。カーネルの組み合わせに関する研究も行われており、半正定値計画法による、カーネルの線形結合の最適化などが研究されている。
- 2003-10-20
著者
関連論文
- 代謝ネットワークの最小反応カットを求めるアルゴリズム
- 整数計画法を用いたブーリアンネットワークの解析・制御手法(システムバイオロジー,システムバイオロジー,一般)
- 高さの制限された無順序木の編集距離問題に対する近似アルゴリズム
- タンパク質ドメインネットワークに対する二部グラフのモデル
- タンパク質間相互作用ネットワークにおける相互作用ドメイン対の確率的選択に基づくべき乗分布のモデル化
- 最適degenerate pattern探索アルゴリズムと転写因子結合部位同定問題への適用
- 最適 degenerate pattern 探索アルゴリズムと転写因子結合部位同定問題への適用
- 高さの制限された2個の無順序木に対する最大共通部分木の近似アルゴリズムの改良
- 2J-3 確率モデルに基づく木の類似度のパラメータ学習について(情報爆発時代におけるマルチメディアデータと交通情報システム,一般セッション,「情報爆発」時代に向けた新しいIT基盤技術)
- パス頻度ベクトルからのグラフ推定問題の困難性について
- 類似度の高い無順序木の比較に対する高速アルゴリズム
- ブール関数推定のための貪欲アルゴリズムの性能解析
- タンパク質ベータシート予測 : 動的計画法と形式文法によるアプローチ(一般セッション3)
- 形式文法に基づくRNA2次構造予測(若手研究者のための講演会)
- 期待精度最大化に基づくRNAシュードノット予測
- 構造トポロジーと複雑ネットワーク特徴量からのタンパク質フォールディング速度予測
- 無順序木の編集距離計算のための厳密アルゴリズム
- 整数計画法によるシュードノットつきRNA2次構造予測
- 整数計画法によるシュードノットつきRNA2次構造予測
- 相互作用RNA2次構造予測 : 形式文法によるアプローチ
- 効率的クリークアルゴリズムに基づく電気泳動画像マッチング、タンパク質構造マッチング、および、タンパク質側鎖パッキング
- 確率ブーリアンネットワークのアトラクター検出とブーリアンネットワークとのアトラクターの関係
- タンパク質間相互作用ネットワークにおける相互作用ドメイン対の確率的選択に基づくべき乗分布のモデル化
- 入次数に制約のあるブーリアンネットワークに対する先行状態検出問題および制御問題について
- 細胞アレイ解析のための線形計画法を用いたレポーター遺伝子の最適配置
- タンパク質間相互作用強度予測の高速化と困難性(ニューラルネットワーク及び生物工学)
- 制約付きプロファイルアライメント(文字列アルゴリズム)
- タンパク質間の相互作用強度予測(バイオインフォマティック)
- タンパク質間の相互作用強度予測
- パス頻度ベクトルからのグラフ推定問題の困難性について
- 生育温度による代謝ネットワーク構造の差異
- 21aTP-11 原核生物における代謝ネットワークの構造と成育温度の関係(生物・生態系(社会・言語・ゲーム等含む)1,領域11,統計力学,物性基礎論,応用数学,力学,流体物理)
- 半空間の和集合の例からの推定
- 位置依存スコア行列の例からの学習の計算複雑度について
- 2K-1 高さ制約付き無順序木の高速類似検索アルゴリズムについて(情報爆発時代におけるアルゴリズム高率化,一般セッション,「情報爆発」時代に向けた新IT基盤技術,情報処理学会創立50周年記念(第72回)全国大会)
- 生物配列の局所マルチプルアラインメントの計算困難性
- 計算生物学におけるカーネル法(数学者のための分子生物学入門,研究会報告)
- 遺伝子発現量ダイナミックスにおける自己相似性について(バイオインフォマティックス(2))
- バイオインフォマティクスと人工知能の相互作用(バイオインフォマティクスと人工知能の新たなインタラクション)
- 確率的数理モデルを用いたアポトーシス制御機構の解明
- DNAマイクロアレイ技術および関連する数学的課題(数学者のための分子生物学入門,研究会報告)
- AND/OR節点で構成されるブーリアンネットワークの定常状態を検出するアルゴリズムの改良
- AND/OR節点で構成されるブーリアンネットワークの定常状態を検出するO(1.787^n)時間アルゴリズム
- アラインメントとアミノ酸構成比に基づいたサポートベクターマシンによるタンパク質の細胞内局在予測
- 生体内ネットワーク構造の数理モデルと情報解析
- 機械学習を用いたDNA修復タンパク質の識別と分類
- バイオインフォマティクスにおける基本アルゴリズム(数学者のための分子生物学入門,研究会報告)
- Detection and Enumeration of Steady States in Biological Information Networks (Acceleration and Visualization of Computation for Enumeration Problems)
- 局所アラインメントカーネルを用いたアミノ酸置換行列の最適化(セッション4)
- 双対分解によるRNA構造アラインメント
- BI-7-5 遺伝子ネットワークと代謝ネットワークの離散数理モデルとその制御(BI-7.情報ネットワーク科学が目指すもの,依頼シンポジウム,ソサイエティ企画)
- 無順序木の編集距離の指数時間厳密アルゴリズム
- 文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用
- 文字列の距離空間上の最大マージン識別器とそのタンパク質科学への応用
- 無順序木の編集距離の指数時間厳密アルゴリズム