遺伝子情報圧縮伸張プログラムCRAMの高速化
スポンサーリンク
概要
- 論文の詳細を見る
近年,遺伝子解析技術の進歩により,ヒトの遺伝子情報を1人当たり1,000ドル程度の費用で取り出すことができるようになりつつあり,日々大量のデータが生成されている.現在,この取得した遺伝子情報からその機能を解析する多くのプログラムが開発され,アルゴリズムの改良が進められている.これらのプログラムの開発者の関心の中心はアルゴリズムの改良による精度の向上にあるため,著名なプログラムであっても性能や並列化を意識せずにアルゴリズムに忠実に実装されていることが多く,マルチコアのコンピュータで十分な性能を発揮するにはプログラムの並列化・最適化が必要となるが,その際,扱う遺伝子情報の大きさが問題となる.シーケンサで取り出された生のヒトの遺伝子情報は100GB程度あり,多くのデータ圧縮方法が提案されている.我々は,このような遺伝子解析プログラムの代表例として,CRAM圧縮アルゴリズムのリファレンス実装の並列化を試みた.これは現在遺伝子情報の保存に標準的に用いられているBAM圧縮フォーマットを,より圧縮効率が高く次世代の標準として提案されているCRAM圧縮フォーマットに変換するもので,並列化を意識せず,アルゴリズムに忠実に実装されている.本発表では,このCRAMプログラムをアルゴリズムへの忠実さを維持しつつ並列化するにあたって重要だった点を議論する.並列化バージョンでは,BAMからCRAMへの変換速度が10.6倍,CRAMからBAMへの変換速度が2.1倍という結果が得られた.
- 2014-06-10
著者
関連論文
- オープンソフトウェアによるNetwork Attached Storageの性能の解析および改善に関する一試み(計算機アーキテクチャ)(コラボレーションアートとネットワークエンターテイメント)
- ATAドライブを用いたRAIDサブシステムの構成
- 二重化内部データバスを持つRAIDシステム
- 二重化内部データバスを持つRAIDシステムの制御
- HPCS Toolkitによるソースコード自動書換に向けたファイルI/O性能最適化方式の検討
- 遺伝子情報圧縮伸張プログラムCRAMの高速化