Folding@homeの部屋


当サーバの計算履歴はこれ(自動更新)

以前から興味のあった、Folding@homeについて某所で講演したので、まとめておく。書きかけです(10/4/10)

■Folding@homeとは

Folding@homeは、スタンフォード大学のPande教授が主宰する分散コンピューティングプロジェクトであり、タンパク質の構造シミュレーションによって、病気の原因究明や医薬品の開発といった問題の解決を目指している。
Stanford大のFolding@homeの日本語ホームページはこちら
タンパク質は、生体の中で、構造材として、あるいは、触媒として作用し、生命活動の中心的な機能を担っている。その機能は、アミノ酸配列だけでなく、その立体構造によって決まっている。すなわち、タンパク質の立体構造を理解することは、生命を理解する第一歩であるといっても過言ではない

■Folding@homeの業績

「病気解明を行っている」ことで知られる、Folding@homeであるが、具体的にどういう形で病気の解明を行っているのか、書かれたものを見る機会がない。しかし、Folding@homeホームページには70本を超える論文タイトルが掲載されており、いくつははインターネット経由で入手することができるので、ここではいくつかを紹介する。

リボゾームタンパク質NTL-9のシミュレーション

タンパク質のフォールディングが形成される約5ミリ秒をアニメーションにしたもの
リンク これだけの長時間の様子をシミュレートできたのは画期的。動画もとても印象的である

アルツハイマー病の解明

・アルツハイマー病の原因は、間違った折りたたみ方をしたAβタンパク質が凝集体を作り蓄積され、神経毒として作用することで脳の機能が低下することだと言われている。しかしAβアミロイドの構造は、X線回折やNMRではよくわからないので、コンピュータシミュレーションの出番となる。
 ここで問題となるのは計算量である。凝集反応は秒〜分単位の反応だが、シミュレーションはナノ秒単位で行う必要がある。1ナノ秒の反応をシミュレートするのに1日かかるので、凝集形成のシミュレーションは100億年かかってしまう。これではたとえ100億倍に加速しても1年かかる計算となる。
Pandeグループでは、後述する画期的な並列計算アルゴリズムでこれを達成。マルコフ状態モデルにより、単量体のAβタンパク質が4量体に凝集するプロセスをシミュレートした。その結果、C末端付近の疎水性部分が凝集体を安定させていることがわかった。この部分に突然変異が起こると凝集が起きやすい。うまく利用するとワクチンの開発ができるかもしれないとのこと。

ガン研究

ガンの半数は、ガン抑制遺伝子P53の変異が原因といわれる。 Folding@homeでは、P53の変異とP53タンパク質のフォールディングの関係を研究。また、シャペロン阻害剤によるガン治療薬の開発を行っている。

インフルエンザの感染メカニズム

インフエンザ感染時に働くタンパク質ヘマグルチニンの変異と構造を研究することで、鳥インフルエンザが人間に感染するかどうかを予測する

■Folding@homeのグリッドコンピューティング

 Folding@homeは、世界中のインターネットに接続するパソコンを使って、タンパク質構造解析を分担して行うシステムである。
いろいろなクライアントが参加している

■シミュレーションの高速化の驚くべき手法

 スーパーコンピュータでも、複数のプロセッサをうまく連携させ、効率的に並列処理を行うのは困難と言われている。プロセッサ数が増えてくると、相互通信などに手を取られ、プロセッサ数に比例した速度改善ができないのが普通である。ところが、Folding@homeの分散処理では、CPU台数にほぼ比例する高速化を実現している。この驚くべき手法もあまり紹介されていないので、ここで説明を試みる
並列処理のアムダールの法則
 高速化のために並列処理を行う場合、処理の中で並列処理が不可能な部分(たとえば、相互通信など)があると、その割合が多いほど、並列処理を行った割に高速化が見込めない。
空間分割ではうまくいかない
 計算を高速化するため、フォールディング計算を複数に分割して並列シミュレーションを行うのだが、ふつうに考えると、「タンパク質の部位毎に分割して、それを複数の計算機に割り当てる」ことになる。
これはこれで並列処理にはなるが、動力学計算を行う際、分子間に働く力の計算は、タンパク質全体にわたって行う必要があるので、並列処理ができない。並列プロセッサの数が多くなると、この部分がネックとなり、プロセッサ数に見合った速度増加が起こらない
「確率分割」とでもいうべき手法
 Folding@homeでは、こんな方法で並列化を行っている
(i)各プロセッサが並行して、フォールディングの反応経路を探る
 フォールディングは、安定な状態に向けてタンパク質分子の形状を変えていくプロセスであるが、途中、何度かの「山を登る」プロセスが必要になる。Folding@homeでは、複数の計算機がこの「山に登る」様子をシミュレートしている
(ii)「山を乗り越える」確率は非常に低いため時間がかかる。そこで、「山を乗り越える」トライをするプロセッサの数を増やせば、それに比例して、山を乗り越える速度が加速される。
(iii)あるプロセッサが「山を乗り越える」方法を見つけたら、まだ見つけていない他のプロセッサを同じ状態にしてやれば、全部のプロセッサが山を乗り越えたところから再スタートし、次の山を乗り越えるトライをする
この様子を、折り紙を折る子供たちに例えて説明を試みた

多くの分散プロセッサは、この「ポテンシャルの山を登る」トライアルに時間をかけている。プロセッサを増やすことで、山の登り方をすばやく発見できる確率が高まる。山の登り方を発見できなかったプロセッサのここまでの計算は無駄になるが、次の山をまた登り始める。
(注:Folding@homeのホームページでは、高速化の方法があまり詳しく解説されていないので、あえて説明を試みてみました)。

■モチベーション向上の方法

ネットでFolding@homeを検索すると、「Folding@homeに参加するためPlayStation3を何台か購入した」「グラフィックアクセラレータを導入し、数日で数十WU(WorkUnit)を達成した」などの書き込みを見かける。何がそこまで人をFolding@homeに駆り立てるのだろう?
競争原理の導入は、ドラッガーもモチベーション向上の基本と書いているように、人のやる気を駆り立てるようである。Folding@homeはこのために、
個人・チームのランキング(累積WorkUnit数の順位)の公表 を行っている。
チームランキング(10年2月ごろ)
日本のTeam 2chも28位と健闘している
PCの速度ベンチマークサイトが、高速化のために様々な工夫(クロックアップ、冷却など)を凝らしたPCが参加して盛り上がっている。単なる速度比較だけでも盛り上がるが、Folding@homeはさらに、科学の進歩のために貢献しているという実質的な意味があるため、参加しやすいのだろう。

■期待すること

アルツハイマーや狂牛病(ヤコブ病)のような、フォールデイング異常が引き起こす病気の原因解明や対策検討には膨大な計算力が必要なので、、Folding@homeではまだまだ始まったばかりである。今後ますます計算力を増強して、これらの病気へのアプローチをしてほしいと思う

■さらなる改善を...

Folding@homeに非力なマシンで参加している
CPUはIntel Atomのdual-core。3スレッド相当を提供
参加してみて思ったことは、確かにランキングが上がってくるのは楽しいけれど、自分の研究に対する貢献が見えにくいことである
ある日の進捗レポート。確かにタンパク質の何かをやってるみたいだけど...
成果を知るために私が取った方法は、
(i)英文ホームページにある、論文のインデックスから、興味のある論文を探す
 →和分ホームページからのリンク
ここは、最近のアイテムが掲載されていない。なんで?
(ii)読みたい論文をインターネットで検索し入手する。落ちていない場合は論文販売サイトから購入する
(iii)慣れない生化学用語(英語)と格闘しながら、論文を読む
ということが必要だった。これは私のような門外漢には時間と根性がないとなかなかできない。
せっかく有意義な活動をしているのだから、たとえばWUを提供した人には、成果を素人に分かる形で伝えるとか、そんなサービスができるといいのにな。
もちろん、研究者の研究時間を割いてそんなことをしてもらうのは論外なので、寄付金などを使ってそういうことができれば、もっともっと参加しやすくなるのではないかと思う。そんな広報活動のボランティアもあってもいいとも思う
 新型インフルエンザの感染メカニズム、ワクチンの効果の有無なども、ホットな話題なので期待している。
ガンについては、確かに遺伝子変異とフォールディングは重要なファクターだが、生命システムレベルの理解がより進まないとガンと向き合うことはできない気がする。癌研究のどの部分がFolding@homeの守備範囲かをよく見極めて取り組んでほしいと思っている。

■参考文献

(1)神谷他著「タンパク質計算科学」共立出版
(2)関嶋著「生体分子の機能を明らかにする網羅的シミュレーションの時代がやってきた」   バイオニクス2005年8月号pp20- オーム社
(3) Nicholas W. Kelley  et.el “Simulating oligomerization at experimental concentrations and long timescales: A Markov State Model approach “ J Chem Phys. 2008 Dec 7;129(21):214707.
(4) Vijay S. Pande  et.el  “Atomistic Protein Folding Simulations on the Submillisecond Time Scale Using Worldwide Distributed Computing” Peter Kollman Memorial Issue, Biopolymers (2002)
(5)関島良樹「蛋白質ミスフォールディング病の発症機序と治療戦略」 信州医誌,56?:115〜124,2008
(6)宮園他著「タンパク質のかたちの重要性」   バイオニクス2006年6月号pp27- オーム社

ホームページに戻る
このページへのお問い合わせは、hmtanaka@mbox.kyoto-inet.or.jp 田中まで