
【キーワード】バイオインフォマティクス、生物情報学、人工知能、機械学習、生命科学
木立研究室では、人工知能(AI)・機械学習などの高度な情報技術を用い、爆発的に増え続ける生物データを計算機で解析し生物学的発見を行う、バイオインフォマティクス(生物情報学)研究を行なっています。また、このような解析で必要となる、計算機上の生物モデルの構築にも力を入れています。
1990年代に初めて生物の全ゲノムが解読されてから、これまで微生物からヒトまで数千の生物種についてゲノムの解読が行われました。大規模なデータ計測の対象は、ゲノム配列にとどまらず、RNA、タンパク質、代謝物質、DNAの化学修飾、細胞動画像、など、生命活動を構成するさまざまな要素へ広がっています。しかし、これらの大量データの包括的な解析は始まったばかりで、まだまだ多くの課題が残されています。
私たちは、人工知能・機械学習技術を用いて、生命の高度な数理モデルを構築することにより、統合されたシステムとしての生命の深い理解や、生命を細胞レベルで自在に制御する技術につなげることを目指しています。
シーケンシング技術の進歩により、様々な条件下で細胞がどのような遺伝子を活性化するか、を網羅的に計測できるようになっています。特に最近ではー細胞RNA-seq法により、数万の細胞の一つ一つについてRNA活性プロファイルを測定することが可能になりました。私たちは、まず、オルンスタイン・ウーレンベック過程と呼ばれる確率過程で細胞の内部状態をモデリングし、その未知パラメータを機械学習により最適化する手法を開発しました。次に、刺激を与えられた細胞の分化過程のー細胞RNA-seqデータにこの手法を適用し、各細胞の分化進行度を推定する新しい技術を開発しました。
現在、主に次世代シーケンサー技術により細胞レベルのデータが爆発的に蓄積しています。しかし、これらのミクロスコピックなデータから、生体組織の特性や個体の行動など、生物のマクロスコピックな性質を予測することは現時点ではほとんどできていないのが現状です。一方、一般に植物は、動かないため動画による形態計測が比較的容易で、また遺伝子発現データと外部環境(気温、雨量、日射量等)との相関が見やすいなど、数理モデリングがしやすい特徴を備えています。そこで私たちは、制御工学の分野で発展し飛行機自動制御やカーナビで用いられている、カルマン・フィルターの理論を、現代のデータサイエンスの時代に適した形へと刷新し、イネなどの植物のミクロの細胞状態とマクロの環境要因とを機械学習により関係づける手法の開発を行っています。
がんは、細胞が無制限に増殖する病気であり、DNAへの変異の蓄積がおもな要因です。多くのがん種では、細胞分裂のたびに、ゲノム中にさまざまな塩基変異を蓄積します。この、がんゲノムの変化の過程は、生物種分化の際のゲノム進化と似ており、進化学や遺伝学の手法を用いて、がんの進行過程を調べることができます。私たちは、集団遺伝学で使われるライト・フィッシャーモデルや合祖理論を用いて、がんゲノムのシーケンシングデータから、がんの増殖過程を推定する手法の開発を進めています。また、推定された、がん組織の定量的なデータからがんが転移・再発する確率を予測する手法、の開発を目指しています。
DNAがもつ遺伝情報は、DNAからメッセンジャーRNAが転写され、さらにタンパク質へと翻訳されて、実際の生理的機能を発揮します。この反応過程は定常的ではなく、あらゆるステップで反応を促進したり遅らせたりする制御機構が働き、外部環境変化や刺激への柔軟な細胞応答が可能となっています。特に最近では、メッセンジャーRNAがタンパク質に翻訳される過程に働く様々な制御因子(RNA結合タンパク質の結合状態、RNAの化学修飾位置、RNAの二次構造)の測定が行われるようになり、翻訳制御の総体(エピ・トランスクリプトーム)を解明する研究が重要となっています。私たちは、確率文脈自由文法(SCFG)とよばれる情報科学理論に基づくRNA二次構造モデルと、次世代シーケンサーからのデータを組み合わせることにより、RNAの化学修飾による二次構造変化や、RNA結合タンパク質が結合しやすい二次構造モチーフは何か、などを推定する手法を開発しています。(図1)
図1 RNAのアクセシビリティを計算するツールRaccessによるゲノムスケールの配列解析。RaccessはRNA転写物の全ての領域について、その領域が二次構造を形成しない露出した領域であるかどうかを確率値として与えます。
当研究室は、実験設備を持たないドライ系の研究室であるため、自前で生物実験を行うことはなく、公開データ及び共同研究先の実験データを用いて、計算機を使った研究を行うことになります。