
【キーワード】機械学習、人工知能、バイオインフォマティクス
本研究室では、大量かつ多様なデータから、信頼できる知識を高速に発見するための数理手法に関する研究を行う。データ中心科学の拠点として、生物学、化学、薬学、エネルギー・環境など、どのような科学分野からのデータでも、その本質を素早く見抜き、高度なアルゴリズムを駆使して、重要な知見を発見することができる人材の育成を目指す。
自然科学で得られるデータ量は増加の一途をたどり、これらを有効に解析できる方法が望まれている。しかし、従来の統計検定手法では観測できる対象が増えれば増えるほど、発見の基準を厳しくしなくてはならない。特に、複合的な組み合せ因子に対して極めて保守的な検定値(P値)を出すことが多く、有意義な実験結果が不当に低く評価されることがあった。本研究室では、超高速アルゴリズムの技法を用いて、従来法より、格段に精度の高いP値を算出する新手法LAMP (Limitless Arity Multiple-testing Procedure)を開発した[1]。転写因子の組み合わせ効果の研究をはじめ、複数の遺伝子が原因となっている疾患の同定や多数の部位が関わる脳の高次機能の解明など、複合要因に起因する現象の解明が加速されることが期待される。
図1 LAMPによる多重検定
核酸・タンパク質などの生体高分子や、物質・材料研究における金属・セラミック・ナノ粒子など、望みの機能を持つ分子を設計することは、科学的・産業的に大きな意義を持つ。津田教授は、理化学研究所革新知能統合研究センター分子情報科学チーム長を兼任しており、機械学習技術による分子・物質の自動設計の研究を行っている。ここでは、ベイズ最適化などの機械学習技術を用いて、物理シミュレーションや、合成実験の計画を行うことによって、新規分子・物質開発の効率を向上させることを目的としている。本研究室では、実験科学者が簡単に使うことができるベイズ最適化パッケージCOMBO[3]を開発するなど、自動設計手法の普及に努めている。
図2 機械学習による分子・物質の自動設計
本研究室では、生命科学での応用に向けて、高速な機械学習・データマイニングの基礎研究も行っている。例えば、分子構造などグラフ構造を持つデータから、毒性などの性質を予測し、同時に、重要な役割を持つ部分構造を特定するアルゴリズムgBoostの開発を行った[2]。また、対象データから高速に類似ペアを発見するアルゴリズムにも力を入れている。これらの手法は、ゲノム・エピゲノム・代謝物データなど、マルチ・オミックスデータの解析に利用できると考えられる。
図3 GBOOST[2]によって発見された部分グラフ特徴