大規模バイオ情報解析分野 平成30年度の学生募集をします

講師: 笠原 雅弘
E- mail: mkasa{at}k.u-tokyo.ac.jp
研究室HP

研究紹介

【キーワード】ゲノムインフォマティクス、ゲノムアセンブリ、ハイパフォーマンスサイエンス、並列分散プログラミング

 1990年にスタートした国際ヒトゲノム計画では、ヒトゲノム1人分のゲノム配列を解読するために13年間の歳月と3000億円の費用を要したが、2014年1月に Illumina 社が発表した最新のDNA配列シークエンサー HiSeq X Ten は、たった1日と約10万円でヒトゲノム一人分のゲノム配列を解読できる。技術革新により毎年数分の1ずつになっていたDNA配列決定のコストは、この20年の間に300万分の1になってしまった。これほどの急激な技術進歩が見られることは滅多に無いことである。例えるならば、江戸時代に伊能忠敬が徒歩で日本地図を作成した 20 年後に衛星画像を利用した Google Map が登場するようなもので、このような急激な変化に研究者の世界では大騒ぎになっている。
 また、HiSeq X Ten は何億円もする大型機械であり企業や学術研究機関でなければ利用は難しかった。しかし、2016年10月に Oxford Nanopore 社が発表した USB 型 DNA シークエンサーの驚くべき改良版は1台10万円から購入でき、扱いも簡単で個人でも普通に購入・利用できるようになってきている。Oxford Nanopore社は近い将来に1回のシークエンシングコストが数千円レベルのスマートフォン接続型の DNA シークエンサー SmidgIONを売り出すと言う。
 DNA配列シークエンサーの劇的な運転コスト低下はゲノム配列の比較を行う学問領域に革命をもたらした、と良く言われているが、このレベルの質的変化があれば数年のうちに、学問領域だけではなく日常生活に DNA 配列シークエンサーが入り込んでくることは間違いないだろう。1997年にカメラ付き携帯電話の話をすれば一笑に付されただろうが今はカメラが付いていない携帯電話の方が珍しい。20年後には DNA 配列シークエンサーが日常生活に当たり前のように溶け込んでいるだろう。
 20年後には DNA 配列シークエンサーをどのように利用しているだろうか。遺伝するあらゆる形質からゲノム配列上の機能領域がどんどん同定され、頻度の高い遺伝病はあらかた原因が判明していることだろう。ゲノム配列のどのような変異がガンの原因となっているのかもあらかた分かるに違いない。現在は「かぜ(上気道炎)」として一緒くたにされている様々なウィルス・細菌感染も、個人所有の携帯電話で DNA/RNA 配列を解読することで病名が細分化され適切な治療ができるようになっているだろう。病原体がピンポイントで特定されれば広域抗生物質は要らないし耐性菌の心配も減る。寿司屋でネタが代用魚だと疑ったらその場でシークエンシングして確かめられる、なんて話も夢では無い。
 しかし、このような便利な未来を実現するためには DNA シークエンシング技術だけではなく情報解析技術でも革命レベルの技術向上が必要である。新しい観測テクノロジーの時代には新しい情報解析技術の開発が必要なのである。

新しい観測技術から新しい解析技術を作る

 DNA の観測技術が発達したのであれば、DNA の情報を軸にしてあらゆる生命の情報を整理・分析できるようにしたいと考えるのはとても普通の発想だろう。我々の研究室では PacBio/Oxford Nanoporeなどの DNA シークエンサーや 10X Genomicsなどの一細胞解析機など、次々にあらわれる新しい観測技術から得られるデータを解析する情報技術を研究している。現在は、数千人・数万人規模のヒト全ゲノムを解析するには1億円規模のスーパーコンピューターが必要となっており、指をくわえて傍観すれば、ほんの数年でデータ量は1000倍になり、1000億円のスーパーコンピューターが必要になってしまうだろう。
 ゲノム配列を解読する(ゲノムアセンブリ)、遺伝子配列を解読する(トランスクリプトームアセンブリ)、種や個体間のゲノム比較を行う(比較ゲノム・グラフゲノム)、機能や原因を推定する(関連解析)、といった基礎的ではあるが従来はデータ量が少なく大規模には解析できていなかった重要で面白い生物学的問題に対する情報解析技術を、現代の大量観測技術に対応していち早くスケールアップし、観測技術から科学的知見までを短時間で繋げるアルゴリズム・ソフトウェアを我々は開発している。

大規模観測データ解析ためのプライベートクラウドミドルウェアの開発・研究

 データ量の増加にともなって、アルゴリズム開発やプログラミングのコストはそれ以上に大きく増加している。観測技術の急激な進歩は、従来型の並列分散計算やアルゴリズム研究にはなかった新たな問題を浮き彫りにした。端的に言うと、3ヶ月毎に新しいシークエンシング技術が発表される激動の時代には、3年掛けてアルゴリズムを練り高速化することは完全に無駄であり、計算機資源を極限まで高効率利用することを目標とし研究者の思考時間を無尽蔵に注ぎ込むことをやむを得ないと考える従来型の研究は役に立たないことが多いのだ。
 我々は、このような生命科学の問題に対処するため、大量の計算資源をある程度無駄に使いつつ、計算効率至上主義のハイパフォーマンスコンピューティングから科学的知見のアウトプット至上主義の「ハイパフォーマンスサイエンス」を目標とした、研究者に便利なミドルウェアの開発を行い生命科学研究に応用していく。

研究体制など

研究は、なるべく実験を行っている他研究室と共同して進めるようにし、最新の観測技術を用いた最新のデータを解析できるエキサイティングな環境を目指している。他研究室とは独立のテーマも希望に応じて用意している。

研究室紹介

東京大学
東京大学大学院新領域創成科学研究科
最新発表論文
教養学部生へ

このページの先頭へ戻る