生物機能情報分野

准教授: 中戸 隆一郎
TEL: 03-5841-1471
E-mail: rnakato{at}iqb.u-tokyo.ac.jp
研究室HP

研究紹介

【キーワード】ゲノム学、次世代シーケンサ、データ駆動型解析、マルチNGSオミクス

 次世代シーケンサ(NGS)を利用した種々の解析技術の発展により、ゲノム上のさまざまな動態を全ゲノム的に観測することが可能となりました。国際的プロジェクトにより個人差・がんゲノム・エピゲノムなどの上質なデータベースも次々に誕生しており、まさにNGS解析全盛期と言えるでしょう。一方で、それらのデータベースに含まれる膨大かつ多様なNGSデータを統合的に解析し、意味のある高次機能情報を得る解析技術の開発は未だ発展途上です。本研究室では公開・新規データ含めた大規模なNGSデータ群をもとに、「前提知識に依存しないデータ駆動型解析(ビッグデータマイニング)」のための手法開発を行い、エポックメイキングな全く新しい知見を得ることを目指します。ウェットに非常に近い環境で研究したい情報系の学生、情報解析に本格的に取り組みたい生物系の学生、いずれも歓迎します。

新規データ生成を伴うNGS解析

我々はこれまで生命系研究室との多くの共同研究を通し、DNA-タンパク質結合とヒストン修飾(ChIP-seq)、オープンクロマチン(DNase-seq, ATAC-seq)、DNAメチル化(Bisulfite-seq)、遺伝子発現変動(RNA-seq)、ゲノム変異(Exome-seq)、ゲノム立体構造(Hi-C, ChIA-PET)、生体組織内細胞不均一性(シングルセル解析)など様々なNGSアッセイを扱い、新規手法の開発とそれらを用いた新規知見の獲得の両面で研究を進めてきました。これらの一般的な解析環境は既に整っており、自由に解析・アレンジ可能です。希望があればウェットとの共同研究を担当することもできます。現在は特に立体構造解析とシングルセル解析に力を入れています。

データの品質評価・再構築手法の開発

大規模解析においては入力データが高品質・高信頼性であることは何よりも重要である一方、希少なサンプルや困難な環境の実験の場合、品質としては良くないデータから信頼性の高い結果を得なければならない状況にしばしば遭遇します。我々は生成されたサンプルの特性を多角的に評価するための新規品質評価手法や、ノイズを多く含むようなデータの精度を高める正規化、機械学習を用いたデータの再構築手法について研究しています。

多種NGSアッセイデータの統合解析ツール(マルチNGSオミクス)

複数のNGSアッセイデータを入力とする大規模解析(マルチNGSオミクス)においては、一サンプルずつ結果を出力し結果を統合する戦略は極めて非効率的であり、また各アッセイの解析ノウハウも必要となるため、解析者にとってハードルが高い作業となっています。我々はマルチNGSオミクスのための効率的なパイプラインを開発し、既存データベースをより効率的に活かせる環境を構築するとともに、パイプラインを用いた未知のゲノム高次機能の解明に挑戦します。

計算の高速・高精度化

大規模NGS解析は入力・出力ともデータ量が膨大であるため、計算量の問題が常につきまといます。一般に計算速度と結果の精度にはトレードオフ関係が存在しますが、精度を保ちながら高速・省メモリ化するための手法を研究しています。

分野融合的な研究

数理システムや生物物理分野との共同研究による、以下のような分野融合的研究にも積極的に取り組んでいます。
・細胞分化の時系列シングルセルデータを用いた数理モデリング
・ポリマーシミュレーションを用いた疑似Hi-Cデータ生成、Hi-C解析の検証、モデリング

研究室所在地

東京都文京区弥生1-1-1 定量生命科学研究所(本館)

研究室紹介

東京大学
東京大学大学院新領域創成科学研究科
最新発表論文
教養学部生へ

このページの先頭へ戻る