研究室紹介

情報生命科学群/兼担中戸研究室
(定量研 大規模生命情報解析研究分野)

「予想外の大発見」を目指すデータ駆動型ゲノム解析

ゲノム (genome) は「世代を超えて受け継がれる生命の設計図」です。次世代シーケンサを利用した種々の解析技術により、遺伝子発現量やタンパク-DNA結合、DNAメチル化、ゲノム複製、ゲノム立体構造など、さまざまなゲノム・エピゲノム情報を全ゲノム的にとらえることが可能になりました。利用可能なゲノム・エピゲノムデータが急速に増大していることに伴い、大量のゲノムデータを一挙に解析し、これまでの常識を覆すような大きな発見をする「大規模マルチオミクス解析」の期待が急速に高まっています。我々の研究室では、そのような大規模マルチオミクス解析の手法開発と知見獲得に取り組んでいます。

研究キーワード
エピゲノム、ゲノム立体構造、データ駆動型解析、マルチオミクス、コヒーシン
頑健なデータ駆動型エピゲノム解析システムの構築

AMED-PRIME「早期ライフステージ」において、多細胞種・多サンプルを同時入力可能なエピゲノム比較解析システムを開発しています(図)。本プロジェクトでは、ChIP-seq, RNA-seq, Hi-CなどさまざまなNGSアッセイを複数の細胞種(または細胞状態)から取得した大規模データを横断的に解析し、半教師あり学習を用いてクロマチン状態を詳細に注釈づけ(アノテーション)する手法を開発します。また、機械学習によるデータ補完技術を用いたエピゲノムデータの再構築手法を実現し、低品質・欠損データを含む大規模データから信頼性高く情報を抽出するための仕組みを構築します。本システムが完成すれば、大規模解析のためのデータ生成コスト、解析コスト両面を大きく低減することが可能となり、生命系・医療系研究の飛躍的な推進が期待できます。ひいては、エピゲノム解析そのものの価値を飛躍的に高めることになります。
成果の一つとして、ゲノム立体構造データから様々な一次元特徴情報を効率的に抽出可能な新規手法 “HiC1Dmetrics”を開発しました。本手法を用いることで、これまで困難であった三次元構造を考慮したエピゲノム解析が容易になります。

  • データ駆動形エピゲノム解析システムの概要

  • HiC1Dmetricsの概要

マルチオミクスデータを用いたコヒーシンの機能解析

生物学的な側面では、我々は遺伝子発現とゲノム立体構造制御に重要なタンパク複合体であるコヒーシン (cohesin) に興味を持っています。 コヒーシンはエンハンサー・プロモーターループの媒介 (mediation)・あるいは絶縁 (insulation)、ゲノム立体構造のまとまり(TADと呼ばれる)の形成・維持 (loop extrusion)、RNAポリメラーゼIIの伸長 (elongation) 促進など、様々な機能を介して遺伝子制御に関与していると言われています(図)。 コヒーシン(またはコヒーシンローダー)の変異は先天性の発達症候群である「コルネリア・デ・ランゲ症候群(CdLS)」や種々のがんの要因となることが知られていますが、具体的にコヒーシンのどの機能がこれらの疾患に関与しているのか、そもそも何故コヒーシンはゲノム上でそのように多岐に渡る機能を同時に果たせるのか、数多くの研究にも関わらず依然として謎に包まれています。我々はコヒーシンのこれら多彩な機能の詳細と、コヒーシンの変異に起因する疾患群との関連を網羅的に明らかにすべく、ヒト・マウスの細胞を用いてHi-C、RNA-seq、ChIP-seqデータから成るマルチオミクスデータを生成し、大規模なマルチオミクス比較解析を展開しています。

  • コヒーシンの機能のモデル

  • コヒーシン関連因子をノックダウンした細胞を用いた大規模マルチオミクス比較解析

シングルセル解析を用いた様々な解析

ゲノム情報を1細胞レベルで観測するシングルセル解析は、生体組織や腫瘍組織に内在する細胞不均一性 (heteregeneity) や、細胞分化における状態遷移 (trajectory)を推定する目的において用いられます。我々の研究室ではシングルセル解析を柔軟かつ多面的に解析可能な1細胞解析プラットフォーム ShortCakeを開発しました。これにより、多くの研究者にとって最初の大きな障壁となるツールインストールのコストを大幅に削減し、また一細胞解析講習会などを通じて国内外のシングルセル解析を促進しています。
また我々はシングルセルデータを用いた遺伝子ネットワーク解析に興味があり、これまでに疎なscRNA-seqデータから頑健に遺伝子共発現ネットワークを推定する手法"EEISP"を開発しました。遺伝子単位ではなくネットワーク単位でサンプルを比較することにより、従来の遺伝子発現変動解析では得られなかった新規のマーカー遺伝子候補を同定することが可能になります。

  • 1細胞解析プラットフォームShortCakeの概要

  • 疎なscRNA-seqデータからの遺伝子ネットワーク推定およびネットワーク比較

参考文献・論文
  • 1. Nakato R et al., Nature Communications, 2023. 「データ駆動型解析で見えてきたゲノム立体構造の謎 ――新しい立体構造解析手法CustardPyを開発――」
  • 2. Wang J et al., Nature Communications, 2022. 「コヒーシン複合体による新たな遺伝子発現制御機構の一端を解明 ―希少疾患や白血病の原因解明の糸口に―」
  • 3. Wang J, Nakato R. Briefings in Bioinformatics, 2021. 「ゲノム立体構造のさまざまな特徴量を抽出する新規手法を開発 ~ゲノムにひそむ重要な機能領域の同定~」
  • 4. Nakajima et al., Nucleic Acids Research, 2021. 「シングルセル遺伝子発現データを利用した遺伝子ネットワークの構築手法」
  • 5. Nakato R, Sakata T. Methods, 187: 44-53, 2020. 「多細胞及び1細胞エピゲノム解析とChIP-seq解析ツールDROMPAplus」
  • 6. Nakato R et al., Epigenetics & Chromatin, 2019. 「全身をめぐる血管系の臓器特異性を全ゲノムレベルで解析 ―エピゲノムによって制御される血管機能ダイバーシティー―」
Message

エピゲノム、ゲノム立体構造、シングルセルの情報解析に興味がある方、一緒に中戸研で研究しませんか?
大規模ゲノム解析分野はまだまだ発展途上であり、実際のゲノムデータを解析していると様々な困難・疑問に突き当たります。中戸研究室に所属する方にはそのような疑問に答えられる知識と経験を培ってもらい、玉石混交のデータの海から真に重要な発見ができる次世代の人材になれるようにサポートします。
私たちの研究室に興味を持ってもらえた方は、まずラボのメンバー募集ページを参照してみてください(https://www.nakatolab.iqb.u-tokyo.ac.jp/joinus.html)。入学を検討される方は、ぜひ直接研究室に見学に来てください。一同、みなさんとお会いできることを楽しみにしています。

注意事項

研究室所在地
東京都文京区弥生1-1-1 定量生命科学研究所(本館)

トップへ