生物情報科学分野 平成30年度は学生募集をしません

教授: 高木 利久
大学院理学系研究科 生物科学専攻(本郷)
E-mail: tt{at}bs.s.u-tokyo.ac.jp
研究室HP

研究紹介

【キーワード】データベース、知識処理、テキストマイニング

知識処理技術を用いた生命システムの再構築

 生命をシステムとして理解するためには、ゲノム配列やタンパク質立体構造だけでなく、発現、局在、相互作用、パスウェイ、ネットワーク、表現型などのさまざまな種類のデータ、および、それらの間の関係や生物学的な制約や文脈などに関する知識などを統合し解析すること、すなわち、計算機上に生命システムを再構築し、その性質、特徴、振る舞い、などを調べることが不可欠である。このような考えのもとに、我々の研究室では、次に掲げる研究テーマに取り組んでいる。

1.文献からの知識抽出
 パスウェイやネットワークなどの生命メカニズムに関する知識やそれの根拠となった実験事実の多くは、論文や教科書にテキスト(英文)や図表の形で書かれている。そこで、膨大な文献の中に埋もれたこれらの知識を自然言語処理や情報検索の技術を使い効率的に取り出す手法を開発している。より具体的には、タンパク質や遺伝子、化合物、疾患等の様々な医学生物学的概念に関する情報と概念間の関係性の自動抽出のための技術を開発している。また、抽出した知識を用いて実験データを解釈し、新たな知識発見を支援するシステムの開発を進めている。その他、複数の文献に書かれている内容を俯瞰するための手法、ポンチ絵や画像の検索システム、自然文での質問に回答するシステムの開発などをあわせて行っている。

2.相互作用に基づく生命システムの解析
 生命システムは生体分子間の相互作用を通して高度な機能を実現している。従って、複数の生物種における生体分子間の相互作用やネットワークを比較し、複数の生物に共通する、あるいは、ある生物特有の局所構造を切り出し、それらが実現している生体機能と対応づけることが重要である。我々の研究室ではこのような研究に必要な情報技術の開発およびシステム開発に取り組んでいる。

3.オントロジー構築
 ゲノムの配列はATGCの4種類のアルファベットの並びで簡単に表現できる。しかしながら、生体機能や生体メカニズムなどに関する複雑な知識をその本質を損なうことなく計算機上に表現することは容易ではない。また、複数の生物のシステムを比較解析するには、機能に関する表現などの統一を図る必要がある。生体機能や生体メカニズムに関する記述法の開発やその標準化のことをオントロジーと呼ぶが、我々の研究室では、パスウェイやネットワークなどを中心にオントロジー構築を進めている。

4.データベースの統合化技術
 生命システムを理解するには、さまざまな種類のデータや知識を統合し、そこから新たな知識発見を行うことが必要である。そこで、DBCLSやNBDCなどのデータベースセンターと連携して、RDFなどの知識表現技術を用いて複雑な生物情報を統一的に表現する技術の開発を行っている。また、これらを用いて多種多様なデータベースの統合化に取り組んでいる。

5.大規模データの表現手法の開発
 個々の研究者がこれまで考えられなかった量のデータを扱うようになる中、大規模データを効果的に生物学的な解釈につなげるためのデータ表現手法の開発を行っている。例えば、オーミクスデータはしばしば巨大で複雑なネットワークとして、直感的な解釈が不可能な形で表現されるが、これをGoogle Mapsのように動的に情報を抽象化、解釈可能な形で表現するネットワーク解析法を開発している。

 

研究室紹介

東京大学
東京大学大学院新領域創成科学研究科
最新発表論文
教養学部生へ

このページの先頭へ戻る