ライフサイエンス統合データベース講座(DBCLS) 2020年度の学生募集をします

教授: 五斗 進(Susumu Goto)
E-mail: goto{at}dbcls.rois.ac.jp
研究室HP

研究紹介

[キーワード]データベース統合、セマンティックウェブ、ゲノム情報解析、機能解析、テキストマイニング

ライフサイエンス分野では、ヒトをはじめとする多様な生物種のオミクス関連プロジェクトによるデータが大量に産出され、それらを扱うデータベースと、そこからの機能解釈支援などの仕組みがますます重要となっている。私たちの研究室(ライフサイエンス統合データベースセンター(DBCLS))ではそのような生命情報とその活用に関する統合データベースの研究・開発を推進している。ゲノム情報とその機能情報とを統合したデータベースの開発、そのデータベースを利用してゲノム情報から機能情報を推定する手法・ツールの開発、それらの実問題への応用、データベースの基盤となる知識の抽出支援について、統合的に進めている。

セマンティックウェブ技術を用いたデータベース統合とミドルウェア開発
世界中に散在するデータベースを統合的に扱う枠組みとしてセマンティックウェブ技術を応用している。具体的にはResource Description Framework (RDF) の枠組みで、共通のIDやオントロジーの利用による再利用を容易にできる仕組みの開発に取り組んでいる。また、RDFのデータベースであるトリプルストアに効率的にアクセスするための基盤技術を開発している。その中で開発したSPARL-proxyやTogoStanzaを利用するアプリケーションであるプロテオームデータベースjPOSTdbなども開発している。今後、ゲノム、エピゲノムを統合し、プロテオゲノミクス解析へ応用できるようにする予定であり、マルチオミクス解析の基盤としても整備する。

ゲノムから知識抽出技術開発と遺伝子機能予測への応用
ゲノムの機能を解読するためには個々の遺伝子の情報だけでなく、それらがどのように相互作用して一つの系として機能するかを明らかにすることが重要である。例えば、既知の代謝系や細胞内プロセスの情報をデータベース化し、ゲノム解析に応用できるようにしたKyoto Encyclopedia of Genes and Genomes (KEGG)やMetaCycがあるが、これらを応用してゲノムやメタゲノムから機能を推定するためのツールも開発されている。ゲノム・メタゲノムの機能解読において、KEGGなどのパスウェイデータベースの利用は有効であるが、実験系の研究者と共同研究すると、実際にどのような機能を持つか持たないかを網羅的に判断することは未だに難しいことが分かる。そこで、メタゲノム解析や環境微生物ゲノム解析を行っている実験系研究者と共同で、メタゲノムやゲノムからその機能を評価するための枠組みを構築している。文献や各種データベースから抽出した微生物の生育環境や条件などの情報を知識ベース化し、ゲノムから分かる機能情報と統合的に解析できる仕組みを開発している。それにより、有用物質生産に結びつく微生物の培養条件予測などへの応用を試みている。

テキストマイニング技術の開発とデータベース統合への応用
既存の有用なDBをRDF化することによって、既存DBの統合的な利活用が促進されるようになるが、DBに既に格納されているデータには限りがあり、実際の応用の際に必要なデータが含まれていない場合がある。例えば、上記の培養条件予測に必要とされる培養培地データや生育環境データには文献中にしかない知識が多く残されている。実践的なデータサイエンス基盤を構築するためには、文献のコンテンツを適切に活用して、そこから抽出されるデータを補完的に活用できるようにする必要がある。DBCLSではこれまで文献処理技術の研究開発を行い、PubAnnotation、PubDictionariesなど基盤的なシステムや、Allie、Colilなど効果的な文献処理に必要とされるDBを開発してきた。これらの基盤技術の土台の上、遺伝子機能推定などにおいて実践的に活用できるデータサイエンス基盤の開発に向け、文献などに含まれるライフサイエンス知識のRDF化を支援するための研究開発を推進している。

研究体制、注意点など
研究室は情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター(東京大学柏の葉キャンパス駅前サテライト)にあり、学生の研究活動も主に同センターで行われる

参考文献
(1) Moriya, Y., Kawano, S., Okuda, S., Watanabe, Y., Matsumoto, M., Takami, T., Kobayashi, D., Yamanouchi, Y., Araki, N., Yoshizawa, A. C., Tabata, T., Iwasaki, M., Sugiyama, N., Tanaka, S., Goto, S. and Ishihama, Y.; The jPOST environment: an integrated proteomics data repository and database. Nucleic Acids Res. 47:D1218-D1224 (2017). (2) Moriya, Y., Yamada, T., Okuda, S., Nakagawa, Z., Kotera, M., Tokimatsu, T., Kanehisa, M. and Goto, S.; Identification of enzyme genes using chemical structure alignments of substrate-product pairs. J Chem. Inf. Model. 56:510-516 (2016).

研究室紹介

東京大学
東京大学大学院新領域創成科学研究科
最新発表論文
教養学部生へ

このページの先頭へ戻る