
[キーワード]データベース統合、セマンティックウェブ、ゲノム情報解析、機能解析、テキストマイニング
ライフサイエンス分野では、ヒトをはじめとする多様な生物種のオミクス関連プロジェクトによるデータが大量に産出され、それらを扱うデータベースやデータ解釈支援などの仕組みがますます重要となっている。私たちの研究室(ライフサイエンス統合データベースセンター(DBCLS))ではそのような生命情報とその活用に関する統合データベースの研究・開発を推進している。オミクスデータとその機能情報とを統合したデータベースの開発、そのデータベースを利用して機能情報を推定する手法・ツールの開発、それらの実問題への応用、データベースの基盤となる知識の抽出支援について、統合的に進めている。
世界中に散在するデータベースを統合的に扱うためには、データとデータ間の関係に共通の枠組みで意味付けを行う必要がある。我々はResource Description Framework (RDF) によりデータをモデル化し、共通のIDやオントロジーによるデータベースの整備を進めてきた。その結果得られるデータは様々なデータベースのデータがつながった巨大なグラフとして表現される。これを知識グラフと呼んでいる。知識グラフ構築のための方法論やそこから効率的にデータを取り出すため仕組みを提供するための基盤技術を開発している。最近では、データ間のIDをつなぐためのTogoID(https://togoid.dbcls.jp/)や複数のデータセットを俯瞰して必要なデータを取得するためのTogoDX(https://togodx.dbcls.jp/human/)を開発し、利活用促進を目指している。また、国内のデータベース開発機関と連携し、プロテオームデータベースjPOSTやグライコームデータベースGlyCosmosなどの開発に協力している。
ゲノムの機能を解読するためには個々の遺伝子の情報だけでなく、それらがどのように相互作用して一つの系として機能するかを明らかにすることが重要である。例えば、既知の代謝系や細胞内プロセスの情報をデータベース化し、ゲノム解析に応用できるようにしたKyoto Encyclopedia of Genes and Genomes (KEGG)やMetaCycがあるが、これらを応用してゲノムやメタゲノムから機能を推定するためのツールも開発されている。ゲノム・メタゲノムの機能解読において、KEGGなどのパスウェイデータベースの利用は有効であるが、実験系の研究者と共同研究すると、実際にどのような機能を持つか持たないかを網羅的に判断することは未だに難しいことが分かる。そこで、メタゲノム解析や環境微生物ゲノム解析を行っている実験系研究者と共同で、メタゲノムやゲノムからその機能を評価するための枠組みを構築している。文献や各種データベースから抽出した微生物の生育環境や条件などの情報を知識ベース化し、ゲノムから分かる機能情報と統合的に解析できる仕組みを開発している。それにより、有用物質生産に結びつく微生物の培養条件予測などへの応用を試みている。
既存の有用なDBをRDF化することによって、既存DBの統合的な利活用が促進されるようになるが、DBに既に格納されているデータには限りがあり、実際の応用の際に必要なデータが含まれていない場合がある。例えば、上記の培養条件予測に必要とされる培養培地データや生育環境データには文献中にしかない知識が多く残されている。実践的なデータサイエンス基盤を構築するためには、文献のコンテンツを適切に活用して、そこから抽出されるデータを補完的に活用できるようにする必要がある。DBCLSではこれまで文献処理技術の研究開発を行い、PubAnnotation、PubDictionariesなど基盤的なシステムや、Allie、Colilなど効果的な文献処理に必要とされるDBを開発してきた。これらの基盤技術の土台の上、遺伝子機能推定などにおいて実践的に活用できるデータサイエンス基盤の開発に向け、文献などに含まれるライフサイエンス知識のRDF化を支援するための研究開発を推進している。
研究室は情報・システム研究機構データサイエンス共同利用基盤施設ライフサイエンス統合データベースセンター(東京大学柏の葉キャンパス駅前サテライト)にあり、学生の研究活動も主に同センターで行われる
(1) Moriya, Y., Kawano, S., Okuda, S., Watanabe, Y., Matsumoto, M., Takami, T., Kobayashi, D., Yamanouchi, Y., Araki, N., Yoshizawa, A. C., Tabata, T., Iwasaki, M., Sugiyama, N., Tanaka, S., Goto, S. and Ishihama, Y.; The jPOST environment: an integrated proteomics data repository and database. Nucleic Acids Res. 47:D1218-D1224 (2017).
(2) Moriya, Y., Yamada, T., Okuda, S., Nakagawa, Z., Kotera, M., Tokimatsu, T., Kanehisa, M. and Goto, S.; Identification of enzyme genes using chemical structure alignments of substrate-product pairs. J Chem. Inf. Model. 56:510-516 (2016).