TogoDX とは

TogoDX (Togo Data eXplorer)は、知識グラフ(Knowledge graph)を用いて統合された、生命科学分野における様々なデータベースを統合的に探索するためのフレームワークです。異なるデータベースに由来する多数のデータセットを、同じものを示すIDの互換性や、異なるデータ間のつながりを整理したID関係に基づいて統合しています。TogoDXでは、データセットごとに持つ多様な属性(attribute)によって絞り込みを行い、データサイエンスに有用なデータを柔軟に抽出する新しい仕組みの提供を目指しています。

開発の経緯

問題点

生命科学分野には異なる対象を取り扱う様々なデータベースがあります。これらを統合的に処理し、データサイエンスに用いるためには、以下のような問題がありました。

データベースごとに異なるインターフェース

データベースはそれぞれインターフェースが異なります。ウェブサイトへのアクセス方法、検索条件の指定方法、使われている用語などが異なるため、それぞれのデータベースの使い方を個別に調べる必要があります。扱うデータベースの数が増えるほど利用方法の調査にかかるコストは高くなります。

データベース間を繋ぐリンク情報の欠如

複数のデータベースに収載されたデータを組み合わせるためには、意味のある対応関係(リンク情報)を整備する必要があります。外部リンクのIDが記載されていないデータベースであっても、他のデータベースを経由することで繋がる可能性があります。このためには自らリンク情報を作成する必要があり、扱うデータベースの数が増えるほどリンク構築のコストは高くなります。

データベースごとに異なる出力形式

データベースごとに用いられている出力形式は様々です。複数のデータベースに由来する異なる形式のデータを、統合的に利用できる形式に変換する作業も、取り扱うデータベースの数が増えるほどコストが高くなります。

知識グラフによるデータ統合とTogoDXの開発

NBDC/DBCLSでは、これまでデータベース利用者に委ねられていた、これらの問題を解決するために、知識グラフによる生命科学分野のデータベース統合を進めてきました。知識グラフの技術基盤としてRDF (Resource Description Framework)を用いることで、以下のような利点を得ることができます。

RDFによって表現されたデータは、問い合わせ言語であるSPARQLでクエリを記述することで検索・加工することができます。RDFを用いてデータベースを統合したことにより、異なるデータセットをまたいだ情報の検索や取得が可能になりました。

一方で、統合されたデータ量は非常に大きく複雑なものとなり、検索にはある程度専門的な知識が必要です。そこで、統合されたデータを高速に処理し、ウェブブラウザ上の操作で探索することができるTogoDXが開発されました。

なお、TogoDXは知識グラフを用いて統合されたデータであれば、生物学に限らずあらゆるドメインの情報を扱うことの出来る汎用的なフレームワークとなっています。

TogoDX/Humanについて

TogoDX/Humanとは

TogoDX/HumanはTogoDXのフレームワークを用いて、ヒトに関するデータを統合的に探索するためのインターフェースを提供します。遺伝子、タンパク質、化合物、疾患などの情報を国内外のデータベースから収集・統合しています。本サイトは、NBDC/DBCLSが開発・提供しています。

TogoDX/Humanの特長

TogoDX/Humanでは、これまで多種多様なデータベースに散在して収録されてきたヒトに関する情報をワンストップで探索することができます。現在、21個のデータベースに由来する50個の属性(各データセットから抽出されたattribute)が利用可能です。

利用事例

TogoDXは、全データを俯瞰しながらデータを探索する使い方と、自分のデータをIDとしてマッピングする使い方があり、その結果がさらなる解析につながるようなフレームワークを目指しています。

TogoDXの検索条件はURLとして保存可能で、他のユーザーと共有することができます。

推奨ブラウザ

ファンディング

このサービスは、NBDCのライフサイエンスデータベース統合推進事業の一環として開発されました。

サイトポリシー