back to contents
特集ハイパーライブラリー
ハイパーライブラリー・キーワード



ゲノム情報とデータベース

 生命現象の基本的仕組みはすべてゲノムに書かれている.ゲノム計画の目的は,ゲノムの構造情報(=DNAの塩基配列情報)からさまざまな生命現象を解き明かすことにある.ゲノムの構造情報はRNAの構造情報を経てたんぱく質の構造情報に変換される.たんぱく質の構造情報はそのたんぱく質の機能を規定する.そして個々のたんぱく質の機能が複雑に組み合わされて種々の生命現象が実現される.

 このようなゲノムの構造から種々の生命現象に至る情報の流れの大筋は分かっているが,これらの情報がどのような規則に従って具体的に変換・操作されるかということはほとんど解明されていない.もし,そのような規則がすべて分かっていれば,DNA塩基配列情報とそれを解釈してくれるコンピュータ・プログラムがあれば事足りる.ゲノム計画は塩基配列を決めるだけで済む.しかし,残念ながら情報の変換規則は不明である.そこで,データベースが必要になる.ゲノムの構造から種々の生命現象に至る経路に関与するデータとそれらのデータの間の対応関係とをできるだけたくさん集めて,それらを整理統合した形でデータベース化することが重要になってくる.

 このようにして作られたデータベースには大きく 分けて二つの使い道がある.一つは,データベースをある種の事例集合とみなして,それにいままで知られている生物学上の経験則を適用してデータの解釈を行なうものである.例えば,「似ている配列は似た機能をもつ」という経験則を使って,未知のDNA配列と類似の配列(これに関しては機能や特徴が分かっているとする)をデータベースから検索することにより,未知の配列の機能や特徴を推測するような使い方である.このようなデータベースの使い方を「ホモロジー検索」と呼ぶが,ゲノムの解析では最もポピュラーなものである.筆者らが運営しているゲノムネットのデータベース・サービスにおいてもこのような使い方が利用の多くを占めている.ちなみに,ゲノムネットへは,現在50カ国を超える国から毎月40万件以上のアクセスがある.

 さて,ゲノムのデータベースのもう一つの使い道は,データベースに納められたデータの間に内在する規則(の仮説)を発見するため,あるいは,そのような発見を支援するために利用することである.最近,情報科学の分野でデータマイニングや知識発見と呼ばれる手法が開発されつつあることもあり,今後このようなデータベースの使い方が広まるものと思われる.ただし,そのためには,知識発見技術をゲノムのような膨大でかつ多様なデータに対して実用的に使えるように研究開発を進めるとともに,データベースの更なる充実を図る必要がある.宝物の発掘にはよい土壌=データベースが不可欠である!

 現在ゲノムのデータベースには,DNAの配列データや地図データといったゲノム構造のデータやたんぱく質の構造や機能に関するデータなどのいわゆる分子レベルの情報は多く格納されているが,シグナル伝達系や代謝系などの細胞レベルのデータや遺伝子変異と疾病との関係などの個体レベルのデータに関してはあまり納められていない.これからはこのような広範な生物学・医学のデータを網羅的に収集していき,ある種のヒトゲノム百科事典的なものを構築する必要があると思われる.

 ところで,データベースから発掘された規則仮説はin vivoあるいはin vitroの実験によって検証されるとその成果はデータベースに反映される.このようにしてゲノムのデータベースは,広範な生物学・医学のデータと知識とを取り込んでどんどん進化していくものと思われる.その行き着く先はよく分からないが,現在,生命系のシミュレーションの研究が盛んに行なわれている状況を勘案すると,少なくとも生命科学の研究開発のある部分は近い将来データベースの中で,つまり,in silicoで行なわれるようになることは間違いないであろう.

(たかぎ としひさ・ゲノム情報学)