back to contents
特集ハイパーライブラリー
ハイパーライブラリー・キーワード



データマイニング

「サイバースペース」というデータとプログラムによって構成された空間を,新たな発見や学習に利用しようという研究開発は,以前から活発に行なわれている.90年代になって,それまで機械学習(machine learning)の分野で行なわれてきた研究開発の成果を応用した「データマイニング(data mining)」というインターフェイス技術が注目されるようになった.データマイニングとは,見かけ上は何の変哲もない膨大なデータの中から,ユーザーにとって有益な属性を迅速かつ正確に発見し,ユーザーの判断や意思決定を支援するソフトウェア技術である.データマイニングは,より正確に言うと「データベースからの知識発見」というデータベースの研究分野のひとつで,NSF(全米科学財団)も90年代におけるデータベース研究の最重要課題として位置づけている.「データベースからの知識発見」の一手法であるデータマイニングは,「知識発掘(knowledge mining)」あるいは「データ考古学(data archeology)」などと呼ばれることもある.

 データマイニングは,データの領域間に存在する規則性や異なる属性値に関して成立するルールなどを巨大なデータ空間の中の知識とみなし,その知識を利用することによって,データベースへの問い合わせ処理を強化したり,推論機能を付加したりすることに道を開こうという技術である.銀河系の画像データを解析したり,株式市場における取引データを分析するための知識をデータベースから獲得するといった応用も,すでにいくつか試みられている.巨大科学が今後より一層膨大なデータを対象とすることが予想されるため,データマイニングの役割に対する期待は今後も大きくなり続けるに違いない.天文学や宇宙開発,金融,気象,ヒトゲノム計画などが構築している(あるいは構築しようとしている)データベースは,テラバイト単位の総データ量を対象としたデータの解析や解釈を行なわなければならない.もちろん,日々動的なデータ更新が行なわれているため,データの従属性を発見するために必要な計算量も飛躍的に増大する.したがって,膨大なデータ空間の中からユーザーが必要とする知識を発見するための,効率のよい検索アルゴリズムがきわめて重要な意味をもつ.

 巨大なデータから新たな発見をしたり学習したりすることは,われわれ自身の知のあり方に関わってくる.状況に応じてどんなデータを獲得していくかがきわめて重要なのだ.いったん構築されたデータベースは時を経るごとにデータを更新し巨大になっていくが,データベースを構築した時とは異なる観点でデータベースに問い合わせをする機会も当然増えてくるわけである.ところが,考え方が変わるたびに,データベースを作り替えることなどできるはずもない.仮に作り替えたところでデータベースが運用される頃には,その設計の方針が陳腐化していることも当然予想される.大きなコストを要して構築したデータベースをより有効に利用するためにも,データマイニングは重要な役割を担うのである.

 データマイニングによってデータベースに格納されているデータの各属性間に成立するルール,制約,規則性などが典型的な知識として獲得されると,データベースのユーザーそのものも変容してくる.つまり,データベースへの問い合わせもオーダーメイドが可能となり,ブロード・キャスティングされているはずのデータベース・サービスが,データマイニングを拡張していけばナロー・キャスティングなものとなって,格納されたデータがより個人的なものになってくるのである.検索の対象を大きなデータ空間から小さな空間に移し,さらに的を絞っていくと,行き着く先は個人のテーマやディマンドである.つまり,データマイニングは膨大なデータ空間を個人用にカスタマイズする技術としても意味をもつのである.

 ネットワークとハイパーテキストの技術を用いたウェブ・サービスが,印刷物とは違った情報伝達や知識共有のスタイルを定着させたのと同様に,データマイニングはパラダイムという多様性や恣意性を横断したデータベース利用を可能にしてくれるはずである.

 また,インターネットや商用ネットワーク上にもテキストだけでなく画像や映像あるいは音声など,多様な構造をもつデータが日々飛び交っていて,既存のデータベースとはいささか異なる巨大なデータ空間が構築されつつある.インターネットや商用ネットワーク上に日々拡大し増殖しつつあるデータベースやライブラリー,あるいはアーカイヴから新たな判断材料や意志決定のための資料を発掘するデータマイニングという概念は,一般のネットワーク・ユーザーにとっても必要不可欠な技術になりつつあるのかもしれない.

(かつら えいし・文献情報学)