ロボットの生態系2/9

ロボットの生態系

ボディを欲しがるロボットの視覚

佐倉──ところで浅田さんはもともと視覚を研究されていて，それからスキルやボディを取り入れようと考えたわけですよね．視覚だけで研究を進めることの限界はどのへんでどういうふうにお感じになったのですか？

浅田――認識問題そのものに限界を感じましたね．というのは当初，機械がどのように認識をするのか，といった点に興味があったので，パターン認識やコンピュータ・ヴィジョンの分野に入ったのですが，実際にやってみると難しい問題なんです．人間の視覚機能を機械に代行させるわけですが，例えば認識問題でよく例に挙げるのは「これはリンゴですか，ミカンですか？」といった問いで，リンゴの写真を撮って，色，形，大きさをコンピュータに見せ，コンピュータが丸くて直径約15cmくらいと計測して「これはリンゴだ」と判断したときに，本当にそれをリンゴと認識したと言えるのかという疑問が生じます．われわれがリンゴを認識するのは，視覚だけではなく，触覚や臭覚，重量や，かじると酸っぱい，歯茎から血が出るかもしれない，といったいろいろな語り方があって，そういった関わり合いのなかで初めてわれわれにとってリンゴが意味をもつんです．

われわれは三次元の環境のなかで，リンゴをモデル化するプロセスと認識するプロセスを同時発生的に体験します．しかしそういう過程を経ずに，リンゴは｢赤くて，丸くて，直径が約15cmのもの」といったテンプレート・マッチング［★7］のみで捉えると，本当の認識はできないのではないか．つまり，シンボルだけでなく，ボディが重要なのであって，身体をもってリンゴを持ち，触り，嗅ぎ，かじることで初めてリンゴの意味が理解できる．コンピュータに閉じた内部の世界だけではなく，ボディをも体験させるからこそ意味論が発生しうると思うのです

佐倉──生物を研究対象としている立場から言うと，視覚というのはとても高度な情報処理なんですね．哺乳類はほとんどが嗅覚をおもなメディアとしていて，視覚が主体なのは人間をはじめとする霊長類ぐらいです．
動物全体を見わたしても，視覚に頼っているのは鳥ぐらいで，あとは視覚は白黒だったり明暗しかわからなかったりといった具合で，匂いやフェロモンのような化学物質をおもなメディアにしている動物がほとんどです．ですから，生物の進化の過程を系統発生的に見ると，身体による認識が先にあって，それがだんだん洗練されてきて，視覚はかなり後になって出てきたと思うんです．ところが，どうしても人間が研究しているために，ロボットをつくるときにはまず，視覚だ，となる．あるいはAIだと言語処理だということになって，「難しい，難しい」と言っているんですね．
しかしそのようなやり方では限界が見えてきたので，ロボット研究やAIに生物的な特徴をとりいれていこう，という流れになっているのでしょうか？

浅田──ええ，私自身の研究の方向性はそうですね．機械工学でもそうなんですが，人間の認識をもとにすると，視覚情報を処理しましょうというときに最初からある種の合意ができているんです．ところがいまおっしゃったように，視覚は進化の歴史のなかでリファインを繰り返した結果であって，断片的なものでしかないんですが，実際生きている空間のなかで認知をするプロセスは，そうした断片的なものを扱っているだけでは駄目で，フレーム問題［★8］にぶつかってしまう．だからもっと根源的に考えると，視覚情報を考えるときにも，視覚情報だけでなく，身体との関わり合いを考えないといけません．

いま言語についておっしゃいましたが，言語もそういったレヴェルから始めて，つまり視覚情報を自分との関わり合いのなかで抽象化していく過程のなかで，ある状態に対して自分が行動を取るというS-R図式［★9］が出てきて，それが私にとってシンボルになる可能性がある．つまりいままでの行動に対して自分がどういう反応をするか，というときに，最初からシンボルがあるというのではなくて，最初から自らの体験によってシンボルが出てくるのです．それを複数のエージェントが共有すると，ある種言語発生的なことが起きないかと思っているんです．
「ロボカップ」の場合，複数のエージェントが協調しますから，何らかのコミュニケーションが発生しなければいけないですね．しかも明示的なコミュニケーションではなくて，阿吽の呼吸とかアイ・コンタクトができたときに，お互いにシンボルが共有されはじめたとすれば，言語的なある種の構造が構築され，言語の発生について説明ができるのではないか．視覚だけではなく，言語を含めたいろいろな問題についてやってみたいですね．そしてそれをテストケースにしたいと思っています．

佐倉──去年の春に，横浜の「みなとみらい」で浅田さんも一緒に出席されていたフォーラムがありましたが，そこで，人間や動物が相手の気持ちを理解するとはどういうことか，という「心の理論（theory of mind）」の話題が出ました．
人間が他者を理解をするときには，言語で理解するというイメージがまずありますが，動物同士が理解し合うときには，多分それだけではなくて，もっとアイ・コンタクトや阿吽の呼吸のようなものが重要になっている．そして，それをロボットにやらせるためにはアルゴリズム自体が変わってくる必要があるということを浅田さんはおっしゃっていたように思うのですが．そこで素朴な質問なんですけど，そういった新しいアルゴリズムというのは，はたしていまのコンピュータ・プログラムでできるのでしょうか．

ただ門外漢のイメージとしては，コンピュータ・プログラムはやはり言語だから，結局はそれをどううまく使うかという話に終始しちゃうのではないか．だけど「心の理論」や他者理解の問題はそういうところにあるのではなく，もやもやとしたところから言語や理解の構造が創発［★10］するためには，ちょっと無理ではないか，力不足ではないか，という気がするんです．

浅田──基本的にロボットの脳の構造としてどういうものを仮定するかということですが，本質的に言語をつくるという意味合いなのか，それともコンピュータのベーシックな仮想上のツールの上でそれを再現することかなのか，異なりますね．例えば，従来のやり方とは逆に，ウェットタイプのボディを採用して，ボディ自体を変えていけば，これまでのコンピュータという概念はなくなってしまいます．そこまで行けば嬉しいのですが，自分の研究室でシミュレートなり検証できる範囲では，ボディそのものを発達させることが難しいので，現時点ではボディは固定してソフト的な内部構造を変化というか進化させるかたちしかないんです．でも究極的には，ウェットタイプのボディ自体の進化も考慮に入れなくては，本質には到らないと思います．

前のページへ

次のページへ