人工知能は世界をもっと認識できる:グーグルのコンピューターヴィジョン

「人間の脳を模倣する人工知能」の研究を進めるグーグルはこのたび、学術的なコンピューター・ヴィジョン・コンテストで好成績を収めた。「帽子をかぶった犬」を認識できるその技術を紹介。
人工知能は世界をもっと認識できる:グーグルのコンピューターヴィジョン
PHOTO BY GOOGLE RESEARCH
「つばの付いた帽子」「犬」

グーグルは、世界最大の学術的なコンピューター・ヴィジョン・コンテストである「ImageNet Large-Scale Visual Recognition Challenge」の分類部門と検出部門で1位となった

8月18日付けで発表された今回のコンテスト結果は、グーグルの技術が、画像を正しくラべリングできるだけでなく、複雑な場面に含まれる多くの物品を探して何であるかを特定し、注釈を付けることができることを示している。

グーグルのブログ投稿では、この技術は、「画像に何が含まれているかだけでなく、物がどこにあるかまで把握することが役立つあらゆる分野で」活用しうると述べられている。

こうした技術の開発が、ロボット工学や自律走行車などの分野で役に立つことは明らかだ(どちらもグーグルが多額の投資を行っている分野だ)。さらに、大規模な画像認識は、検索にも大きな影響を与える可能性がある。同じアルゴリズムを利用して、「Google画像検索」に登場したウェブ上の大量の写真や、YouTube動画に含まれている画像を、より正確に検索できる可能性があるからだ。

インターンふたりを含めたグーグルのチームは「GoogLeNet」と名付けられている。「深層学習(Deep Learning)」という人工知能(AI)の新分野を開拓した有名な学者であるヤン・ルカンがつくった畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)「LeNet」にちなんだ名前だ。

WIREDの別記事によれば、深層学習とは、人間の脳の生物学的構造をソフトウェアで模倣して、「人間の関与なしで学習するマシン」を開発しようとする研究だ。グーグルは最近、「世界を覆う人工知能ネットワーク」の構築を目指して、この分野の研究者たちを大量に雇い入れている。

グーグルによる研究の中核となった畳み込みネットワークは、「設計を徹底的に変更した」もので、幅と奥行きを改良して視野を広げただけでなく、画像内の物品の構造も理解できるものだという。

今回のコンテストで、グーグルのチームは「オープン・エントリー」を選択している。つまり、コラボレーションを促し、進歩を加速させるために、グーグルの取り組みのあらゆる要素の共有が認められている。


RELATED ARTICLES
Illustration of eyeball
二次元の画像を表現豊かな3Dのイメージに変換する新たな技術が、研究やビジネスの世界に衝撃を与えている。ヴィデオゲームやVR、ロボット工学を一変させる大きな力を秘めているこの技術により、将来的にはAIが人間並み以上の知性を身に付ける日が来るかもしれない。

TEXT BY KATIE COLLINS

PHOTO BY GOOGLE RESEARCH

TRANSLATION BY MAYUMI HIRAI, HIROKO GOHARA/GALILEO