二次元の画像を「高精度な3Dイメージ」に変換するアルゴリズムが、AIの進化を加速させる

沿って : Ilikephone / On : 04/05/2022

現在の人工知能(AI)技術を取り巻く大きなうねりの始まりは、2012年にさかのぼる。この年、写真のなかの物体をアルゴリズムにどれだけ正確に認識させられるかを競う学術コンテストが開催されたのだ。

研究者たちはその年、ヒトの脳内ニューロンが新たな情報に反応する仕組みに大まかなヒントを得て、アルゴリズムを構築した。そして数千枚に及ぶ画像をそのアルゴリズムに読み込ませることによって、認識精度を飛躍的に高められることを発見した。この画期的な発見は学術研究やビジネスの世界に激震を走らせ、数々の企業や業界に変化をもたらしている。

そしていま、同種のAIアルゴリズムにトレーニングを施すことで、二次元(2D)の画像を表現豊かな3Dのイメージに変える新たな技術が登場した。コンピューターグラフィックス(CG)とAIのふたつの世界を騒然とさせているこの新技術は、ヴィデオゲーム、仮想現実(VR)、ロボット工学、クルマの自律走行のあり方を一変させる大きな力を秘めている。

専門家のなかには、この技術によってコンピューターがさらに賢くなって人間並み以上の知性を身に付け、この世のあらゆることを理解したり、理路整然と論じたりするようになるかもしれないと考える者もいるほどだ。

使い道の多い画期的な技術

「いまや話題沸騰で大注目されている技術です」と、カリフォルニア大学バークレー校(UCB)でロボット工学を研究するケン・ゴールドバーグは言う。彼はこの技術を使ってAIで動作するロボットの能力を高め、見慣れぬ形状の物体でも掴めるようにする研究に取り組んでいる。この技術には、エンターテインメントから建築に至るまで「数百もの使い道」があるはずだと彼は語る。

この新技術に用いられているのは、ニューラルネットワークを使って数枚の2Dスナップ写真を読み取り、そこから3Dイメージを生成する「ニューラルレンダリング」と呼ばれる技法だ。CGとAIを巡るさまざまな概念の融合から生まれたこの技術への関心は、20年を境に一気に高まった。この年の4月、UCBとグーグルの共同研究チームが、ニューラルネットワークに数枚の2D写真を見せるだけで、同じ場面を非常にリアルな3Dイメージで再現できることを実証してみせたのだ。

大気中を通過する光の動きを利用したこのアルゴリズムは、3D空間の各データポイントの密度と色を計算するよう設計されている。これにより2D画像をどこから見てもリアルな3Dイメージに変換することが可能になったのだ。

この技術の核となるニューラルネットワークは、12年の学術コンテストで公開された2D画像のピクセルを分析する画像認識アルゴリズムと同種のものである。新たにつくられたこのアルゴリズムは、2Dのピクセルを「ヴォクセル」と呼ばれる3次元ピクセルに変換するという。Neural Radiance Fields(神経放射輝度フィールド、略称NeRF)と命名されたこの技術を紹介する動画は、多くの研究者たちをうならせた。

「20年にわたってコンピューターヴィジョンの研究に携わってきましたが、この動画を観たときは『いやあ、これはすごい』と声が出ました」と、ジョージア工科大学教授のフランク・デラートは語る。

コンピューターグラフィックスを研究する者なら誰もが、この技術の革新性を認めるに違いないとデラートは語る。リアルで詳細な3Dイメージを完成させるには、たいてい何時間にもわたる面倒な手作業が必要だ。ところが新方式の登場により、ほんの数分でごく普通の写真からこうした3Dイメージを作成できるようになったのである。