DeepMind:AlphaGoをつくった「4億ドルの超知能」はいかにして生まれたのか?

沿って : Ilikephone / On : 28/01/2023

未来の人工知能は、「スペースインベーダー」から始まった。最初は敵のエイリアンのほうが圧倒的に強く、そのプレイヤーのレーザー砲台は、数秒も経たないうちに撃破されてしまった。あっという間にゲームオーヴァーだ。しかし30分もすると、その弱々しいプレイヤーは、いつ撃ち返せばいいか、いつ隠れればいいかといったゲームのリズムをつかみ始める。そして一晩ぶっ通しでゲームを続けたあとは、ついに1発の弾も無駄にしないほどゲームに熟達してしまった。エイリアンを撃退しながら、合間に現れる敵の母艦をやすやすと破壊して高得点をたたき出す。もはや、世界中の誰も敵う者はいない。

実はこのプレイヤーは、人間ではない。DeepMind(ディープマインド)という企業が開発した、コンピューターアルゴリズムなのだ。Deep Q-Network(DQN)と呼ばれるこのアルゴリズムは、グラフィックプロセッサー上にプログラムされ、「スコアを最大にせよ」というシンプルな指示と、1フレームあたり3万ピクセルのデータストリームを与えられている。

DQNが次に挑戦したのは、7色のブロックでできた壁を、卓球のようなかたちでボールを当てて崩していく「ブレイクアウト(ブロック崩し)」だ。

DeepMind:AlphaGoをつくった「4億ドルの超知能」はいかにして生まれたのか?

「始めて30分で100ゲームをこなしたくらいのときは、ひどいものです。でもDQNはその間に、パドルをボールにどう当てればいいのかを学んでいます」。ディープマインドの共同創業者兼最高経営責任者(CEO)、そして人工知能研究者でもある39歳のデミス・ハサビスはそう説明する。

「1時間で得点は上がってきますが、まだそんなに賢くはありません。でも2時間経てば、ほぼ完璧にゲームをマスターし、高速で向かってくるボールにも対応できるようになります。4時間後には、新しい技を自分で考え出すようになります。例えば壁の両側に穴を開けて、人間をはるかに超える正確さでボールがその穴を通るように打ち返すんです。アルゴリズムの開発者もそんな技は知りませんでした」

2015年2月、ハサビスとその同僚たちが書いた論文が『Nature』誌に掲載された。彼らの開発した人工知能プログラムがAtari2600用の49種のTVゲームを、ほとんど何も教わることなくプレイできたというものだ。DQNは格闘ゲームから3Dのレーシングゲームまであらゆるゲームをマスターし、何度も(人間の)プロゲーマーに圧勝した。

「いまはゲームにすぎませんが、株式市場のデータだっていいんです」とハサビスは言う。「ディープ・ニューラルネットワークと強化学習アルゴリズム。ディープマインドはこの2つの有望な研究領域を、基礎的なレヴェルで統合してきました。ぼくたちが興味をもっているのは、ある分野で学んだ知識を、別の分野に応用できるようなアルゴリズムなのです」

ディープマインドは、これまでに製品をひとつも発表していない。ゲームをマスターする人工知能をどう収益に結びつけるのか、その道筋さえ見つけていない。しかしそんな些細なことは、グーグルにとってはまったく問題ではなかった。グーグルは2014年1月、イーロン・マスクやピーター・ティール、李嘉誠(リ・カシン)といった投資家の支援を受け、ロンドンに本拠を置くディープマインドを買収した。4億ドルという買収額は、グーグルにとってヨーロッパ地域での過去最大の投資となった。

RELATED