近日,研究人工智能(AI)和游戲的科學(xué)家將迎來(lái)最新的人機對決。但此次并非一個(gè)人與一臺機器對決,一個(gè)由5名頂尖電子游戲玩家組成的團隊,將會(huì )瘋狂地向一群名為OpenAI 5的機器人施展魔法咒語(yǔ)和發(fā)射(虛擬)火球。他們將在加拿大溫哥華舉行的國際電子競技錦標賽上玩實(shí)時(shí)策略游戲Dota 2,這是一項一年一度的電子競技賽事,其數百萬(wàn)美元的獎金吸引了許多職業(yè)玩家參與。
1997年,IBM的“深藍AI”擊敗國際象棋冠軍加里·卡斯帕羅夫。2016年,深度思維公司的AlphaGo AI在傳統圍棋比賽中擊敗了世界圍棋大師李世石。計算機在跳棋和一些撲克游戲中也擊敗了人類(lèi)。但快節奏的多人視頻游戲則帶來(lái)了另一種挑戰,它需要計算機協(xié)作和管理不可預測性。這一目標是常識,它可以幫助AI應對現實(shí)世界的情況,如導航交通和提供家庭護理,即使它們永遠不必面對魔法咒語(yǔ)。
“AI的下一件大事是合作?!庇鴤惗卮髮W(xué)學(xué)院計算機學(xué)家、研究另一種實(shí)時(shí)戰略游戲《星際爭霸2》的王軍(音譯)說(shuō)。牛津大學(xué)計算機學(xué)家、《星際爭霸2》的另一名研究者Jakob Foerster說(shuō),它需要“戰略推理,在這里它可以了解其他人的動(dòng)機”。
Dota 2于2013年公布,在全球擁有數百萬(wàn)玩家。在游戲中,團隊在保衛自己地盤(pán)的同時(shí),還要通過(guò)戰斗摧毀敵人的地盤(pán),同時(shí)收集資源以增加自己的力量和技能。一場(chǎng)勢均力敵的比賽持續時(shí)間約45分鐘。1年前,美國加州舊金山非營(yíng)利研究機構OpenAI公布了一種能在一對一游戲中擊敗人類(lèi)最佳玩家的AI。但OpenAI的聯(lián)合創(chuàng )始人兼首席技術(shù)官Greg Brockman表示,在此次國際比賽中,5對5的對決對電腦來(lái)說(shuō)是一個(gè)更大的挑戰,因為比賽的時(shí)間更長(cháng),也更復雜。盡管如此,在近日熱身賽中,OpenAI 5仍輕松擊敗了一個(gè)前職業(yè)玩家團隊?!氨灰粋€(gè)非人類(lèi)弄得很尷尬是件糟糕的事?!痹谝蝗河^(guān)眾面前輸掉比賽的William“Blitz”Lee說(shuō),“我們被左右碾壓?!?/p>
Dota2中潛在的走法范圍遠遠大于國際象棋或圍棋,后兩者最多只有幾百種走法。但在Dota2中,動(dòng)作是不變的,玩家的每次移動(dòng)卻有著(zhù)成千上萬(wàn)種選擇,例如向哪里逃跑、用哪個(gè)魔法以及在哪里瞄準等。這樣的自由度加上游戲固有的隨機性和玩家對視野之外事物的忽視,意味著(zhù)你不能完美地預測游戲的走向,哪怕是向前移動(dòng)一步。在國際象棋和圍棋中,算法會(huì )使用搜索樹(shù)分析未來(lái)分支的可能性。而在Dota2中,預測變得更加模糊。
因此,OpenAI 5沒(méi)有依賴(lài)于搜索樹(shù),而是使用了神經(jīng)網(wǎng)絡(luò ),這是一種受大腦啟發(fā)的算法,可以加強小計算元素之間的聯(lián)系從而予以回應。(AlphaGo則是將神經(jīng)網(wǎng)絡(luò )與搜索樹(shù)相結合)在訓練過(guò)程中,該系統在游戲中盲目地實(shí)驗不同的動(dòng)作。當它們表現良好時(shí),負責那些行為的聯(lián)系就會(huì )加強。經(jīng)過(guò)長(cháng)時(shí)間的游戲加速,強大的策略出現了。OpenAI大規模應用了這種被稱(chēng)為強化學(xué)習的方法,并在數千臺計算機上同時(shí)運行該算法?!癘penAI 5是我見(jiàn)過(guò)的令人印象最深刻的強化學(xué)習演示之一?!钡湼绫竟畔⒓夹g(shù)大學(xué)計算機科學(xué)家、參與《星際爭霸2》研究的Niels Justesen說(shuō)。
從表面上看,OpenAI 5在合作方面也取得了成功。AI的5名玩家非常愿意為了團隊的整體利益而犧牲自我,這可能會(huì )讓它們比人類(lèi)團隊更有優(yōu)勢?!斑@臺機器人表現得很有犧牲精神?!盠ee說(shuō),而人類(lèi)不太可能為了獲勝而放棄一個(gè)玩家?!柏澙肥且环N人性觀(guān)念?!钡獳I依賴(lài)于一種蜂群思維,它可能讓協(xié)作變得更容易。系統中幾乎相同的5種算法中的每一種都能看到其他算法所看到的內容,而人類(lèi)只能看到自己屏幕上的內容,只有通過(guò)交談才能共享信息。王軍表示,為了與人或與它們不同的程序合作,無(wú)論是在游戲還是在生活中,這些算法最終需要發(fā)展溝通技巧和“心理理論”,即有關(guān)其他人和算法的信念和愿望的模型。
即便如此,Dota2仍然是對AI的一個(gè)有價(jià)值的測試。許多專(zhuān)家預測OpenAI 5將在國際比賽中獲勝。不過(guò),德國多特蒙德技術(shù)大學(xué)研究人工智能和游戲的Vanessa Volz則看到了其潛在的弱點(diǎn),那就是OpenAI 5使用“自我對決”來(lái)訓練算法。她表示:“這種方式有可能會(huì )受到以前看不到的游戲風(fēng)格的影響?!陛斀o人工智能的Lee也有同樣的感覺(jué)?!艾F在,機器人有點(diǎn)太死板了?!彼f(shuō),“它的可預測性變得有些過(guò)強。我覺(jué)得如果我們再多打幾場(chǎng)比賽,就能干凈利落地獲勝?!保〞x楠編譯)
摘自《中國科學(xué)報》