王者峽谷,風(fēng)云突變始衅。
8月冷蚂,吉隆坡結(jié)束的王者榮耀最高規(guī)格電競(jìng)賽事——世界冠軍杯半決賽賽場(chǎng)上,有一場(chǎng)特殊的對(duì)決上演:五位電競(jìng)職業(yè)選手組成的賽區(qū)聯(lián)隊(duì)汛闸,對(duì)陣騰訊王者榮耀AI絕悟蝙茶。
最終這場(chǎng)5v5的大戰(zhàn)中,思路與人類(lèi)迥異的AI戰(zhàn)隊(duì)耗時(shí)16分15秒诸老,團(tuán)滅電競(jìng)職業(yè)高手戰(zhàn)隊(duì)隆夯,推掉全部9塔和高地水晶。
這意味著,騰訊AI絕悟的能力蹄衷,已經(jīng)精進(jìn)到王者榮耀電競(jìng)職業(yè)水平忧额。
同日上海的ChinaJoy,絕悟向頂級(jí)業(yè)余玩家開(kāi)放為期四天的1v1體驗(yàn)測(cè)試愧口。首日的504場(chǎng)測(cè)試中睦番,絕悟測(cè)試勝率為99.8%,僅輸1場(chǎng)(對(duì)方為王者榮耀國(guó)服第一后羿)耍属。
這場(chǎng)比賽托嚣,五位電競(jìng)職業(yè)高手組成賽區(qū)聯(lián)隊(duì)。他們選擇的陣容是:曹操(ESTARPRO.XIXI)厚骗、娜可露露(EMC.SUN)示启、武則天(NOVA.SEEK)、狄仁杰(KZ.NIGHT)溯捆、張飛(M8HEXA.MIKE)丑搔。
騰訊AI絕悟(Wukong)選擇的陣容是:達(dá)摩(AI_001)厦瓢、雅典娜(AI_011)提揍、王昭君(AI_100)、虞姬(AI_000)煮仇、牛魔(AI_010)劳跃。
為了這次比賽,訓(xùn)練使用384塊GPU浙垫,8.5w核CPU刨仑,平均每天自對(duì)戰(zhàn)局?jǐn)?shù)相當(dāng)于人類(lèi)訓(xùn)練440年的量,訓(xùn)練周期持續(xù)訓(xùn)練半個(gè)月以上夹姥。
絕悟杉武,是騰訊AI Lab和與王者榮耀共同探索的前沿研究項(xiàng)目:策略協(xié)作型AI。
絕悟這個(gè)名字辙售,寓意“絕佳領(lǐng)悟力”轻抱。這個(gè)AI的研發(fā)始于2017年12月。2018年12月旦部,絕悟5v5對(duì)陣《王者榮耀》王者段位人類(lèi)玩家祈搜,大戰(zhàn)250局,拿下48%的勝率∈堪耍現(xiàn)在容燕,絕悟已經(jīng)超越王者段位水準(zhǔn),達(dá)到職業(yè)電競(jìng)選手的層次婚度。
這次在吉隆坡和上海發(fā)威的絕悟版本蘸秘,建立了基于“觀察-行動(dòng)-獎(jiǎng)勵(lì)”的深度強(qiáng)化學(xué)習(xí)模型,無(wú)需人類(lèi)數(shù)據(jù),從白板學(xué)習(xí)(Tabula Rasa)開(kāi)始醋虏,讓AI自己與自己對(duì)戰(zhàn)味抖。
算法上,模仿人類(lèi)的決策方法灰粮,綜合考慮小地圖信息仔涩、己方視野和英雄屬性等多個(gè)維度特征,讓它兼具大局觀與微操粘舟,決定在游戲的什么時(shí)間該去哪里(去上熔脂、中、下路或野區(qū)等柑肴、單人或配合隊(duì)友站位)霞揉,要做什么(游走殺人Gank、帶兵線晰骑、支援或反野)适秩,及具體微操怎么做(確定各自站位和角色、組合技能并釋放)硕舆。
對(duì)戰(zhàn)中秽荞,在龐大且有不完備信息的地圖上,10位參與者要在策略規(guī)劃抚官、英雄選擇扬跋、技能應(yīng)用、路徑探索及團(tuán)隊(duì)協(xié)作上面臨大量凌节、不間斷钦听、即時(shí)的選擇,形成了極為復(fù)雜的局面倍奢,預(yù)計(jì)有高達(dá)10的20000次方種操作可能性朴上。