自AlphaGo徹底在圍棋領(lǐng)域戰(zhàn)勝人類(lèi)后拧咳,包括DeepMind在內(nèi)的諸多科技公司開(kāi)始把目光轉(zhuǎn)移到游戲領(lǐng)域伯顶。相較棋牌類(lèi)而言,對(duì)戰(zhàn)游戲中涉及的信息處理和決策選擇呛踊,稱得上難度劇增,如果真的能夠徹底在這些方面戰(zhàn)勝人類(lèi)啦撮,可以說(shuō)AI的實(shí)力又攀升了一個(gè)階段谭网。
關(guān)注相關(guān)消息的朋友,應(yīng)該留意到近期兩件游戲領(lǐng)域ai相關(guān)的消息赃春,一件是DeepMind和暴雪發(fā)布了用于星際爭(zhēng)霸2(SC2)的機(jī)器學(xué)習(xí)平臺(tái)SC2LE愉择,另一件是Openai的bot在dota2單人solo賽上完虐了職業(yè)選手。
先來(lái)說(shuō)說(shuō)SC2的织中,這游戲相對(duì)來(lái)說(shuō)有些年頭锥涕,目前是在國(guó)外尤其韓國(guó)流行,身邊可能在玩的玩家相對(duì)少一些狭吼,但是這毫不影響SC2是一款成熟優(yōu)秀的即時(shí)戰(zhàn)略游戲层坠。所謂即時(shí)戰(zhàn)略,即需要即時(shí)進(jìn)行決策刁笙,并進(jìn)行宏觀上的排兵布陣以及資源分配破花。拿圍棋對(duì)比的話,圍棋每一步要進(jìn)行的選擇是300多疲吸,而在星際2中座每,僅在一個(gè)84*84的屏幕范圍內(nèi)操作,就有大約1億個(gè)可能的操作摘悴。而在游戲中峭梳,不僅僅是操作一個(gè)行為正確即可,戰(zhàn)略體現(xiàn)在有時(shí)做出的決定往往是在十幾分鐘甚至更久后才會(huì)產(chǎn)生效果蹂喻。同時(shí)葱椭,玩家只能看到自己當(dāng)前觀察的地圖部分捂寿,即全局信息是不完整的。綜上可見(jiàn)挫以,一個(gè)玩家在進(jìn)行游戲時(shí)者蠕,除了需要準(zhǔn)確操作外,還需要對(duì)有限的信息進(jìn)行推測(cè)判斷掐松,并有所計(jì)劃地安排當(dāng)前的操作踱侣,以在后續(xù)的過(guò)程中獲得優(yōu)勢(shì)。
其實(shí)玩過(guò)游戲的朋友都知道游戲里很早就有傳統(tǒng)的電腦AI可供對(duì)戰(zhàn)大磺,所謂人機(jī)對(duì)戰(zhàn)似乎也沒(méi)什么新奇抡句。傳統(tǒng)的AI是通過(guò)api數(shù)據(jù)接口的形式來(lái)獲取場(chǎng)上的信息,比如在雙方部隊(duì)交戰(zhàn)時(shí)杠愧,無(wú)需去點(diǎn)選敵方的每一個(gè)部隊(duì)單位待榔,就已經(jīng)通過(guò)api獲取了敵方的所有血量\藍(lán)量等信息,再通過(guò)接口的形式指揮己方單位來(lái)進(jìn)行交戰(zhàn)流济。DeepMind所要挑戰(zhàn)的方式卻并非通過(guò)api接口來(lái)獲取數(shù)據(jù)和操作锐锣,而是完全模仿玩家所能獲取的信息,并依靠鍵盤(pán)鼠標(biāo)進(jìn)行操作绳瘟。如下圖中指揮一個(gè)農(nóng)民建造房子的過(guò)程雕憔。
如此要求之下,DeepMind和暴雪努力的這一年里糖声,在嘗試了隨機(jī)策略斤彼、隨機(jī)搜索、全聯(lián)接卷積蘸泻、全聯(lián)結(jié)LSTM后琉苇,也就僅僅能比較好地完成上圖的造房子造農(nóng)民。但是對(duì)戰(zhàn)的話悦施,連傳統(tǒng)的簡(jiǎn)單難度AI都不贏并扇,甚至把一場(chǎng)游戲打完的能力都沒(méi)有。抡诞。拜马。可想而知,這次的挑戰(zhàn)在當(dāng)前的深度學(xué)習(xí)和增強(qiáng)學(xué)習(xí)算法支持下沐绒,可能是無(wú)法完成的俩莽。于是乎DeepMind和暴雪就聯(lián)合發(fā)布了游戲輸入輸出的API,并做了基于Python的封裝乔遮,同時(shí)承諾會(huì)持續(xù)發(fā)布對(duì)戰(zhàn)replay作為訓(xùn)練數(shù)據(jù)扮超。算是把這個(gè)難題推給了全球的算法研究愛(ài)好者們,期待會(huì)有優(yōu)秀的方法帶來(lái)突破吧。
再來(lái)說(shuō)說(shuō)TI7賽場(chǎng)上亮相的Openai出刷,主辦方挺有心的約來(lái)人氣選手DENDI來(lái)做“展示用小白鼠”璧疗,和bot打一場(chǎng)公開(kāi)的solo表演賽。最后的場(chǎng)面是DENDI被完虐馁龟,第一局0:2人頭告負(fù)崩侠,第二局被擊殺一次后直接打出GG,并拒絕再打第三局坷檩。
3分鐘20秒開(kāi)始比賽却音,之前有SumaiL、Arteezy 等選手在賽前測(cè)試時(shí)被完虐時(shí)的場(chǎng)景
刀塔的完整游戲是5V5的moba型游戲矢炼,即由兩隊(duì)各5名玩家操作一個(gè)英雄來(lái)進(jìn)行對(duì)戰(zhàn)系瓢。而本次openai挑戰(zhàn)的是solo比賽,是刀塔玩家很喜歡用來(lái)比較操作基本功的1V1模式句灌。該模式下主要比拼的是玩家的操作基本功夷陋,包括卡位、補(bǔ)刀胰锌、壓制對(duì)方骗绕、仇恨控制等。
根據(jù)Openai在比賽前后的宣傳文章來(lái)看资昧,他們?cè)谶M(jìn)行bot訓(xùn)練時(shí)酬土,并沒(méi)有使用任何玩家對(duì)戰(zhàn)的replay數(shù)據(jù),而是純靠自對(duì)戰(zhàn)提升的方式榛搔,大約20小時(shí)的時(shí)間后就達(dá)到了目前的水平诺凡。而數(shù)據(jù)獲取方面东揣,Openai使用的應(yīng)該還是刀塔2提供的接口方式践惑,只不過(guò)對(duì)AI進(jìn)行了限制,讓AI的apm(單位時(shí)間內(nèi)平均有效操作次數(shù))和人類(lèi)平均水平相同嘶卧。
兩件事情出來(lái)之后尔觉,就有有心之人開(kāi)始想搞個(gè)大新聞了,片面的說(shuō)Openai的實(shí)力遠(yuǎn)超DeepMind之類(lèi)來(lái)造噱頭芥吟,實(shí)在是不負(fù)責(zé)任了侦铜。
上文中其實(shí)已經(jīng)大致說(shuō)明了原因,首先是二者所要挑戰(zhàn)的任務(wù)難度差別很大钟鸵,Openai面對(duì)的1V1任務(wù)極大簡(jiǎn)化了所要分析決策的內(nèi)容钉稍,他們自己的文章上也指出仍無(wú)法完成5V5的挑戰(zhàn)。其次是數(shù)據(jù)獲取與執(zhí)行操作的方式棺耍,api接口下任務(wù)相對(duì)簡(jiǎn)化贡未,而Deepmind和暴雪反而是挖了一個(gè)深坑,基本的數(shù)據(jù)獲取就在進(jìn)行圖像的處理分析,從簡(jiǎn)化的2D特征圖開(kāi)始俊卤。另外就是目的的不同了嫩挤,功利的角度看,Openai更希望能夠有所成績(jī)宣傳自家消恍,而不像已在圍棋方面獲得聲望的Deepmind更有些挑戰(zhàn)極限的意味岂昭。
但是不過(guò)無(wú)論怎樣,不能否認(rèn)兩家公司都在做出讓人欽佩的工作狠怨,能夠認(rèn)識(shí)到目前的算法領(lǐng)域约啊,已經(jīng)在把攻克戰(zhàn)略游戲當(dāng)做一個(gè)挑戰(zhàn)性的目標(biāo),富有挑戰(zhàn)以及價(jià)值取董。這一目標(biāo)被徹底達(dá)成時(shí)棍苹,真正的強(qiáng)人工智能也就不遠(yuǎn)了。在那時(shí)的背景下茵汰,許多行業(yè)尤其重復(fù)性邏輯性強(qiáng)的行業(yè)枢里,都會(huì)受到影響與沖擊,畢竟蹂午,人工智能能夠很好完成工作內(nèi)容時(shí)栏豺,所需考慮的就只是時(shí)間和成本了吧。