背景
游戲是檢驗人工智能系統(tǒng)效果的一種重要手段隘弊,這得益于游戲本身所具有的對抗性和策略性哈踱。
當(dāng)前在大部分的視頻實時策略游戲中已經(jīng)取得了較好的成績,如:Atari, Mario, Quake III Arena Capture The Flag, Dota2梨熙。但是在星際爭霸中則一直沒有取得 較好的成績开镣,這與星際爭霸游戲本身的復(fù)雜性密不可分。
星際爭霸II
星際爭霸屬Blizzard出品咽扇,這是一款偉大的游戲邪财,吸引了眾多玩家和職業(yè)選手,大型的職業(yè)選手比賽已經(jīng)舉辦超過20年质欲。
星際爭霸有多種玩法树埠,其中最為常見和吸引人的當(dāng)屬1對1模式,比賽時通常以5局定勝負(fù)嘶伟。開始游戲之前弥奸,玩家先需要選擇種族,不同種族具有不同的優(yōu)勢與弱點奋早∈Ⅵ可選的種族有Zerg, Protoss, Terran赠橙。剛開局時每位選手會獲得基礎(chǔ)的人力來收集資源,收集資源可用于建造基礎(chǔ)設(shè)施愤炸、攻擊設(shè)施期揪、防御設(shè)施、添加新的收集人員规个、攻擊人員等凤薛。
難點
想要獲得一個較好的效果,AI面臨以下難題:
- 星際爭霸的AI學(xué)習(xí)過路中并不存在最優(yōu)解诞仓,而是一個不斷基于對手變化而不斷給出相應(yīng)應(yīng)對策略的過程缤苫;
- 與國際象棋和圍棋等棋類游戲不同,星際爭霸中事先并不知道所有可能的處理方法墅拭;
- 與現(xiàn)實世界一樣活玲,星際爭霸中存在因果之間長時影響的問題。即游戲開局的選擇可能對結(jié)局產(chǎn)生很大的影響谍婉;
- 實時也是該類游戲的主要特征之一舒憾,棋類游戲有思考時間,存在先后手穗熬。而星際爭霸所要求的則是對敵方玩家的實時動作做出實時的回應(yīng)镀迂;
- 如前所述,玩家控制的單位和人員是眾多的唤蔗,而每個單位和人員所能進(jìn)行的操作又平均有10到26種探遵,因而可選的動作空間很大;
效果
在2018年12月舉辦的賽事中妓柜,AlphaStar成功的擊敗了來自Team Liquid戰(zhàn)隊的星際爭霸頂級人類選手MaNa和TLO别凤。
參考文獻(xiàn)
[1] https://deepmind.com/blog/alphastar-mastering-real-time-strategy-game-starcraft-ii/