比賽過程中,人類選手整體上從未領先過对粪。進入比賽最后一天時右冻,Libratus 贏得156 萬籌碼。人類選手要挽回劣勢著拭,只有不到 5,000 手的機會纱扭。Jason Les 說,最后的感覺就是茫死,自己所能做的就是輸跪但。這太打擊士氣了履羞。
在這場德?lián)漕I域的人機巔峰對決中峦萎,人類可謂是慘敗屡久。在共計20個比賽日中,人類團隊只在其中4天里贏得了籌碼爱榔。
1月30日傍晚被环,完成了3萬手比賽的Jimmy Chou筋疲力盡地告訴媒體,“這太難了详幽。它(Libratus)不僅不留空子給我鉆筛欢,而且我真的覺得它在鉆我空子”。
Daniel McAulay說道唇聘,“在第10比賽日的時候版姑,我還樂觀心很大,想把那AI拉下馬”迟郎。他們絞盡腦汁剥险,每天比賽后都開會到深夜,但想出的戰(zhàn)術沒一個管用的宪肖”碇疲“是啊,我們就是完敗控乾,還能說啥呢”么介。
而在四名人類高手中最終戰(zhàn)績最佳的Dong Kim或許“早已看穿了一切”,在賽程過半時蜕衡,他就認定人類已經沒有機會了壤短。
Jason Lee下場后則迫不及待地想去找Libratus的開發(fā)者們聊一聊,“我就是想確定一下他們是不是把計算機偷偷塞在我們腦子里了衷咽,因為它改變戰(zhàn)術的時候就像是針對我們每個人發(fā)動的‘人身攻擊’”鸽扁。
與 Libratus對抗中的德?lián)鋵I(yè)選手 Jason Les
早在1979 年,人類首次在西洋雙陸棋游戲(backgammon)中敗給機器镶骗。1997 年桶现,Gary Kasparov 輸給 IBM 的深藍。當時他評論說鼎姊,可以感覺到對手是種新的智能形式骡和。人類輸給機器的其他游戲包括:西洋棋、黑白棋相寇、拼字游戲(Scrabble)慰于,甚至是 Jeopardy! 和經典的 Pong。
而在最近唤衫,人工智能打敗頂尖圍棋高手婆赠。2016 年 3 月,李世石 4:1 惜敗 AlphaGo佳励。2016 年圣誕節(jié)期間休里,匿名再度出山的 AlphaGO也即是master?陸續(xù)擊敗中國頂尖圍棋高手蛆挫,贏得毫無懸念。
Libratus 是一個玩無限德州撲克的人工智能程序妙黍,由卡耐基梅隆大學的 Tuomas Sandholm 教授與 Noam Brown 博士所開發(fā)悴侵。Libratus 的策略并非基于專業(yè)玩家的經驗,所以它的玩牌方式可能有明顯的不同拭嫁】擅猓基于在匹茲堡超級計算機中心大約 1500 萬核心小時(core hours)的計算,它使用算法分析德?lián)湟?guī)則做粤,建立自己的策略浇借。在此次的比賽中,Libratus 將繼續(xù)提升自己的策略怕品。據介紹逮刨,創(chuàng)造 Libratus 使用的算法并非為撲克專門設計的。在面臨不完全或誤導信息時堵泽,該人工智能進行推論的能力有著廣泛的潛在應用修己,包括業(yè)務談判、醫(yī)療迎罗、網絡安全睬愤、競拍等等。
百度首席科學家吳恩達(Andrew Ng)說道纹安,“撲克是人工智能最難攻克的游戲之一尤辱。每一步沒有所謂的最優(yōu)解,人工智能要采取隨機的策略厢岂,這樣它詐唬的時候對方才會吃不準光督。”
詐唬(bluffing)是德州撲克的一種經典策略塔粒,它生動地體現(xiàn)了撲克游戲的“心理博弈”特征:即在手上的牌不夠大的時候结借,依然虛張聲勢地加注,以嚇退對手卒茬。為了達到好的詐唬效果船老,玩家的下注策略需要具備足夠的隨機性,以避免被對手摸清套路圃酵×希總是詐唬的人和從不詐唬的人都不是一個好的德?lián)渫婕摇?/p>
在本次比賽中,人類玩家明顯地感覺到Libratus善于詐唬及不被詐唬郭赐。這得益于開發(fā)者們教會它運用博弈論和戰(zhàn)略決策理論薪韩,在充滿不確定性的情景中找到平衡風險與收益的最佳策略,即所謂的“均衡”。
值得一提的是俘陷,這次比賽是以鏡像局的方式進行的张惹。在每一對鏡像局中,AI和人類玩家的手牌是對調的岭洲。這種比賽方式不僅消除了抓牌運氣的影響,也為我們了解AI的出牌風格提供了生動的視角坎匿。這比如其中一盤盾剩,人類高中Jason Lee起手牌是一對10(非梅花),前三張公共牌為K替蔬、9告私、4(其中有兩張梅花),第四張和第五張都開出了非梅花牌承桥。此時驻粟,AI突然壓上所有籌碼,Lee選擇不跟凶异。通過隔壁的鏡像局蜀撑,我們發(fā)現(xiàn)AI當時的起手牌確實是兩張梅花,也就是剩彬,AI最后在湊同花失敗的情況下酷麦,成功通過詐唬贏下了一局。而在鏡像局中喉恋,AI早早為手上一對10下了重注沃饶,最后人類玩家同樣選擇棄牌。
據了解轻黑,曾在2015年糊肤,CMU曾組織了首場“大腦對抗人工智能”賽事。在當時的賽事中氓鄙,代表CMU出戰(zhàn)的是另外一款人工智能系統(tǒng)“Claudico”馆揉,同樣也有4名職業(yè)撲克玩家參加了比賽,然而抖拦,Claudico并未獲得最終勝利把介。
不過CMU學認為,當時撲克職業(yè)玩家與Claudico僅進行了8萬手牌的比賽蟋座,就統(tǒng)計學角度來講并無法證明人類職業(yè)撲克玩家或人工智能具有優(yōu)勢拗踢。這也是本輪巡回賽中比賽的牌局數量增加50%的原因。
一些人可能不知道德州撲克的玩法:每個玩家有2張牌作為“底牌”向臀,同時還有5張公共牌巢墅。玩家選擇5張公共牌里的3張,與手里的2張底牌組合,最后以期得到最好的5張牌的組合君纫。按照“Card Ranking”決定最后的勝者驯遇。在這種情況下,由于對方的“底牌信息”是隱藏信息蓄髓,對于計算機來說叉庐,就是在處理一種“非完整信息博弈”。而圍棋對弈雙方的信息是完整的会喝、對稱的陡叠,并沒有隱藏的信息。Libratus此次戰(zhàn)勝頂級人類德州撲克選手肢执,具有非常重要的意義枉阵。
盡管就表面來看,Libratus這次奪魁像是阿爾法狗戰(zhàn)勝李世石的翻版预茄,無非是再一次證明了人類玩游戲玩不過計算機兴溜。但事實上,解決棋類和解決撲克這兩個問題對人工智能而言耻陕,性質和路徑非常不同拙徽。
就路徑來看,我們已經發(fā)現(xiàn)相比起孕育在時髦的深度學習土壤中的阿爾法狗诗宣,Libratus或許更加像一個依賴超算能力的“經典人工智能”(Good Old-Fashioned Artificial Intelligence)斋攀。除此之外,阿爾法狗通過計算每一步的勝率來進行決策梧田,但Libratus面臨的決策情景則復雜得多淳蔼,為此,開發(fā)者不得不引入博弈論來對問題進行處理裁眯。
這也是人類在德州撲克陣地上比圍棋多撐了一會兒的原因鹉梨。此前20年間被人工智能攻克的西洋雙陸棋、跳棋穿稳、國際象棋和圍棋都是“完美信息”游戲存皂,所有玩家在游戲中能獲得的確定性信息是對稱的。人工智能掌握這些游戲的難度逢艘,主要取決于游戲中需要做出的決策點(decision points)的數量旦袋,這決定了計算機需要的計算量。圍棋是上述幾種棋類中決策點數量最多的它改,因而也是最后被人工智能掌握的疤孕。一盤圍棋游戲約包含有10的170次方個決策點。
而計算機之父馮?諾依曼說過央拖,“現(xiàn)實世界與此不同祭阀,現(xiàn)實世界包含有很多賭博鹉戚、欺騙的戰(zhàn)術,還涉及你會思考別人會認為你將做什么专控∧ǖ剩”德州撲克就是這樣一種更接近現(xiàn)實世界的“非完美信息”游戲,玩家只掌握不對稱的信息伦腐,他不知道對手手中是什么牌赢底,不知道五張公共牌會開出怎樣的結果,也不知道對手猜測自己握有怎樣的手牌柏蘑。這些問題在計算范圍之內幸冻。
因此,雖然一對一無限注德?lián)溆螒蛑邪?0的160次方個決策點辩越,要少于圍棋,但它對人工智能的推理能力提出了更高的要求信粮。
而通過博弈論讓人工智能學會找到平衡風險與收益的方法黔攒,不僅會在牌桌上贏得籌碼,也將在現(xiàn)實生活中找到用武之地强缘。這也是匹茲堡超算中心同意與桑德霍姆合作的原因督惰。畢竟商業(yè)談判、網絡安全旅掂、出租車自動駕駛赏胚、機器人規(guī)劃、醫(yī)療規(guī)劃等領域都需要在“不完美信息”情景中做出決策商虐。諾姆?布朗認為觉阅,現(xiàn)在人工智能已經在圍棋、撲克等特定任務上媲美甚至超過人類秘车,但我們最終追求的是能像人類一樣適應現(xiàn)實生活中各種不確定性和完成各種任務的通用人工智能(GAI)典勇,而Libratus就在應對不確定性這個問題上走出了關鍵一步。從這個意義上說叮趴,會玩德州撲克的AI或許比會下圍棋的AI更有用割笙。