我們先來思考一個(gè)小問題:
Rex和Hulk兩人猜拳,規(guī)定連續(xù)兩局不能出的一樣绍哎,在我們都十分理智的情況下(一般也是如此)来农,第一把是剪刀平局,最后會(huì)如何崇堰?
說起博弈論(game theory)沃于,我就會(huì)想到各種各樣的“智力游戲“,它們往往能讓我一番推理之后恍然大悟海诲,感覺以后或許可以用上(并不)揽涮。
這里提到的博弈論,是現(xiàn)代數(shù)學(xué)的一個(gè)分支饿肺,它和我們?nèi)粘C鎸?duì)的蒋困,今晚吃啥這類選擇題完全不同。博弈論總是以參與者絕對(duì)理性為前提敬辣,它可能看起來很貼近生活雪标,有很多細(xì)節(jié)和可能性,但問題里的骨架卻是封閉的溉跃,這是一門十分嚴(yán)謹(jǐn)?shù)目茖W(xué)村刨。
納什均衡
納什均衡(Nash equilibrium)由美國(guó)數(shù)學(xué)家納什提出,在多人博弈的時(shí)候撰茎,如果其他人不改變策略嵌牺,不論我怎么改變也不能增加收益,所有人都是這樣,也就達(dá)到了納什均衡逆粹。換句話說募疮,納什均衡實(shí)現(xiàn)了整體利益的最大化。
想要達(dá)到納什均衡蹋绽,找到整體最優(yōu)的方案芭毙,最重要的一點(diǎn)就是共享信息。
我們拿出最為著名的囚徒困境舉例:
警察抓了兩個(gè)嫌疑犯卸耘,在他們沒有事先串口供的情況下退敦,分開審問。如果兩個(gè)罪犯都沉默蚣抗,各判1年侈百;互相揭發(fā),各判8年忠聚;如果一個(gè)揭發(fā)一個(gè)沉默,那么揭發(fā)的那個(gè)釋放唱捣,沉默的那個(gè)判10年两蟀。AB怎么選擇才對(duì)自己最有利?
直接看表:
A沉默A揭發(fā)B
B沉默A震缭、B各1年A釋放赂毯,B判10年
B揭發(fā)AA判10年,B釋放A拣宰、B各8年
細(xì)細(xì)品味這個(gè)表党涕,不難發(fā)現(xiàn):
對(duì)于A來說,B如果沉默巡社,A應(yīng)該選擇揭發(fā)B(A會(huì)被釋放)膛堤,B如果揭發(fā)A,A還是應(yīng)該揭發(fā)B(A會(huì)被判8年而不是10年)晌该,所以A應(yīng)該揭發(fā)B肥荔。對(duì)于B來說也是一樣。
由于A朝群,B事先沒有溝通預(yù)謀燕耿,在不知道對(duì)方怎么選擇的情況下,顯然最優(yōu)方案就是互相揭發(fā)姜胖,于是警方成功判了兩個(gè)犯人8年誉帅。這就是囚徒困境的正常形式。
到這里事情好像就結(jié)束了蚜锨,然而档插,如果審問并不是分開進(jìn)行,而是二人一起踏志,結(jié)果又會(huì)如何呢阀捅?
我們也來看一看。
開始時(shí)A针余,B兩人互不吭聲饲鄙,馬上,在明確了對(duì)方暫未交待的情況下圆雁,A有兩種選擇:
1.????揭發(fā)B忍级,如果沉默B會(huì)被判10年,所以B也會(huì)揭發(fā)A伪朽,結(jié)果兩人都判8年轴咱;
2.????保持沉默,這時(shí)B如果揭發(fā)A烈涮,會(huì)形成1里的結(jié)果朴肺,所以B應(yīng)該選擇更好的方案,也就是同樣保持沉默坚洽。這樣一來戈稿,兩人各判1年。
稍作思考讶舰,A選擇了沉默鞍盗,B當(dāng)然也做出同樣的分析。最后兩人只被各判1年跳昼,整體的納什均衡達(dá)成般甲。
由此可見,納什均衡的達(dá)成需要足夠的信息鹅颊,如果信息不足敷存,人往往就會(huì)做出損人利己的次優(yōu)選擇,而錯(cuò)過利于大局的最優(yōu)方案堪伍。
多階信息
我們已經(jīng)知道历帚,掌握更多信息才能知己知彼,百戰(zhàn)不殆杠娱,但不是所有信息都那么直白挽牢,有時(shí)候看似無用的信息背后還有我們需要的東西。
為了更直白的感受到這一點(diǎn)摊求,讓我們回到文章開頭的猜拳問題:
第一把我和Hulk都出了剪刀禽拔,這是我知道的第一條信息,好像沒有什么卵用;
然后呢睹栖?根據(jù)規(guī)則硫惕,我知道下把我只能出錘子或者布,這是其二野来;
同樣恼除,我知道Hulk下一把也只能出錘子或者布,這是第三條曼氛。
由于我和Hulk都只能出錘子或者布豁辉,出哪一個(gè)更好呢?答案是絕對(duì)的舀患,布贏錘子徽级,出布!終于理順了聊浅,但這還不是最終答案餐抢。
同樣地,Hulk也想到了這一點(diǎn)顽冶。按理來說欺抗,下一把我和Hulk都應(yīng)該出布。聰明的我倆在出完剪刀之后就立即推理出了這一點(diǎn)渗稍。
現(xiàn)在佩迟,我知道Hulk得到了這個(gè)結(jié)論团滥,Hulk也知道我得到了相同的結(jié)論竿屹。更進(jìn)一步,我也知道Hulk知道我得到了這一結(jié)論灸姊。之后拱燃,我們就像兩臺(tái)運(yùn)行著一模一樣程序的超級(jí)電腦,陷入了一種“知道”的循環(huán)力惯,那就是我知道Hulk知道我知道…Hulk知道下一把我倆都應(yīng)該出布碗誉,這是橫向推理。
豎向推理父晶,我可以推出第三把我們都應(yīng)該出石頭(Hulk也會(huì)這樣推理哮缺,他也知道我知道),第四把出剪刀甲喝,第五把出布尝苇,第六把石頭…
好了!既然這樣,游戲的整個(gè)走勢(shì)在第一把出完剪刀之后就已經(jīng)完全確定了糠溜,不僅因?yàn)槲覀z各自推出了結(jié)論淳玩,還因?yàn)槲覀冎缹?duì)方也知道了這個(gè)結(jié)論。
所以誰也不能獲勝非竿,第一把是平局的話游戲就沒有進(jìn)行的必要了蜕着,聰明的我倆壓根不會(huì)進(jìn)行第二輪劃拳。這個(gè)決定红柱,僅憑前三條信息是得不出來的承匣,也就是說,我知道這些還不夠豹芯,我還得知道“他知道”悄雅。
在這個(gè)小問題里,前三條信息我們看作是一階信息(我直接知道的事)铁蹈,而“我知道Hulk知道xxx”宽闲,是一個(gè)二階信息。以此類推握牧,“我知道他知道我知道xxx”是三階信息容诬,但是游戲一共只有兩人參加,所以大于二階的信息和二階是等效的沿腰。
當(dāng)然览徒,你也可以試著分析不同情況下,囚徒困境里的信息階數(shù)颂龙。
共識(shí)
如果你已經(jīng)完全理解了多階信息的意思习蓬,那我們就可以開始最后一個(gè)問題的推理了(難)。
藍(lán)眼人問題:
有一個(gè)島上住著1000個(gè)島民措嵌。其中900個(gè)是紅眼躲叼,100個(gè)是藍(lán)眼。島上的人無法知道自己眼睛的顏色企巢,也不準(zhǔn)談?wù)撗劬Φ念伾憧丁3鲇谧诮淘颍瑣u民一旦知道自己眼睛的顏色浪规,就會(huì)在第二天自殺或听。一天,島上來了一個(gè)藍(lán)眼睛游客笋婿,由于不知道島上的規(guī)矩誉裆,他在一次全島民的聚會(huì)中說:“很高興看到這里有和我一樣是藍(lán)眼睛的人「妆簦“
假設(shè)島民足夠聰明, 具有完全理性足丢,游客的話會(huì)產(chǎn)生什么后果元镀?
有了前面的基礎(chǔ)脆淹,我們直接跳到邏輯里去。
假如我是其中一個(gè)藍(lán)眼人1號(hào)汞斧,通過互相觀察滔驶,我可以知道2號(hào)是藍(lán)眼遇革,2號(hào)也可以知道3號(hào)是,3號(hào)知道4號(hào)…這些是一階信息揭糕;接著我也知道2號(hào)知道3號(hào)是藍(lán)眼萝快,這是二階;一直往后著角,我能知道2號(hào)知道3號(hào)知道…知道100號(hào)是藍(lán)眼揪漩,這是99階信息。
怎么少了一階吏口?因?yàn)椤?00號(hào)知道我是藍(lán)眼“是我無法確定的事奄容,畢竟我不知道自己眼睛的顏色。但是我能肯定其他99個(gè)人都能看到至少98個(gè)藍(lán)眼人产徊,只是他們暫時(shí)不知道自己也是藍(lán)眼人昂勒。
這時(shí)推理就開始了。
假如島上只有1個(gè)藍(lán)眼人(與事實(shí)不符)舟铜,游客說完話之后他也就知道了自己眼睛的顏色戈盈,那么他會(huì)在之后一天自殺,自殺由一階信息導(dǎo)致谆刨。
如果有2個(gè)(與事實(shí)不符)塘娶,一天后他們會(huì)觀察對(duì)方是否自殺,如果對(duì)方自殺痊夭,那么他是唯一的藍(lán)眼人刁岸,理由同上;如果不是生兆,說明對(duì)方還看到了一個(gè)我沒看到的藍(lán)眼人难捌,那這個(gè)藍(lán)眼人只可能是我自己膝宁!于是“我知道了他知道我是藍(lán)眼人“這個(gè)二階信息鸦难,兩人可以做出同樣的推理,于是第二天兩人一起自殺员淫。
我殺我自己 合蔽。我們用的是藍(lán)眼~? credit: B站up主 薛定餓了嗎
如果有99個(gè)藍(lán)眼人(與我看到的相符),99天后還是無事發(fā)生介返,這時(shí)我獲得了一個(gè)一百階信息拴事,那就是“2號(hào)知道3號(hào)知道…知道100號(hào)知道我(1號(hào))是藍(lán)眼人“沃斤!其他99人可以做出同樣的推理,這時(shí)100個(gè)藍(lán)眼人都確定了自己眼睛的顏色刃宵,于是在第100天一起自殺衡瓶,這也就是問題的答案。
到這里牲证,我們終于做完了所有的思考題哮针,興奮之余,我們把不同階數(shù)的信息做一個(gè)分類坦袍。
如果有 n 個(gè)人十厢,每個(gè)人都知道的 n 階信息被叫做?Common knowledge(袁嵐峰博士譯作強(qiáng)共識(shí)),少于 n 階的信息被叫做?Mutual knowledge捂齐,譯作弱共識(shí)蛮放。
在藍(lán)眼人問題里,游客說話之前奠宜,“島上有藍(lán)眼人“在100個(gè)藍(lán)眼人圈子里還是一個(gè)弱共識(shí)包颁,只有99階,即大家都知道压真,但不確定別人知不知道自己徘六;游客說話之后第99天,這句話變成了強(qiáng)共識(shí)榴都,這時(shí)大家都知道所有人的眼睛顏色待锈。所以游客帶來的信息是一個(gè)99天后才能獲得的,高達(dá)100階的信息嘴高。
這個(gè)故事也告訴我們竿音,只要善于挖掘信息背后的信息,就可以準(zhǔn)確推算出自己去世的時(shí)……好像不太對(duì)拴驮?
##閱讀原文春瞬,看看袁嵐峰博士是怎么解釋藍(lán)眼人問題的
參考資料
https://en.wikipedia.org/wiki/Game_theory
https://www.youtube.com/watch?v=27GIGEygzyo
https://en.wikipedia.org/wiki/Mutual_knowledge
https://en.wikipedia.org/wiki/Nash_equilibrium
https://www.bilibili.com/video/av30113899/