博弈論-囚徒困境與重復(fù)囚徒困境的啟示
“囚徒困境”
囚徒困境(prisoner’s dilemma):討論的是兩個(gè)被捕的囚徒之間的一種博弈,它闡明了為什么“在合作對(duì)雙方都有利時(shí)馒铃,保持合作也是困難的”。
囚徒困境的故事講的是煌珊,兩個(gè)嫌疑犯作案后被警察抓住,分別關(guān)在不同的屋子里接受審訊泌豆。警察知道兩人有罪定庵,但缺乏足夠的證據(jù)。警察告訴每個(gè)人:如果兩人都抵賴踪危,各判刑一年蔬浙;如果兩人都坦白,各判八年贞远;如果兩人中一個(gè)坦白而另一個(gè)抵賴畴博,坦白的放出去,抵賴的判十年蓝仲。于是绎晃,每個(gè)囚徒都面臨兩種選擇:坦白或抵賴蜜唾。
? ? ? ? ? ? ?B-坦白? ? ? B-抵賴
A-坦白? ? 8? , 8 ? ? ? ? 0, 10
A-抵賴? ? 10, 0 ? ? ? ? 1, 1
然而,不管同伙選擇什么庶艾,每個(gè)囚徒的最優(yōu)選擇是坦白:如果同伙抵賴、自己坦白的話放出去擎勘,不坦白的話判一年咱揍,坦白比不坦白好;如果同伙坦白棚饵、自己坦白的話判八年煤裙,不坦白的話判十年,坦白還是比不坦白好噪漾。最終的結(jié)果硼砰,兩個(gè)嫌疑犯都選擇坦白,各判刑八年欣硼。
在囚徒困境中题翰,如果兩人選擇合作,即兩人都抵賴诈胜,各判一年豹障,顯然是最好的結(jié)果。但由于大家都優(yōu)先考慮自己的最優(yōu)選擇焦匈,導(dǎo)致了最終整體選擇并不是最好的血公。
囚徒困境所反映出的深刻問(wèn)題是,個(gè)人利益的最大化并不能保證集體利益的最大化缓熟,自以為聰明的人可能會(huì)作繭自縛累魔。
“重復(fù)囚徒困境”與“艾克斯羅德博弈論實(shí)驗(yàn)”
囚徒困境是一個(gè)一次性的博弈實(shí)驗(yàn),如果增加博弈的次數(shù)够滑,讓每個(gè)參與者都有機(jī)會(huì)去“懲罰”對(duì)方前一個(gè)回合的行為垦写,此時(shí)每個(gè)參與者的決策可能會(huì)發(fā)生變化。其中最有名的實(shí)驗(yàn)?zāi)^(guò)于艾克斯羅德的博弈實(shí)驗(yàn)版述。
艾克斯羅德組織了一場(chǎng)計(jì)算機(jī)競(jìng)賽:任何想?yún)⒓舆@個(gè)計(jì)算機(jī)競(jìng)賽的人都扮演“囚徒困境”案例中一個(gè)囚犯的角色梯澜。他們把自己的策略編入計(jì)算機(jī)程序,然后隨機(jī)的與其他人進(jìn)行囚徒困境博弈渴析,每次博弈完畢后會(huì)獲得一定的分?jǐn)?shù)晚伙,并且每個(gè)人在進(jìn)行博弈前都能夠清楚的知道對(duì)方的歷史博弈情況,每個(gè)參賽選手都會(huì)進(jìn)行200次博弈對(duì)決俭茧。
博弈分?jǐn)?shù)的設(shè)計(jì)如下:
? ? ? ? ? ? ? ? 對(duì)方-好意? ? 對(duì)方-惡意
自己-好意? ?2咆疗,2? ? ? ? ? ?0,3
自己-惡意? ?3母债,0? ? ? ? ? ?1午磁,1
初看會(huì)發(fā)現(xiàn)尝抖,如果這是一個(gè)一次性博弈,不管對(duì)方選擇好意還是惡意迅皇,自己選擇惡意都是最優(yōu)的昧辽,都將贏得更高的分?jǐn)?shù)。但如果每個(gè)人都這么想登颓,每次博弈大家都只增加1分搅荞,每個(gè)人分?jǐn)?shù)的增長(zhǎng)都會(huì)非常的緩慢。實(shí)驗(yàn)的最終結(jié)果是怎么樣的呢框咙?采取什么策略會(huì)贏得最高的分?jǐn)?shù)呢咕痛?
“艾克斯羅德博弈論實(shí)驗(yàn)”的結(jié)果
艾克斯羅德博弈論實(shí)驗(yàn),計(jì)算機(jī)競(jìng)賽提交上來(lái)的程序包含了各種復(fù)雜的策略喇嘱。讓人感到吃驚的是茉贡,競(jìng)賽的桂冠屬于其中最簡(jiǎn)單的策略:一報(bào)還一報(bào)(TIT FOR TAT)。這是多倫多大學(xué)心理學(xué)家阿納托拉帕波特提交上來(lái)的策略者铜。
一報(bào)還一報(bào)的策略是這樣的:
1)它總是以合作開(kāi)局
2)但從此以后就采取以其人之道還治其人之身的策略
這個(gè)策略永遠(yuǎn)不先背叛對(duì)方腔丧,從這個(gè)意義上來(lái)說(shuō)它是“善意的”。它會(huì)在下一輪中對(duì)對(duì)手的前一次合作給予回報(bào)(哪怕以前這個(gè)對(duì)手曾經(jīng)背叛過(guò)它)王暗,從這個(gè)意義上來(lái)說(shuō)它是“寬容的”悔据。但它會(huì)采取背叛的行動(dòng)來(lái)懲罰對(duì)手前一次的背叛,從這個(gè)意義上來(lái)說(shuō)它又是“強(qiáng)硬的”俗壹。而且科汗,它的策略極為簡(jiǎn)單,對(duì)手程序一望便知其用意何在绷雏,從這個(gè)意義來(lái)說(shuō)它又是“簡(jiǎn)單的”头滔。
為了證明一報(bào)還一報(bào)策略的勝利不只是一種僥幸,艾克斯羅德又舉行了多場(chǎng)競(jìng)賽涎显,并邀請(qǐng)了更多的人坤检,但這個(gè)策略一次又一次的奪魁,競(jìng)賽的結(jié)論無(wú)可爭(zhēng)議期吓。
重復(fù)囚徒困境結(jié)論
人的一生中會(huì)有非常多次的選擇早歇,有時(shí)候吃虧,有時(shí)候占了便宜讨勤。善意的決策可能吃虧箭跳,又或者惡意的背叛可能占便宜,但所有的過(guò)往潭千,都會(huì)成為別人今后和你合作時(shí)進(jìn)行決策的依據(jù)谱姓。
好人,更確切地說(shuō)刨晴,具備以下特點(diǎn)的人屉来,將會(huì)成為最終的贏家:
1)善意的:ta不會(huì)首先背叛別人
2)寬容的:別人曾經(jīng)背叛過(guò)ta路翻,但前一次合作是善意的,ta會(huì)原諒別人
3)強(qiáng)硬的:前一次合作背叛了ta茄靠,ta下一次合作會(huì)進(jìn)行懲罰
4)簡(jiǎn)單純粹的:簡(jiǎn)單純粹的原則讓彼此都更加輕松
來(lái)源:?<http://www.habadog.com/2014/09/29/game-theory-the-prisoners-dilemma-and-repeated-prisoners-dilemma/>