貝葉斯——納什均衡是博弈論中的一個(gè)重要概念梢杭。為使邏輯表述方便,我們?nèi)?b>二人博弈來講解栏账。在一般情況下遏乔,博弈的雙方都有一套屬于自己的策略集,像是剪刀石頭布一樣发笔,博弈雙方作為局中人,是不知道在接下來的猜拳中凉翻,對方會(huì)出哪種手勢了讨,但如果知道對方出各種手勢的概率,那么自己可以針對對方出各種手勢的概率來定出自出哪種手勢贏的概率大制轰,如果可以量化的話前计,可以認(rèn)為這是使自己的期望收益最大化。
下圖是本文框架:
在講解貝葉斯納什均衡之前垃杖,我們先來看貝葉斯公式和納什均衡分別是啥男杈。
【貝葉斯公式】
在概率論中,條件概率P(A|B)表示在事件B發(fā)生的情況下事件A發(fā)生的概率调俘,而先驗(yàn)概率P(A)和P(B)表示事件A伶棒、B本身發(fā)生的概率。
為了方便理解彩库,我們回想下我們?nèi)粘I钪惺侨绾闻袆e一個(gè)人是好人還是壞人的肤无。
在純理性的情況下,我們先認(rèn)定骇钦,壞人做好事宛渐、好人做好事的概率各為0.5。那么現(xiàn)在提出一個(gè)問題:如果我們看到街上有一個(gè)人做了好事眯搭,他是好人的概率是多少窥翩?
如果按照目前的判斷,這個(gè)概率應(yīng)該是50%鳞仙。
但是寇蚊,日常生活經(jīng)驗(yàn)告訴我們,好人自然是一定會(huì)做好事的繁扎,那么我們就有了一個(gè)條件概率:
此時(shí)我們依然認(rèn)為壞人做好事的概率為0.5
現(xiàn)在再設(shè)定幔荒,我們在大街上遇到好人的概率和遇到壞人的概率各為0.5
那么糊闽,一個(gè)人做了好事的概率P(B)應(yīng)該為多少呢?我們可以通過把好人做好事的概率加上壞人做好事的概率來計(jì)算P(B)
即
依據(jù)貝葉斯公式爹梁,我們現(xiàn)在得到右犹,如果看到一個(gè)人做好事,這人是好人的概率為:
顯然2/3要大于0.5姚垃,說明念链,當(dāng)我們加入了日常生活經(jīng)驗(yàn)后,判定一個(gè)做了好事的人是好人的概率就增加了积糯,這個(gè)2/3的概率也被稱為后驗(yàn)概率掂墓。
簡單而不嚴(yán)謹(jǐn)?shù)乜偨Y(jié)下這里貝葉斯公式的作用:當(dāng)被研究對象的信息點(diǎn)增加后,可以用貝葉斯公式去修正先驗(yàn)概率看成,從而獲得更加準(zhǔn)確的后驗(yàn)概率君编。
有一點(diǎn)很值得我們注意,在貝葉斯公式里川慌,等號(hào)左邊的概率P(A|B)是P(A)的后驗(yàn)概率吃嘿,表示對P(A)這個(gè)概率的修正!這點(diǎn)對后面的精煉貝葉斯納什均衡起到關(guān)鍵的作用梦重。
【納什均衡】
在博弈時(shí)兑燥,對陣雙方均有自己的策略集合,每個(gè)策略集合都對應(yīng)著自己的利益得失琴拧,以博弈論中最常見的一個(gè)囚徒困境為例:
兩名囚徒(共犯)被警察蜀黍捉住降瞳,分別被關(guān)在兩件刑訊室里,如果兩名囚徒均認(rèn)罪蚓胸,則兩人都被關(guān)3年有期徒刑挣饥;如果兩人不認(rèn)罪,則兩人都被關(guān)1年沛膳;如果一方認(rèn)罪亮靴,一方不認(rèn)罪,則認(rèn)罪那方獲得釋放于置,而不認(rèn)罪那方要被關(guān)5年茧吊。
囚徒的收益矩陣見下表:
其中的“認(rèn)罪”和“不認(rèn)罪”是囚犯的策略集,各個(gè)數(shù)字表示囚犯在每種策略組合下要被判刑的年數(shù)八毯。逗號(hào)左邊對應(yīng)B的判刑年數(shù)搓侄,右邊對應(yīng)A的判刑年數(shù)。
我們通過求納什均衡的方法來理解何為納什均衡吧话速。求納什均衡的常用辦法是劃線法讶踪。
首先看囚徒A,當(dāng)囚徒B選擇“認(rèn)罪”時(shí)泊交,A會(huì)選擇“認(rèn)罪”乳讥,這時(shí)A只被判3年(在A認(rèn)罪的“3”處劃線)柱查;當(dāng)囚徒B選擇“不認(rèn)罪”時(shí),A還是會(huì)選擇“認(rèn)罪”云石,這時(shí)A會(huì)被釋放(在A的認(rèn)罪的“0”處劃線)唉工。
囚徒B與囚徒A的選擇是一樣的,不論A是“認(rèn)罪”還是“不認(rèn)罪”汹忠,B選“認(rèn)罪”被判的年數(shù)都會(huì)少于選擇“不認(rèn)罪”的年數(shù)淋硝,相應(yīng)的,在B認(rèn)罪的“3”和“0”處劃線宽菜。
我們把上面兩個(gè)表合在一起:
只有策略集(認(rèn)罪谣膳,認(rèn)罪)是都有劃線的,那么這個(gè)策略集就是納什均衡铅乡。
我們可以發(fā)現(xiàn)继谚,對囚徒A或B,不論對方選擇哪種策略阵幸,劃線的都是對自己最有利的那個(gè)策略犬庇,而滿足使兩方收益都最大的策略集,就是納什均衡侨嘀。如果任何一方改變自己的策略,這都會(huì)使自己的利益受損捂襟。
納什均衡的定義如下:
在一場博弈中咬腕,局中每個(gè)參與者的均衡策略都是為了達(dá)到自己期望收益的最大值,且每個(gè)理性的參與者都不會(huì)有單獨(dú)改變策略而增加自己收益的動(dòng)機(jī)葬荷。由所有參與人的最優(yōu)策略組成的策略組合涨共,稱為納什均衡。
【貝葉斯納什均衡】
在前面的囚徒困境中宠漩,囚徒A和囚徒B都是知道對方的策略集和收益情況的举反,這種博弈成為完全信息博弈,但是扒吁,在一些情況下火鼻,對方選擇兩個(gè)策略的可能性是不確定的,我們舉個(gè)栗子
在一個(gè)寡頭市場中雕崩,廠商A具有壟斷市場的地位魁索,而廠商B想進(jìn)入這個(gè)市場。廠商A會(huì)有兩種選擇盼铁,一是阻擾粗蔚,而是允許。A選擇哪種饶火,取決于A分別要為這兩種方案付出的成本高低鹏控。如果阻擾成本高致扯,則A會(huì)允許B進(jìn)入市場;如果阻擾成本低当辐,則A會(huì)阻止B進(jìn)入市場抖僵。
相應(yīng)的,假定當(dāng)A讓B進(jìn)入市場瀑构,B收益為40億元裆针,而當(dāng)A阻擾B進(jìn)入市場,B會(huì)虧損10億元寺晌。
在這種情況下世吨,因?yàn)閺S商B不知道廠商A各個(gè)方案的成本,所以B無法判定A會(huì)選擇哪種方案呻征。但現(xiàn)在如果加入了概率這一變量的話耘婚,廠商B就可以做出相應(yīng)的決策了。
設(shè)廠商A阻擾成本高的概率為x陆赋,阻擾成本低的概率為(1-x)沐祷,那么,廠商B的收益期望為:
當(dāng)E(x)=0時(shí)攒岛,x的值為0.2赖临,顯然,廠商A阻擾成本高的概率大于0.2時(shí)灾锯,廠商B的收益就為正兢榨,在不考慮其他因素的情況下,廠商B會(huì)選擇進(jìn)入市場顺饮。
在這個(gè)例子中吵聪,廠商B是沒有足夠充分的理由去考慮廠商A選擇每一個(gè)方案時(shí)自己應(yīng)當(dāng)選擇怎樣的策略,其僅僅是通過分析對方的概率分布來確定自己的最佳策略兼雄,目的是讓自己的期望收益最大化吟逝。不像囚徒困境,兩個(gè)囚徒都知道對方的策略以及相應(yīng)的收益赦肋,從而能判定不管對方選擇“認(rèn)罪”還是“不認(rèn)罪”块攒,自己的最佳方案也都是“認(rèn)罪”。
廠商A和B的這種博弈成為不完全信息博弈佃乘。這種博弈是指參與者對其他人的特征局蚀、策略、收益信息了解得不夠準(zhǔn)確恕稠,博弈參與者對于對手的收益函數(shù)沒有完全信息琅绅。
貝葉斯納什均衡就是指在這種不完全信息博弈中,在給定自己和其他參與者類型(“阻擾”/“允許”)的概率分布下鹅巍,每個(gè)參與者的期望效用達(dá)到了最大化千扶,從而沒有參與者愿意改變自己的行為或策略料祠。
【精煉貝葉斯納什均衡】
貝葉斯納什均衡是不完全信息靜態(tài)博弈的策略組合,對于不完全信息的動(dòng)態(tài)博弈澎羞,就需要精煉貝葉斯納什均衡了髓绽。
前面所講的博弈均是靜態(tài)博弈,是指博弈中參與者同時(shí)行動(dòng)妆绞,或者參與者行動(dòng)有先后顺呕,但是后行動(dòng)者不知道前行動(dòng)者采取了怎樣的行動(dòng)。
動(dòng)態(tài)博弈就是這后參與者知道前參與者的行動(dòng)括饶,可以依此來做出更適合的策略選擇株茶。在這種情況下,前行動(dòng)者的行動(dòng)會(huì)更新后行動(dòng)者的選擇空間图焰,相應(yīng)的启盛,前一輪的最優(yōu)決策在這一輪可能不再是最優(yōu)了。
參與者的每個(gè)行動(dòng)依賴于其所屬的類型技羔,就像是前面“好人做好事”的例子僵闯,一個(gè)人做好事(行動(dòng))和其是不是好人(類型)是有關(guān)系的。后行動(dòng)者希望通過前行動(dòng)者的行為來推測其屬于哪種類型藤滥,并由此做出利己的決策鳖粟。當(dāng)然,后行動(dòng)者只能獲得概率上的推算了拙绊。
那么向图,后行動(dòng)者的方案選擇概率是如何更新的呢?答案就是时呀,用貝葉斯法則從前行動(dòng)者的行為中獲取到后驗(yàn)概率,得到更新后方案的概率分布晶默。在貝葉斯公式里用符號(hào)來表示概率的更新就是
現(xiàn)在我們?nèi)∏懊鎻S商的例子谨娜,廠商A是這個(gè)寡頭市場的在位者,廠商B是進(jìn)入者磺陡。
在博弈的過程中趴梢,B是想知道A的類型究竟是高成本還是低成本,也就是A高成本的概率有多大币他。
在第一輪博弈之前坞靶,假定B對A的類型與行為的概率初步判斷如下:
數(shù)字表示發(fā)生的概率,注意阻擾的概率是基于高低成本已發(fā)生才確認(rèn)出來的
由此我們可以推算B受阻擾的概率為
這個(gè)阻擾概率是在博弈之前推算的蝴悉,屬于先驗(yàn)概率彰阴。
第一輪博弈后,B收到了阻擾拍冠,這時(shí)尿这,B受阻擾的概率就可以更新了簇抵,我們可以算出在阻擾的情況下,A高成本的概率為:
這時(shí)射众,B原本認(rèn)為A屬于高成本的概率就會(huì)從0.7變?yōu)?.32(更新了)碟摆。
此時(shí)的概率情況如下所示
我們觀察下所用的貝葉斯計(jì)算等式,可以發(fā)現(xiàn)叨橱,公式里起到更新作用的(新加進(jìn)來的)典蜕,正是阻擾的概率P(阻擾),這是基于第一輪B受阻擾這一事實(shí)而提出來的罗洗。
現(xiàn)在進(jìn)行第二輪博弈愉舔,B還是受到了阻擾,所以栖博,B受阻的概率為:
相應(yīng)的屑宠,在受阻擾的前提下,B認(rèn)為A屬于高成本的概率又得到了更新:
結(jié)果:在先后兩輪博弈中仇让,B認(rèn)為A屬于高成本的概率由0.7變?yōu)?.32再變?yōu)?.086典奉,那么可以認(rèn)為,A是不屬于高成本類型的廠商丧叽,理智的B應(yīng)當(dāng)選擇不進(jìn)入市場卫玖。
精煉貝葉斯納什均衡的博弈就是這樣的一個(gè)動(dòng)態(tài)過程,由于有多輪博弈踊淳,行動(dòng)者會(huì)根據(jù)其他參與人的行動(dòng)來更新自己各項(xiàng)策略的概率分布假瞬,讓自己做出是收益期望最大化的決策。
精煉貝葉斯納什均衡定義如下:
精煉貝葉斯均衡是所有參與人策略和信念的一種結(jié)合迂尝。它滿足如下條件:第一脱茉,在給定每個(gè)參與人有關(guān)其他參與人類型的信念的條件下,該參與人的戰(zhàn)略選擇是最優(yōu)的垄开。第二琴许,每個(gè)參與人關(guān)于其他參與人所屬類型的信念,都是使用貝葉斯法則從所觀察到的行為中獲得的溉躲。
對精煉貝葉斯納什均衡的講解到這里就結(jié)束啦榜田,更多文章歡迎關(guān)注公眾號(hào)“正羊羊部落”