博弈論(Game Theory)豌熄,博弈論是指研究多個(gè)個(gè)體或團(tuán)隊(duì)之間在特定條件制約下的對局中利用相關(guān)方的策略授嘀,而實(shí)施對應(yīng)策略的學(xué)科。有時(shí)也稱為對策論锣险,或者賽局理論蹄皱,是研究具有斗爭或競爭性質(zhì)現(xiàn)象的理論和方法,它是應(yīng)用數(shù)學(xué)的一個(gè)分支囱持,既是現(xiàn)代數(shù)學(xué)的一個(gè)新分支夯接,也是運(yùn)籌學(xué)的一個(gè)重要學(xué)科焕济。目前在生物學(xué)纷妆、經(jīng)濟(jì)學(xué)、國際關(guān)系學(xué)晴弃、計(jì)算機(jī)科學(xué)掩幢、政治學(xué)、軍事戰(zhàn)略和其他很多學(xué)科都有廣泛的應(yīng)用上鞠。主要研究公式化了的激勵(lì)結(jié)構(gòu)(游戲或者博弈(Game))間的相互作用际邻。
合作博弈和非合作博弈
合作博弈和非合作博弈的區(qū)別在于相互發(fā)生作用的當(dāng)事人之間有沒有一個(gè)具有約束力的協(xié)議,如果有芍阎,就是合作博弈世曾,如果沒有,就是非合作博弈谴咸。
靜態(tài)博弈和動(dòng)態(tài)博弈
從決策行為的時(shí)間序列來看轮听,博弈可以分為靜態(tài)博弈和動(dòng)態(tài)博弈骗露。靜態(tài)博弈是指在博弈中,參與人同時(shí)選擇或雖非同時(shí)選擇但后行動(dòng)者并不知道先行動(dòng)者采取了什么具體行動(dòng)血巍;動(dòng)態(tài)博弈是指在博弈中萧锉,參與人的行動(dòng)有先后順序,且后行動(dòng)者能夠觀察到先行動(dòng)者所選擇的行動(dòng)述寡。通俗的理解:"囚徒困境"就是同時(shí)決策的柿隙,屬于靜態(tài)博弈;而棋牌類游戲等決策或行動(dòng)有先后次序的鲫凶,屬于動(dòng)態(tài)博弈禀崖。
按照參與人對其他參與人的了解程度分為完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈過程中掀序,每一位參與人對其他參與人的特征帆焕、策略空間及收益函數(shù)(也叫支付)有準(zhǔn)確的信息。不完全信息博弈是指如果參與人對其他參與人的特征不恭、策略空間及收益函數(shù)信息了解的不夠準(zhǔn)確叶雹、或者不是對所有參與人的特征、策略空間及收益函數(shù)都有準(zhǔn)確的信息换吧,在這種情況下進(jìn)行的博弈就是不完全信息博弈折晦。
1納什均衡(Nash Equilibrium)
在一策略組合中,所有的參與者面臨這樣一種情況沾瓦,當(dāng)其他人不改變策略時(shí)满着,他此時(shí)的策略是最好的。也就是說贯莺,此時(shí)如果他改變策略他的支付將會(huì)降低风喇。在納什均衡點(diǎn)上,每一個(gè)理性的參與者都不會(huì)有單獨(dú)改變策略的沖動(dòng)缕探。納什均衡點(diǎn)存在性證明的前提是“博弈均衡偶”概念的提出魂莫。所謂“均衡偶”是在二人零和博弈中,當(dāng)局中人A采取其最優(yōu)策略a*,局中人B也采取其最優(yōu)策略b*,如果局中人B仍采取b*,而局中人A卻采取另一種策略a爹耗,那么局中人A的支付不會(huì)超過他采取原來的策略a*的支付耙考。這一結(jié)果對局中人B亦是如此
2納什定理
任何具有有限純策略的二人博弈至少有一個(gè)均衡偶。這一均衡偶就稱為納什均衡點(diǎn)潭兽。但納什均衡點(diǎn)定義只局限于任何局中人不想單方面變換策略倦始,而忽視了其他局中人改變策略的可能性,因此山卦,在很多情況下鞋邑,納什均衡點(diǎn)的結(jié)論缺乏說服力,研究者們形象地稱之為“天真可愛的納什均衡點(diǎn)”。
3智豬博弈/完全信息靜態(tài)博弈(Boxed pigs Game)
智豬博弈是納什提出的枚碗,假設(shè)豬圈里有一頭大豬藻懒、一頭小豬。豬圈的一頭有豬食槽视译,另一頭安裝著控制豬食供應(yīng)的按鈕嬉荆,按一下按鈕會(huì)有10個(gè)單位的豬食進(jìn)槽,但是誰按按鈕就會(huì)首先付出2個(gè)單位的成本酷含,若大豬先到槽邊鄙早,大小豬吃到食物的收益比是9∶1;同時(shí)到槽邊椅亚,收益比是7∶3限番;小豬先到槽邊,收益比是6∶4呀舔。
在這個(gè)過程中弥虐,小豬有占優(yōu)策略,大豬木有媚赖,小豬等待對它自己是最優(yōu)的霜瘪。
4囚徒困境/非合作博弈(完全信息的靜態(tài)博弈、納什均衡)
1950年惧磺,由就職于蘭德公司的梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關(guān)困境的理論颖对,后來由顧問艾伯特·塔克(AlbertTucker)以囚徒方式闡述,并命名為“囚徒困境”磨隘。經(jīng)典的囚徒困境如下:警方逮捕甲缤底、乙兩名嫌疑犯,但沒有足夠證據(jù)指控二人入罪番捂。于是警方分開囚禁嫌疑犯个唧,分別和二人見面,并向雙方提供以下相同的選擇:若一人認(rèn)罪并作證檢控對方(相關(guān)術(shù)語稱“背叛”對方)设预,而對方保持沉默徙歼,此人將即時(shí)獲釋,沉默者將判監(jiān)10年絮缅。若二人都保持沉默(相關(guān)術(shù)語稱互相“合作”)鲁沥,則二人同樣判監(jiān)1年呼股。若二人都互相檢舉(相關(guān)術(shù)語稱互相“背叛”)耕魄,則二人同樣判監(jiān)8年。
囚徒到底應(yīng)該選擇哪一項(xiàng)策略彭谁,才能將自己個(gè)人的刑期縮至最短吸奴?兩名囚徒由于隔絕監(jiān)禁,并不知道對方選擇;而即使他們能交談则奥,還是未必能夠盡信對方不會(huì)反口考润。就個(gè)人的理性選擇而言,檢舉背叛對方所得刑期读处,總比沉默要來得低糊治。試設(shè)想困境中兩名理性囚徒會(huì)如何作出選擇:若對方沉默時(shí),背叛會(huì)讓我獲釋罚舱,所以會(huì)選擇背叛井辜;若對方背叛指控我,我也要指控對方才能得到較低的刑期管闷,所以也是會(huì)選擇背叛粥脚。二人面對的情況一樣,所以二人的理性思考都會(huì)得出相同的結(jié)論——選擇背叛包个。背叛是兩種策略之中的支配性策略刷允。因此,這場博弈中唯一可能達(dá)到的納什均衡碧囊,就是雙方參與者都背叛對方树灶,結(jié)果二人同樣服刑8年。