在知乎的納什均衡回答里看到這么一個(gè)觀點(diǎn):
1. 三個(gè)火槍手中那句名言:All for one, one for all (人人為我惧浴,我為人人)线婚,我的理解是嗅蔬,貴族武士之間,通過自利和利他的行為實(shí)現(xiàn)共同目的
2. 亞當(dāng)斯密提出invisible hand理論時(shí)候的基本前提:當(dāng)市場(chǎng)中每個(gè)人都進(jìn)行自利行為的時(shí)候淌铐,在客觀上說,市場(chǎng)(或社會(huì))整體的福利會(huì)被提升
而納什均衡恰好否定了前面的觀點(diǎn)蔫缸,我認(rèn)為這也是這一理論如此著名的原因:
當(dāng)市場(chǎng)中每個(gè)人都進(jìn)行自利行為的時(shí)候腿准,在客觀上說,市場(chǎng)(或社會(huì))整體的福利是無法達(dá)到最優(yōu)的拾碌。
納什均衡(Nash equilibrium)吐葱,無一參與者可以通過獨(dú)自行動(dòng)而增加收益的策略組合。
其經(jīng)典的例子就是囚徒困境(Prisoner's Dilemma)校翔。囚徒困境是一個(gè)非零和博弈弟跑,反映個(gè)人最佳選擇并非團(tuán)體最佳選擇》乐ⅲ或者說在一個(gè)群體中孟辑,個(gè)人做出理性選擇卻往往導(dǎo)致集體的非理性。大意是:一個(gè)案子的兩個(gè)嫌疑犯被分開審訊告希,警官分別告訴兩個(gè)囚犯扑浸,如果你招供,而對(duì)方不招供燕偶,則你將被立即釋放喝噪,而對(duì)方將被判刑十年;如果兩人均招供指么,將均被判刑兩年酝惧。如果兩人均不招供榴鼎,將最有利,只被判刑半年晚唇。于是巫财,兩人同時(shí)陷入招供還是不招供的兩難處境。但兩人無法溝通哩陕,于是從各自的利益角度出發(fā)平项,都依據(jù)各自的理性而選擇了招供,這種情況就稱為納什均衡悍及。這時(shí)闽瓢,個(gè)體的理性利益選擇是與整體的理性利益選擇不一致的。
基于經(jīng)濟(jì)學(xué)中“理性經(jīng)濟(jì)人”的前提假設(shè)心赶,兩個(gè)囚犯符合自己利益的選擇是坦白招供扣讼,原本對(duì)雙方都有利的策略不招供從而均被判刑半年就不會(huì)出現(xiàn)。事實(shí)上缨叫,這樣兩人都選擇坦白的策略以及因此被判兩年的結(jié)局被稱作是“納什均衡”(也叫非合作均衡)椭符,換言之,在此情況下耻姥,無一參與者可以“獨(dú)自行動(dòng)”(即單方面改變決定)而增加收獲销钝。
目前經(jīng)濟(jì)學(xué)家們現(xiàn)在所談的博弈論一般是指非合作博弈,由于合作博弈論比非合作博弈論復(fù)雜咏闪,曙搬。非合作博弈又分為:完全信息靜態(tài)博弈,完全信息動(dòng)態(tài)博弈鸽嫂,不完全信息靜態(tài)博弈纵装,不完全信息動(dòng)態(tài)博弈。與上述四種博弈相對(duì)應(yīng)的均衡概念為:納什均衡据某、子博弈精煉納什均衡(subgame perfect Nash equilibrium)橡娄、貝葉斯納什均衡、精煉貝葉斯納什均衡(perfect Bayesian Nash equilibrium)癣籽。
Nash equilibrium 和 Subgame perfect equilibruim區(qū)別
Nash equilibrium 包含Subgame perfect equilibruim挽唉,子博弈完備均衡一定是納什均衡,但有一些納什均衡不一定是子博弈完備均衡筷狼;其次瓶籽,子博弈是基于動(dòng)態(tài)博弈定義的均衡(當(dāng)然納什均衡也可以用于動(dòng)態(tài)),一個(gè)子博弈完備均衡埂材,在它的任何子博弈上也構(gòu)成納什均衡(這是對(duì)納什均衡精練的一個(gè)條件)塑顺,如果一個(gè)納什均衡在其子博弈上不再是納什均衡,那就不是子博弈完備的(所謂在子博弈上的策略組合,就是原博弈的一個(gè)策略組合留存在子博弈上的策略組合)严拒。
從行為的時(shí)間序列性扬绪,博弈論進(jìn)一步分為兩類:
靜態(tài)博弈:在博弈中,參與人同時(shí)選擇裤唠;
動(dòng)態(tài)博弈(Sequential game):也叫序貫博弈挤牛,在博弈中,參與人的行動(dòng)有先后順序种蘸,且后行動(dòng)者能夠觀察到先行動(dòng)者所選擇的行動(dòng)墓赴。常用逆向歸納法(Backward Induction)求解。
通俗的理解:“囚徒困境”就是同時(shí)決策的劈彪,屬于靜態(tài)博弈竣蹦;而象棋、國際象棋沧奴、圍棋等棋牌類游戲決策或行動(dòng)有先后次序的,屬于動(dòng)態(tài)博弈长窄。
囚徒困境的主旨為滔吠,囚徒們彼此合作,堅(jiān)不吐實(shí)挠日,可為全體帶來最佳利益(無罪開釋)疮绷,但在無法溝通的情況下,因?yàn)槌鲑u同伙可為自己帶來利益(縮短刑期)嚣潜,也因?yàn)橥锇炎约赫谐鰜砜蔀樗麕砝妫?b>因此彼此出賣雖違反最佳共同利益冬骚,反而是自己最大利益所在。
單次發(fā)生的囚徒困境懂算,和多次重復(fù)的囚徒困境結(jié)果不會(huì)一樣只冻。
在重復(fù)的囚徒困境中,博弈被反復(fù)地進(jìn)行计技。因而每個(gè)參與者都有機(jī)會(huì)去“懲罰”另一個(gè)參與者前一回合的不合作行為喜德。這時(shí),合作可能會(huì)作為均衡的結(jié)果出現(xiàn)垮媒。欺騙的動(dòng)機(jī)這時(shí)可能被受到懲罰的威脅所克服舍悯,從而可能導(dǎo)向一個(gè)較好的、合作的結(jié)果睡雇。作為反復(fù)接近無限的數(shù)量萌衬,納什均衡趨向于帕雷托最優(yōu)。帕累托最優(yōu)可以是合作博弈它抱,而納什均衡只能是非合作博弈秕豫。
帕雷托最優(yōu)(Pareto optimality),也稱為帕雷托效率(Pareto efficiency)抗愁,是指資源分配的一種理想狀態(tài)馁蒂。給定固有的一群人和可分配的資源呵晚,如果從一種分配狀態(tài)到另一種狀態(tài)的變化中,在沒有使任何人境況變壞的前提下沫屡,使得至少一個(gè)人變得更好饵隙,這就是帕雷托改善。帕雷托最優(yōu)的狀態(tài)就是不可能再有更多的帕雷托改善的狀態(tài)沮脖;換句話說金矛,不可能再改善某些人的境況,而不使任何其他人受損勺届。
需要指出的是驶俊,帕雷托最優(yōu)只是各種理想態(tài)標(biāo)準(zhǔn)中的“最低標(biāo)準(zhǔn)”。也就是說免姿,一種狀態(tài)如果尚未達(dá)到帕雷托最優(yōu)饼酿,那么它一定是不理想的,因?yàn)檫€存在改進(jìn)的余地胚膊,可以在不損害任何人的前提下使某一些人的福利得到提高故俐。但是一種達(dá)到了帕雷托最優(yōu)的狀態(tài)并不一定真的很“理想”。比如說紊婉,假設(shè)一個(gè)社會(huì)里只有一個(gè)百萬富翁和一個(gè)快餓死的乞丐药版,如果這個(gè)百萬富翁拿出自己財(cái)富的萬分之一,就可以使后者免于死亡喻犁。但是因?yàn)檫@樣無償?shù)呢?cái)富轉(zhuǎn)移損害了富翁的福利(假設(shè)這個(gè)乞丐沒有什么可以用于回報(bào)富翁的資源或服務(wù))槽片,所以進(jìn)行這種財(cái)富轉(zhuǎn)移并不是帕雷托改進(jìn),而這個(gè)只有一個(gè)百萬富翁和一個(gè)餓死乞丐的社會(huì)可以被認(rèn)為是帕雷托最優(yōu)的肢础。(這里可以與古典功利主義的標(biāo)準(zhǔn)做一比較还栓。按功利主義的標(biāo)準(zhǔn),理想的狀態(tài)是使人們的福利的總和最大化的狀態(tài)乔妈。如果一個(gè)富翁損失很少的福利蝙云,卻能夠極大地增加乞丐的福利,使其免于死亡路召,那么社會(huì)的福利總和就增加了勃刨,所以從功利主義的角度看,這樣的財(cái)富轉(zhuǎn)移是一種改善股淡,而最初的極端不平等狀態(tài)則是不理想的身隐,因?yàn)樗母@偤洼^低∥椋可以看到贾铝,帕雷托改進(jìn)要求在提高某些人福利的時(shí)候不能減少任何一個(gè)人的福利,而功利主義則允許為了提高福利總和而減少一些人的福利。)
經(jīng)濟(jì)學(xué)理論認(rèn)為垢揩,如果市場(chǎng)是完備的和充分競(jìng)爭(zhēng)的玖绿,市場(chǎng)交換的結(jié)果一定是帕雷托最優(yōu)的,并且會(huì)同時(shí)滿足以下3個(gè)條件:
交換最優(yōu):即使再交易叁巨,個(gè)人也不能從中得到更大的利益斑匪。此時(shí)對(duì)任意兩個(gè)消費(fèi)者,任意兩種商品的邊際替代率是相同的锋勺,且兩個(gè)消費(fèi)者的效用同時(shí)得到最大化蚀瘸。
生產(chǎn)最優(yōu):這個(gè)經(jīng)濟(jì)體必須在自己的生產(chǎn)可能性邊界上。此時(shí)對(duì)任意兩個(gè)生產(chǎn)不同產(chǎn)品的生產(chǎn)者庶橱,需要投入的兩種生產(chǎn)要素的邊際技術(shù)替代率(MRTS)是相同的贮勃,且兩個(gè)生產(chǎn)者的產(chǎn)量同時(shí)得到最大化。
產(chǎn)品混合最優(yōu):經(jīng)濟(jì)體產(chǎn)出產(chǎn)品的組合必須反映消費(fèi)者的偏好苏章。此時(shí)任意兩種商品之間的邊際替代率必須與任何生產(chǎn)者在這兩種商品之間的邊際產(chǎn)品轉(zhuǎn)換率(MRT)相同寂嘉。
如果一個(gè)經(jīng)濟(jì)體不是帕雷托最優(yōu),則存在一些人可以在不使其他人的境況變壞的情況下使自己的境況變好的情形枫绅。普遍認(rèn)為這樣低效的產(chǎn)出的情況是需要避免的垫释,因此帕雷托最優(yōu)是評(píng)價(jià)一個(gè)經(jīng)濟(jì)體和政治方針的非常重要的標(biāo)準(zhǔn)。
但是撑瞧,如同上面指出的,一個(gè)帕雷托最優(yōu)的經(jīng)濟(jì)系統(tǒng)只是在“最低”的意義上是“理想”的显蝌,并不能保證其中沒有貧困或嚴(yán)重的貧富差距预伺。
回到最開始的囚徒困境,這場(chǎng)博弈的納什均衡曼尊,顯然不是顧及團(tuán)體利益的帕累托最優(yōu)解決方案酬诀。以全體利益而言,如果兩個(gè)參與者都合作保持沉默骆撇,兩人都只會(huì)被判刑半年瞒御,總體利益更高,結(jié)果也比兩人背叛對(duì)方神郊、判刑5年的情況較佳肴裙。但根據(jù)以上假設(shè),二人均為理性的個(gè)人涌乳,且只追求自己個(gè)人利益蜻懦。均衡狀況會(huì)是兩個(gè)囚徒都選擇背叛,結(jié)果二人判監(jiān)均比合作為高夕晓,總體利益較合作為低宛乃。這就是“困境”所在。例子有效地證明了:非零和博弈中,帕累托最優(yōu)和納什均衡是互相沖突的征炼。
現(xiàn)實(shí)中析既,無論是人類社會(huì)或大自然都可以找到類似囚徒困境的例子:
政治學(xué)例子:軍備競(jìng)賽
在政治學(xué)中,兩國之間的軍備競(jìng)賽可以用囚徒困境來描述谆奥。兩國都可以聲稱有兩種選擇:增加軍備(背叛)眼坏、或是達(dá)成削減武器協(xié)議(合作)。兩國都無法肯定對(duì)方會(huì)遵守協(xié)議雄右,因此兩國最終會(huì)傾向增加軍備空骚。似乎自相矛盾的是,雖然增加軍備會(huì)是兩國的“理性”行為擂仍,但結(jié)果卻顯得“非理性”(例如會(huì)對(duì)經(jīng)濟(jì)造成損壞等)囤屹。這可視作遏制理論的推論,就是以強(qiáng)大的軍事力量來遏制對(duì)方的進(jìn)攻逢渔,以達(dá)到和平肋坚。
經(jīng)濟(jì)學(xué)例子:關(guān)稅戰(zhàn)
兩個(gè)國家,在關(guān)稅上可以有以兩個(gè)選擇:
提高關(guān)稅肃廓,以保護(hù)自己的商品智厌。(背叛)
與對(duì)方達(dá)成關(guān)稅協(xié)定,降低關(guān)稅以利各自商品流通盲赊。(合作)
當(dāng)一國因某些因素不遵守關(guān)稅協(xié)定铣鹏,而獨(dú)自提高關(guān)稅(背叛)時(shí),另一國也會(huì)作出同樣反應(yīng)(亦背叛)哀蘑,這就引發(fā)了關(guān)稅戰(zhàn)诚卸,兩國的商品失去了對(duì)方的市場(chǎng),對(duì)本身經(jīng)濟(jì)也造成損害(共同背叛的結(jié)果)绘迁。然后二國又重新達(dá)成關(guān)稅協(xié)定合溺。(重復(fù)博弈的結(jié)果是將發(fā)現(xiàn)共同合作利益最大。)
商業(yè)例子:廣告戰(zhàn)
商業(yè)活動(dòng)中亦會(huì)出現(xiàn)各種囚徒困境例子缀台。以廣告競(jìng)爭(zhēng)為例棠赛。
兩個(gè)公司互相競(jìng)爭(zhēng),二公司的廣告互相影響膛腐,即一公司的廣告較被顧客接受則會(huì)奪取對(duì)方的部分收入睛约。但若二者同時(shí)期發(fā)出質(zhì)量類似的廣告,收入增加很少但成本增加依疼。但若不提高廣告質(zhì)量痰腮,生意又會(huì)被對(duì)方奪走。
此二公司可以有二選擇:
互相達(dá)成協(xié)議律罢,減少廣告的開支膀值。(合作)
增加廣告開支棍丐,設(shè)法提升廣告的質(zhì)量,壓倒對(duì)方沧踏。(背叛)
若二公司不信任對(duì)方歌逢,無法合作,背叛成為支配性策略時(shí)翘狱,二公司將陷入廣告戰(zhàn)秘案,而廣告成本的增加損害了二公司的收益,這就是陷入囚徒困境潦匈。在現(xiàn)實(shí)中阱高,要二互相競(jìng)爭(zhēng)的公司達(dá)成合作協(xié)議是較為困難的,多數(shù)都會(huì)陷入囚徒困境中茬缩。
納什均衡:這是一個(gè)第一人稱視角的狀態(tài)赤惊。在這種狀態(tài)下,首先分析我自己凰锡。因?yàn)闊o論使用什么策略我都不能使自己的效用更高未舟,所以我不在意我使用各種策略時(shí)對(duì)別人的影響。因?yàn)槲乙呀?jīng)達(dá)到了我的最優(yōu)掂为,我也無意去傷害別人裕膀。如果每個(gè)人都達(dá)到了和我一樣的狀態(tài),那么這種狀態(tài)就叫納什均衡勇哗。
帕累托最優(yōu): 這是一個(gè)第三人稱視角(上帝視角)的狀態(tài)昼扛。假設(shè)我是上帝,我有能力讓游戲里每個(gè)玩家都聽從我的安排去選擇策略欲诺。我的任務(wù)是使得每個(gè)玩家個(gè)人效用在給定條件下達(dá)到最大化野揪,于是在我給每個(gè)人安排策略的過程中,免不了會(huì)出現(xiàn)一種狀態(tài)瞧栗,這種狀態(tài)即是如果我想讓一個(gè)人效用更加大一些,那么至少另外一個(gè)人的效用會(huì)降低海铆。在我不同的策略安排下迹恐,會(huì)存在不同的帕累托最優(yōu)狀態(tài)。對(duì)于每個(gè)玩家來說卧斟,他沒法去反抗我的安排殴边,但他可能會(huì)有去傷害別人來提高自己效用的動(dòng)機(jī)。
什么珍语,還是聽不懂锤岸?用通俗的語言來解釋一下,納什均衡是普通人生活的和諧社會(huì)板乙,帕累托最優(yōu)則是上帝構(gòu)建的伊甸園是偷。生活在納什均衡里的人的都是“性善者”拳氢。而生活在帕累托最優(yōu)里的都是“有反抗動(dòng)機(jī)的服從者”。