密歇根大學政治學教授阿克塞爾羅德做的一項關于囚徒困境的實驗研究,邀請了許多知名的博弈理論家给梅、心理學家寓搬、社會學家珍昨、政治學家和經濟學家進行了一場由計算機模擬的比賽,提供重復囚徒困境的博弈策略句喷。
這次比賽中镣典,一個叫“一報還一報”的僅4行代碼的算法最終勝出了。把程序代碼翻譯過來就是:
第一唾琼,在與對方的第一次搏弈中兄春,不管對方善惡與否,自己總是持合作態(tài)度锡溯。
第二赶舆,在第一次較量中,我們可能會被惡人欺負了祭饭,那第二次較量時就一定要報復涌乳。
第三,如果對方又重新釋放善意甜癞,選擇合作,那就不計前嫌宛乃,繼續(xù)跟他合作悠咱。
阿克賽爾羅德又組織了第二次比賽蒸辆,并且向所有參賽者通報了“一報還一報”的算法。這次一共征集到了62個博弈程序析既。最終還是“一報還一報”策略勝出了躬贡。據(jù)說幾十年過去了,還是沒有找到能打“一報還一報”這個策略眼坏,它成了真正的“獨孤求敗”拂玻。
這個算法的核心就兩條:1. 第一次無條件采取合作態(tài)度;2. 之后每一次博弈重復對方上一次策略宰译。上述第二次比賽更有意思檐蚜,因為在公布了這個算法策略的情況下,還是沒有其他算法能打敗它--徹底的陽謀勝出沿侈。
《論語》:“以德報怨闯第,何如?”子曰:“何以報德缀拭?以直報怨咳短,以德報德≈肓埽”
其實孔子老早就告訴了我們咙好,就是用懲罰回報惡行,用善行回報善行褐荷。他并沒有迂腐到以德報怨的地步勾效。長期來看,其實“一報還一報”是釋放出了最大的合作善意诚卸,既讓對方對自己行為有明確的預期葵第,又能為自己爭取利益。
這個有趣的實驗再次說明了:
1. 復雜的好結果可以由最簡單的原則產生合溺,需要時間的累積和釋放卒密。
2. 長期看“善意”和“陽謀”是最有效率的,但需要構建重復博弈的環(huán)境棠赛,這樣最有助于合作中降低交易成本哮奇。
3. 德魯克說:管理的本質是激發(fā)每一個人的善意【υ迹看來并不是矯揉造作鼎俘,確實說到了管理的根本。
實際運用中要注意:
1. 一定要明確是重復博弈辩涝,單次博弈只會釋放最大的惡贸伐,標準囚徒困境就是例子。
2. 合作要讓雙方都有利可圖怔揩。沒有共同利益或者零和博弈里捉邢,是失效的脯丝。
3. 在開放的多方系統(tǒng)里(比如成長型市場里,比如分散型市場里)伏伐,并不是非要懲罰回報惡行宠进。停止繼續(xù)合作、尋求新的合作者是更有效的方式藐翎。
4. 當涉及多方博弈的時候材蹬,情況會復雜很多。囚徒困境提出的背景是研究美蘇冷戰(zhàn)吝镣,只有兩個主體堤器。第三方引入會復雜得多(Period Three Implies Chaos)。
總結:以直報怨算法是簡單赤惊、有效吼旧、經檢驗的“最大善意”算法,可以提高合作雙方的共同利益未舟。但需要注意適用的條件圈暗。