? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?“信息論理應(yīng)先于概率論瞬捕,而非基于概率論《婺ǎ”
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?——公理化概率論創(chuàng)始者Andrey Kolmogorov
? ? ? ? ??
? ? 今天我們講一件舊事肪虎。物理學(xué)家Richard Cox曾證明過(guò)一個(gè)事關(guān)概率論基礎(chǔ)的定理:令A(yù),B為兩事件惧蛹,若f(A扇救,B)為滿足下列條件的實(shí)值函數(shù):
(1)對(duì)任意B≠?,f(A,B)可以被表成f(Ω\A,B)的某個(gè)二階可微函數(shù)香嗓。式中Ω\A為事件A的補(bǔ)迅腔。
(2)對(duì)任意A∩B≠?,f(A∩B,C)可以被表成f(B,A∩C)和f(A,B)的某個(gè)二階連續(xù)可微函數(shù)靠娱。
? 則存在一一連續(xù)映射g:R→[0,1],使得P(A|B):=g·f(A,B)滿足Kolmogorov的概率論公理沧烈,從而數(shù)學(xué)性質(zhì)與通常的條件概率P(A|B)并無(wú)二致。而事件A自身的概率則可被定義為P(A):=P(A|Ω)像云。因?yàn)間是一一的锌雀,所以反過(guò)來(lái)也能把條件概率還原為f(A,B)蚂夕,f(A,B)可以被看做是一種用來(lái)導(dǎo)出概率的“原材料”。
? 在Cox的原始論文中腋逆,f(A,B)代表人根據(jù)已知B對(duì)事件A所懷有的確信程度婿牍。聯(lián)系常理可以說(shuō)明,符合常識(shí)的信念應(yīng)滿足上述兩條件(例如闲礼,條件1無(wú)非表示對(duì)一事件的信念完全決定了對(duì)其反面的信念牍汹,且兩者間可以通過(guò)性質(zhì)良好的函數(shù)關(guān)系換算),由這一定理就推出了令人贊嘆的結(jié)果:任何成功量化信念的方法最終都導(dǎo)致通常的概率論柬泽,所以慎菲,概率完全可以認(rèn)為是最適合信念的表示方法而不需要涉及獨(dú)立事件本身發(fā)生的次數(shù)。雖然Cox的論文本來(lái)只是發(fā)表在統(tǒng)計(jì)物理期刊上锨并,現(xiàn)在客觀貝葉斯學(xué)派已經(jīng)把它作為重要論據(jù)了露该。
?不過(guò),因?yàn)镃ox定理本身的證明是純形式的第煮,所以f(A解幼,B)就算不表示信念也沒(méi)關(guān)系。只要所涉及的對(duì)象間允許定義對(duì)應(yīng)于集合交并補(bǔ)的演算且滿足(1)(2)這兩個(gè)很自然的要求包警,f甚至可以是能量密度撵摆,股價(jià)或酸堿度。這也把概率論的一個(gè)特征凸顯了出來(lái):概率論的應(yīng)用不代表有客觀隨機(jī)性存在害晦,即使一個(gè)過(guò)程是完全確定的特铝,還是可以用概率描述它(這也是貝葉斯學(xué)派先驅(qū)拉普拉斯所相信的)。
?實(shí)際上壹瘟,概率和統(tǒng)計(jì)也從來(lái)不能真的【證明】一個(gè)過(guò)程中真的有不確定性和偶然性鲫剿,我們所做的事情是【預(yù)設(shè)】它確實(shí)是滿足某些條件的隨機(jī)過(guò)程,然后根據(jù)得到的數(shù)據(jù)檢驗(yàn)原本的假設(shè)稻轨。你永遠(yuǎn)都不能把統(tǒng)計(jì)檢驗(yàn)當(dāng)成是證明灵莲,即使在近似的意義上也不行。只要這種檢驗(yàn)方法是以確定性的流程進(jìn)行的殴俱,那么它都包含著漏洞——用馮-諾依曼的話來(lái)說(shuō):
“任何考慮用算術(shù)方法來(lái)生成隨機(jī)數(shù)的人政冻,都犯下了僭越之罪”
? 把生成數(shù)據(jù)換成檢驗(yàn)其實(shí)也是一樣的,“用算術(shù)方法來(lái)檢驗(yàn)數(shù)據(jù)是否來(lái)自真隨機(jī)源的人粱挡,都犯下了僭越之罪”赠幕。假如我們有一種確定性的流程(或者說(shuō)算法)A可以檢驗(yàn)數(shù)據(jù)的隨機(jī)性,那么總可以用一個(gè)同樣完全確定的算法B來(lái)生成“隨機(jī)”的數(shù)據(jù)询筏,方法非常簡(jiǎn)單:按固定順序逐個(gè)枚舉二元串榕堰,調(diào)用A判斷是否隨機(jī),輸出第一個(gè)被A判定為隨機(jī)且未曾被訪問(wèn)的串。因?yàn)锳是確定性的逆屡,所以B的輸出一定也會(huì)被A(再次)判定為來(lái)自真隨機(jī)源圾旨,但運(yùn)行算法B的機(jī)器顯然不是。
?如果我們的檢驗(yàn)流程本身是非確定性的魏蔗,看起來(lái)可以避開(kāi)上面的矛盾砍的,因?yàn)榇藭r(shí)調(diào)用了A的B不再是完全確定性的。但這又陷入了雞生蛋蛋生雞的循環(huán)之中:這個(gè)非確定性的流程本身就需要真隨機(jī)源的幫助(如果你使用偽隨機(jī)莺治,那么它其實(shí)還是確定性的)廓鞠,那么,第一個(gè)真隨機(jī)源是怎么檢驗(yàn)出來(lái)的谣旁?
?而現(xiàn)在我們注意到并不需要假定這種偶然性的真實(shí)存在也能應(yīng)用概率床佳,上述的問(wèn)題就自然不是障礙了,盡管作為哲學(xué)問(wèn)題還有些趣味榄审。
?這種概率觀還能解決一項(xiàng)重要的實(shí)際問(wèn)題:在人工智能領(lǐng)域砌们,很多算法是用概率和統(tǒng)計(jì)的方式來(lái)實(shí)現(xiàn)“推理”的過(guò)程的,你可能會(huì)質(zhì)疑說(shuō):人類的推理不是基于概率的計(jì)算搁进,因此機(jī)器的推理最終必定走向與人類完全不同的結(jié)果浪感,機(jī)器不可能理解人的智能。
?但如果你這樣考慮:人的神經(jīng)活動(dòng)狀況也是可以用物理量來(lái)描述的饼问,物理量都是實(shí)值影兽。把描述人腦對(duì)不同事件的反應(yīng)的物理量看做是Cox定理中的f,由于它必須正確反映信念的變化莱革,從而自然滿足定理的前提赢笨。由Cox定理知這個(gè)物理量總可以被變形為一個(gè)滿足概率論公理的量(注意這種變換是一一的,所以信息被完全保持)
?現(xiàn)在我們不把人工智能算法中的“概率”理解成概率驮吱,而是理解成這個(gè)變形后的物理量的話,問(wèn)題就迎刃而解了:基于“概率”的算法其實(shí)可以視為就是在模擬人腦活動(dòng)萧吠,只是把數(shù)據(jù)做了一種歸一化的變換而已左冬。由于數(shù)學(xué)性質(zhì)完全和概率一樣,算法不需要做任何修改纸型。