一、生成式模型
這個(gè)系列將討論人工智能領(lǐng)域非常重要、也十分被看好的一類模型:生成式模型(generative model)。因?yàn)檫@類模型不但能根據(jù)特征預(yù)測結(jié)果,還能“理解”數(shù)據(jù)是如何產(chǎn)生的则涯,并以此為基礎(chǔ)“創(chuàng)造”數(shù)據(jù),這才是“真正意義上”的人工智能冲簿。而且正如費(fèi)曼[1]所說的“What I cannot create, I do not understand(我不能創(chuàng)造的東西粟判,我就不了解)”,生成式模型在某種意義上是真正理解了數(shù)據(jù)峦剔。
生成式模型會(huì)大量用到概率這個(gè)數(shù)學(xué)工具档礁,特別是條件概率和貝葉斯定理。這篇文章將主要討論這些數(shù)學(xué)知識吝沫。
二呻澜、概率:量化隨機(jī)
概率是量化事物隨機(jī)性或者可能性的數(shù)學(xué)工具递礼,在很多領(lǐng)域都有廣泛的應(yīng)用。但遺憾的是羹幸,概率或者隨機(jī)本身是數(shù)學(xué)里人類理解最差的分支脊髓。在通常情況下,可以將概率從直觀上理解為事件發(fā)生的比例栅受。如圖1所示将硝,向圖中的方形框隨機(jī)投擲小球,那么小球落入圓圈的概率就等于圓圈的面積除以方形框的面積屏镊。
概率對數(shù)據(jù)科學(xué)尤其重要依疼,舉兩個(gè)常見的例子:在搭建模型時(shí),帶有一些隨機(jī)性的模型和算法往往預(yù)測效果會(huì)好于完全確定性的模型和算法而芥;在異常檢測時(shí)律罢,理解概率能幫助我們區(qū)分真正的異常和正常情況下的隨機(jī)擾動(dòng)。
本節(jié)將著重介紹數(shù)據(jù)科學(xué)中常用到的概率知識棍丐,幫助讀者在之后的章節(jié)里更好地掌握與概率相關(guān)的模型误辑。
三、定義概率:事件和概率空間
我們首先從擲骰子這個(gè)常見的例子中引出概率的定義骄酗。假設(shè)我們連續(xù)隨機(jī)地?cái)S兩次骰子稀余,并計(jì)算兩次所得點(diǎn)數(shù)的和。記第一次擲骰子得到的點(diǎn)數(shù)為趋翻,第二次的點(diǎn)數(shù)為
,兩次點(diǎn)數(shù)之和為
盒蟆。容易得到可能的取值為2~12踏烙。將
記為事件
。但其實(shí)上面列舉的事件還可以劃分為更加細(xì)小的隨機(jī)樣本历等,比如
對應(yīng)的事件
可以分解為兩個(gè)事件讨惩,一是第一次點(diǎn)數(shù)是1,第二次點(diǎn)數(shù)是2寒屯,記為(1荐捻,2);二是第一次點(diǎn)數(shù)是2寡夹,第二次點(diǎn)數(shù)是1处面,記為(2,1)菩掏。整個(gè)過程如圖2所示魂角。將事件
發(fā)生的概率記為
,則
對于其他結(jié)果也類似地定義它們發(fā)生的概率智绸。
將上面例子中的方法推廣到一般情況野揪,給出概率的定義[2]访忿。
將所有不能再分的隨機(jī)結(jié)果,記為斯稳,放在一起組成一個(gè)可數(shù)的非空集合海铆,這個(gè)集合就叫作樣本空間(sample space),記為
挣惰。樣本空間里的子集被稱為事件卧斟。而概率是一個(gè)定義在樣本空間上的實(shí)數(shù)函數(shù),記為
通熄,它滿足下面兩個(gè)條件:
-
唆涝,對于所有的
都成立
對于一個(gè)事件E,對應(yīng)的概率為唇辨。一個(gè)樣本空間加上在其基礎(chǔ)上定義的概率就成為一個(gè)概率空間廊酣。根據(jù)概率的定義,可以得到如下的公式赏枚,其中
均為隨機(jī)事件亡驰,而
表示事件
的補(bǔ)集。
四饿幅、條件概率:信息的價(jià)值
上面討論了單個(gè)事件和多個(gè)事件發(fā)生一個(gè)的概率》踩瑁現(xiàn)在將討論兩個(gè)或多個(gè)事件同時(shí)發(fā)生的概率。假設(shè)事件和
是兩個(gè)不同的事件栗恩,它們倆同時(shí)發(fā)生的概率為
透乾。這個(gè)概率與兩個(gè)事件單獨(dú)發(fā)生的概率有什么聯(lián)系嗎?
為了解答這個(gè)問題磕秤,我們定義隨機(jī)事件的條件概率如公式(3)所示乳乌。其中表示在事件
發(fā)生的情況下,事件
發(fā)生的可能性市咆,稱為條件概率汉操。
的含義類似。
將公式(3)中的兩個(gè)條件概率結(jié)合起來蒙兰,就可以得到所謂的貝葉斯定理:
舉一個(gè)簡單的例子來直觀地感受條件概率這個(gè)概念磷瘤。假設(shè)在一個(gè)大學(xué)的班級里:
- 來自重慶的學(xué)生比例為10%,而這批學(xué)生中喜歡吃辣的比例為90%
- 剩下的來自其他地區(qū)的學(xué)生占比90%搜变,他們當(dāng)中喜歡吃辣的比例為30%
為了表述清楚采缚,用表示某學(xué)生來自重慶,
表示該學(xué)生喜歡吃辣痹雅。根據(jù)上面的描述仰担,在沒有任何其他信息的條件下,一個(gè)學(xué)生來自重慶的概率為10%,即
摔蓝。但如果我們知道了這個(gè)學(xué)生喜歡吃辣赂苗,那么顯然他來自重慶的比例會(huì)上升,因?yàn)橹貞c人更喜歡吃辣贮尉。也就是說拌滋,喜歡吃辣這條信息對判斷他是否來自重慶是有價(jià)值的,但應(yīng)該如何量化它呢猜谚?我們可以通過條件概率來量化吃辣這條信息的價(jià)值败砂。具體地,根據(jù)貝葉斯定理可以得到
魏铅,如圖3所示昌犹。通俗來講就是,知道這個(gè)學(xué)生喜歡吃辣后览芳,他來自重慶的概率從10%上升到了25%斜姥。這就是從信息中得到的價(jià)值。
上面的例子告訴我們沧竟,條件概率和事件原本概率
之間的差異體現(xiàn)了發(fā)生事件這條信息對事件是否發(fā)生的價(jià)值铸敏,也是生成式模型最為經(jīng)常的部分。
如果條件概率等于原本的概率悟泵,即(在這種條件下杈笔,很容易推出
),則稱事件
相互獨(dú)立糕非。換句話說蒙具,事件
與事件
毫無聯(lián)系,前者發(fā)生與否不會(huì)影響后者的發(fā)生朽肥。
當(dāng)兩個(gè)事件相互獨(dú)立時(shí)店量,可以推出。在此基礎(chǔ)上鞠呈,定義任意多個(gè)相互獨(dú)立的事件:假設(shè)是一系列隨機(jī)事件
,這些事件都是相互獨(dú)立的當(dāng)且僅當(dāng)對其任一有限子集
右钾,都滿足
蚁吝。
五、廣告時(shí)間
這篇文章的大部分內(nèi)容參考自我的新書《精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí)》舀射。
李國杰院士和韓家煒教授在讀過此書后窘茁,親自為其作序,歡迎大家購買脆烟。
另外山林,與之相關(guān)的免費(fèi)視頻課程請關(guān)注這個(gè)鏈接