生成式模型(零):條件概率

一、生成式模型

這個(gè)系列將討論人工智能領(lǐng)域非常重要、也十分被看好的一類模型:生成式模型(generative model)。因?yàn)檫@類模型不但能根據(jù)特征預(yù)測結(jié)果,還能“理解”數(shù)據(jù)是如何產(chǎn)生的则涯,并以此為基礎(chǔ)“創(chuàng)造”數(shù)據(jù),這才是“真正意義上”的人工智能冲簿。而且正如費(fèi)曼[1]所說的“What I cannot create, I do not understand(我不能創(chuàng)造的東西粟判,我就不了解)”,生成式模型在某種意義上是真正理解了數(shù)據(jù)峦剔。

生成式模型會(huì)大量用到概率這個(gè)數(shù)學(xué)工具档礁,特別是條件概率和貝葉斯定理。這篇文章將主要討論這些數(shù)學(xué)知識吝沫。

二呻澜、概率:量化隨機(jī)

概率是量化事物隨機(jī)性或者可能性的數(shù)學(xué)工具递礼,在很多領(lǐng)域都有廣泛的應(yīng)用。但遺憾的是羹幸,概率或者隨機(jī)本身是數(shù)學(xué)里人類理解最差的分支脊髓。在通常情況下,可以將概率從直觀上理解為事件發(fā)生的比例栅受。如圖1所示将硝,向圖中的方形框隨機(jī)投擲小球,那么小球落入圓圈的概率就等于圓圈的面積除以方形框的面積屏镊。

圖1

概率對數(shù)據(jù)科學(xué)尤其重要依疼,舉兩個(gè)常見的例子:在搭建模型時(shí),帶有一些隨機(jī)性的模型和算法往往預(yù)測效果會(huì)好于完全確定性的模型和算法而芥;在異常檢測時(shí)律罢,理解概率能幫助我們區(qū)分真正的異常和正常情況下的隨機(jī)擾動(dòng)。
本節(jié)將著重介紹數(shù)據(jù)科學(xué)中常用到的概率知識棍丐,幫助讀者在之后的章節(jié)里更好地掌握與概率相關(guān)的模型误辑。

三、定義概率:事件和概率空間

我們首先從擲骰子這個(gè)常見的例子中引出概率的定義骄酗。假設(shè)我們連續(xù)隨機(jī)地?cái)S兩次骰子稀余,并計(jì)算兩次所得點(diǎn)數(shù)的和。記第一次擲骰子得到的點(diǎn)數(shù)為X_1趋翻,第二次的點(diǎn)數(shù)為X_2,兩次點(diǎn)數(shù)之和為XX = X_1 + X_2盒蟆。容易得到可能的取值為2~12踏烙。將XX = i記為事件E_i。但其實(shí)上面列舉的事件還可以劃分為更加細(xì)小的隨機(jī)樣本历等,比如XX = 3對應(yīng)的事件E_3可以分解為兩個(gè)事件讨惩,一是第一次點(diǎn)數(shù)是1,第二次點(diǎn)數(shù)是2寒屯,記為(1荐捻,2);二是第一次點(diǎn)數(shù)是2寡夹,第二次點(diǎn)數(shù)是1处面,記為(2,1)菩掏。整個(gè)過程如圖2所示魂角。將事件E_i發(fā)生的概率記為P(E_i),則

P(E_3) = P((1, 2) \cup (2, 1)) = P((1, 2)) + P((2, 1)) = 1 / 18 \tag{1}

對于其他結(jié)果也類似地定義它們發(fā)生的概率智绸。

圖2

將上面例子中的方法推廣到一般情況野揪,給出概率的定義[2]访忿。

將所有不能再分的隨機(jī)結(jié)果,記為w斯稳,放在一起組成一個(gè)可數(shù)的非空集合海铆,這個(gè)集合就叫作樣本空間(sample space),記為S挣惰。樣本空間里的子集被稱為事件卧斟。而概率是一個(gè)定義在樣本空間上的實(shí)數(shù)函數(shù),記為P通熄,它滿足下面兩個(gè)條件:

  • P(w) >= 0唆涝,對于所有的w都成立
  • \sum_w P(w) = 1

對于一個(gè)事件E,對應(yīng)的概率為P(E) = \sum_{w \in E} P(w)唇辨。一個(gè)樣本空間加上在其基礎(chǔ)上定義的概率就成為一個(gè)概率空間廊酣。根據(jù)概率的定義,可以得到如下的公式赏枚,其中A, B均為隨機(jī)事件亡驰,而A^c表示事件A的補(bǔ)集。

P(A^c) = 1 - P(A) \\ P(A \cup B) = P(A) + P(B) - P(A \cap B) \tag{2}

四饿幅、條件概率:信息的價(jià)值

上面討論了單個(gè)事件和多個(gè)事件發(fā)生一個(gè)的概率》踩瑁現(xiàn)在將討論兩個(gè)或多個(gè)事件同時(shí)發(fā)生的概率。假設(shè)事件AB是兩個(gè)不同的事件栗恩,它們倆同時(shí)發(fā)生的概率為P(A \cap B)透乾。這個(gè)概率與兩個(gè)事件單獨(dú)發(fā)生的概率有什么聯(lián)系嗎?

為了解答這個(gè)問題磕秤,我們定義隨機(jī)事件的條件概率如公式(3)所示乳乌。其中P(A | B)表示在事件B發(fā)生的情況下,事件A發(fā)生的可能性市咆,稱為條件概率汉操。P(B | A)的含義類似。

P(A | B) = \frac{P(A \cap B)}{P(B)} \\ P(B | A) = \frac{P(A \cap B)}{P(A)} \tag{3}

將公式(3)中的兩個(gè)條件概率結(jié)合起來蒙兰,就可以得到所謂的貝葉斯定理:

P(B | A) = \frac{P(A | B)P(B)}{P(A)} \tag{4}

舉一個(gè)簡單的例子來直觀地感受條件概率這個(gè)概念磷瘤。假設(shè)在一個(gè)大學(xué)的班級里:

  • 來自重慶的學(xué)生比例為10%,而這批學(xué)生中喜歡吃辣的比例為90%
  • 剩下的來自其他地區(qū)的學(xué)生占比90%搜变,他們當(dāng)中喜歡吃辣的比例為30%

為了表述清楚采缚,用A表示某學(xué)生來自重慶,B表示該學(xué)生喜歡吃辣痹雅。根據(jù)上面的描述仰担,在沒有任何其他信息的條件下,一個(gè)學(xué)生來自重慶的概率為10%,即P(A) = 0.1摔蓝。但如果我們知道了這個(gè)學(xué)生喜歡吃辣赂苗,那么顯然他來自重慶的比例會(huì)上升,因?yàn)橹貞c人更喜歡吃辣贮尉。也就是說拌滋,喜歡吃辣這條信息對判斷他是否來自重慶是有價(jià)值的,但應(yīng)該如何量化它呢猜谚?我們可以通過條件概率來量化吃辣這條信息的價(jià)值败砂。具體地,根據(jù)貝葉斯定理可以得到P(A|B) = 0.25魏铅,如圖3所示昌犹。通俗來講就是,知道這個(gè)學(xué)生喜歡吃辣后览芳,他來自重慶的概率從10%上升到了25%斜姥。這就是從信息中得到的價(jià)值。

圖3

上面的例子告訴我們沧竟,條件概率P(A | B)和事件原本概率P(A)之間的差異體現(xiàn)了發(fā)生事件這條信息對事件是否發(fā)生的價(jià)值铸敏,也是生成式模型最為經(jīng)常的部分。

如果條件概率等于原本的概率悟泵,即P(A | B) = P(A)(在這種條件下杈笔,很容易推出P(B | A) = P(B)),則稱事件A, B相互獨(dú)立糕非。換句話說蒙具,事件B與事件A毫無聯(lián)系,前者發(fā)生與否不會(huì)影響后者的發(fā)生朽肥。

當(dāng)兩個(gè)事件相互獨(dú)立時(shí)店量,可以推出P(A \cap B) = P(A)P(B)。在此基礎(chǔ)上鞠呈,定義任意多個(gè)相互獨(dú)立的事件:假設(shè)是一系列隨機(jī)事件A_1, A_2, ..., A_n,這些事件都是相互獨(dú)立的當(dāng)且僅當(dāng)對其任一有限子集A_{i1}, A_{i2}, ..., A_{ik}右钾,都滿足P(A_{i1} \cap A_{i2} \cap... A_{ik}) = P(A_{i1})P(A_{i2})...P(A_{ik})蚁吝。

五、廣告時(shí)間

這篇文章的大部分內(nèi)容參考自我的新書《精通數(shù)據(jù)科學(xué):從線性回歸到深度學(xué)習(xí)》舀射。

李國杰院士和韓家煒教授在讀過此書后窘茁,親自為其作序,歡迎大家購買脆烟。

另外山林,與之相關(guān)的免費(fèi)視頻課程請關(guān)注這個(gè)鏈接


  1. 理查德·菲利普斯·費(fèi)曼(Richard Phillips Feynman),美國理論物理學(xué)家邢羔,量子電動(dòng)力學(xué)創(chuàng)始人驼抹,曾被評選為有史以來最偉大的十位物理學(xué)家之一 ?

  2. 正文中給出的定義并不是嚴(yán)格意義上的公理化的定義桑孩。概率嚴(yán)格定義為,它是定義在概率空間上一種度量框冀,也就是從樣本事件到實(shí)數(shù)的函數(shù)流椒。這個(gè)函數(shù)滿足所謂的柯爾莫果洛夫公理(Kolmogorov Axioms),具體的細(xì)節(jié)在此就不展開了明也。 ?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宣虾,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子温数,更是在濱河造成了極大的恐慌绣硝,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件撑刺,死亡現(xiàn)場離奇詭異鹉胖,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)猜煮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評論 3 399
  • 文/潘曉璐 我一進(jìn)店門次员,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人王带,你說我怎么就攤上這事淑蔚。” “怎么了愕撰?”我有些...
    開封第一講書人閱讀 167,990評論 0 360
  • 文/不壞的土叔 我叫張陵刹衫,是天一觀的道長。 經(jīng)常有香客問我搞挣,道長带迟,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評論 1 296
  • 正文 為了忘掉前任囱桨,我火速辦了婚禮仓犬,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘舍肠。我一直安慰自己搀继,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評論 6 397
  • 文/花漫 我一把揭開白布翠语。 她就那樣靜靜地躺著叽躯,像睡著了一般。 火紅的嫁衣襯著肌膚如雪肌括。 梳的紋絲不亂的頭發(fā)上点骑,一...
    開封第一講書人閱讀 52,246評論 1 308
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼黑滴。 笑死憨募,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的跷跪。 我是一名探鬼主播馋嗜,決...
    沈念sama閱讀 40,819評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼吵瞻!你這毒婦竟也來了葛菇?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,725評論 0 276
  • 序言:老撾萬榮一對情侶失蹤橡羞,失蹤者是張志新(化名)和其女友劉穎眯停,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卿泽,經(jīng)...
    沈念sama閱讀 46,268評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡莺债,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了签夭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片齐邦。...
    茶點(diǎn)故事閱讀 40,488評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖第租,靈堂內(nèi)的尸體忽然破棺而出措拇,到底是詐尸還是另有隱情,我是刑警寧澤慎宾,帶...
    沈念sama閱讀 36,181評論 5 350
  • 正文 年R本政府宣布丐吓,位于F島的核電站,受9級特大地震影響趟据,放射性物質(zhì)發(fā)生泄漏著洼。R本人自食惡果不足惜下愈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評論 3 333
  • 文/蒙蒙 一劣像、第九天 我趴在偏房一處隱蔽的房頂上張望项玛。 院中可真熱鬧,春花似錦咳促、人聲如沸色难。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至娇昙,卻和暖如春尺迂,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評論 1 272
  • 我被黑心中介騙來泰國打工噪裕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蹲盘,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評論 3 376
  • 正文 我出身青樓膳音,卻偏偏與公主長得像召衔,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子祭陷,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 摘要:在深度學(xué)習(xí)之前已經(jīng)有很多生成模型,但苦于生成模型難以描述難以建模想罕,科研人員遇到了很多挑戰(zhàn)悠栓,而深度學(xué)習(xí)的出現(xiàn)幫...
    肆虐的悲傷閱讀 11,302評論 1 21
  • 接觸歐體三年,學(xué)習(xí)不過兩月按价,信筆涂鴉惭适,見怪~
    三之道閱讀 433評論 1 2
  • 那年夏天 對于感情我們懵懵懂懂 單純的一塵不染 沒來得及的牽手告白 就已各隔天涯 現(xiàn)在我來到了更大的世界 在燈紅酒...
    蘇茶小茉莉閱讀 126評論 1 1
  • 曙光淡淡, 云海漣漪楼镐, 涼風(fēng)有意癞志, 秋來早。 許我一次紅塵鸠蚪, 把你依戀今阳。
    我本為旭閱讀 188評論 0 3
  • 月是故鄉(xiāng)明,情是故鄉(xiāng)濃茅信,月圓之夜其實(shí)是團(tuán)圓之夜盾舌,為什么中秋是值得慶祝的節(jié)日,其實(shí)自古以來團(tuán)圓是歷史上最期待的節(jié)日蘸鲸,...
    健指東方閱讀 234評論 0 0