沒有學(xué)不會的人工智能-概率論篇

目前網(wǎng)絡(luò)上流傳著無數(shù)版本的人工智能入門書單,無一例外的都需要學(xué)習(xí)數(shù)學(xué)烹困。對于很多畢業(yè)多年的程序猿(媛)來說晶渠,再次復(fù)習(xí)數(shù)學(xué)可能是一件很痛苦的事情罕伯。

初學(xué)者的熱情都會被繁瑣的公式曲伊、燒腦的概念給磨滅的所剩無幾,本文將從人工智能所需的概率論知識入手追他,結(jié)合參考資料將復(fù)雜的公式和定理簡單化坟募,力求最快的進行一次人工智能基礎(chǔ)入門。

01

古典概率模型

在古典概率模型中邑狸,試驗的結(jié)果只包含有限個基本事件懈糯,且單個事件發(fā)生的可能性相同。這段話可能不好理解单雾,先不著急赚哗。我們先看一下對應(yīng)的數(shù)學(xué)解釋。

假設(shè)所有的基本事件的數(shù)據(jù)為n硅堆,待觀察的隨機事件A包含的基本事件數(shù)目為k蜂奸,則隨機事件A發(fā)生的概率公式為:

image

(1)

例如,在拋100次硬幣的試驗中硬萍,n = 100,想要觀察“拋出正面”則稱之為隨機事件A围详,在100次試驗中朴乖,隨機事件A發(fā)生的次數(shù)是k = 50次祖屏,那么拋出正面的概率為 1/2。

上面的定義針對的是隨機事件买羞,如果想要刻畫多個隨機事件之間的關(guān)系袁勺,那么古典概率模型就無能為力了,需要引入其他的方式了畜普,比如條件概率期丰。

02

條件概率

什么是條件概率呢?

首先看一段數(shù)學(xué)解釋:條件概率是根據(jù)已知信息對樣本空間進行調(diào)整后得到的新的概率分布吃挑。條件概率仍然描述的是樣本空間的概率分布钝荡,只不過需要根據(jù)已知的樣本進行了調(diào)整。假設(shè)兩個隨機事件A和B舶衬,條件概率就是指事件A在事件B已經(jīng)發(fā)生的條件下發(fā)生的概率埠通,可以使用數(shù)學(xué)公式來表示:

image

(2)

我們來看一個簡單的例子:在一次足球比賽中,求解球隊在已經(jīng)0:2落后的情況下最后以3:2翻盤獲勝的概率逛犹?0:2就是上式中的隨機事件B端辱,3:2獲勝就是上式中的隨機事件A。

我們繼續(xù)來看一下幾何解釋:如下圖虽画,A∩B表示在B已發(fā)生的情況下A發(fā)生的概率舞蔽,則P(A∩B) = P(AB)。就可以推導(dǎo)出上面的公式了码撰。

image

P(AB)表示的聯(lián)合概率渗柿,標(biāo)識了隨機事件A和隨機事件B同時發(fā)生的概率。

如果聯(lián)合概率P(AB)等于各自發(fā)生概率的乘積灸拍,也即P(AB) = P(A)·P(B)做祝,則表示隨機事件A與隨機事件B之間互相獨立,沒有任何關(guān)系鸡岗,于是得出P(A|B) = P(B)混槐。

03

全概率公式

了解聯(lián)合概率、條件概率轩性,我們來看一下全概率公式声登。全概率公式是用于將復(fù)雜事件的概率轉(zhuǎn)換成在不同情況下簡單事件發(fā)生的概率求和。先看個公式:

image
image

(3)

怎么理解上面的公式呢揣苏,我們看一個簡單的例子:小明從家到公司有B1悯嗓、B2、B3三條路卸察,小明每次上班選擇上述三條路的概率分別是P(B1)=0.5脯厨、P(B2)=0.3和******P(B3)=0.2。這三條路不擁堵的概率為P(A1)=0.2坑质、P(A2)=0.4P(A3)=0.5合武。求小明每次上班不遲到(不擁堵代表不遲到)的概率是多少稼跳?

image

設(shè)隨機事件A表示上班不遲到红淡,則P(A|B1)、P(A|B2)遂黍、P(A|B3)分別表示選擇B1\B2\B3上班不遲到的概率绍豁,那么就有:

image

(4)

公式中的每一項表示:選擇第i條路不遲到的概率 = 選擇第i條路的概率 * 選擇第i條路的前提下還不遲到的概率无拗。

公式(1)和公式(2)等價被饿,即為全概率公式。

全概率公式表示了一個解決概率論問題的思路:先做出一些假設(shè)P(Bi),再在這些假設(shè)的發(fā)生的情況下討論復(fù)雜事件A發(fā)生的概率澡谭。

04

貝葉斯公式及定理

在上面小明上班不遲到的例子中蛙奖,我們繼續(xù)提問:求小明在不遲到的情況下潘酗,選擇B1這條路的概率是多少。

在條件概率中我們推到除了公式(2),將公式(2)換個方式雁仲,就可以得到條件概率P(AB) = P(A|B)·P(B)仔夺。在這個問題中,小明不遲到的情況下選擇B1這條路的概率P(B1|A)就等價于隨機事件A(小明不遲到)和隨機事件B(小明選擇B1這條路)同時發(fā)生的概率P(AB)除以事件A的概率P(A)攒砖。也即:

image

(5)

將上面的全概率公式帶入(5)中缸兔,即可得到貝葉斯公式:

image

(6)

我們將式(5)中的Bi和A分別替換為H和D,即可抽象出貝葉斯定理:

image

(7)

其中P(H)表示先驗概率吹艇,即預(yù)先設(shè)定的假設(shè)成立的概率惰蜜;

p(D|H)表示似然概率,即假設(shè)成立的前提下結(jié)果發(fā)生的概率受神;

P(H|D)表示后驗概率抛猖,即結(jié)果發(fā)生的前提下,假設(shè)成立的概率鼻听。

比較抽象财著,我們?nèi)匀焕蒙鲜鲞x路的例子來進行說明:

P(B1)就是先驗概率,表示了假設(shè)選擇第一條路的概率撑碴;

P(A|B1)就是似然概率撑教,表示了選擇第一條路前提下不遲到的概率;

P(B1|A)就是后驗概率灰羽,表示了在不遲到的結(jié)果下驮履,假設(shè)選第一條路的概率。

貝葉斯定理關(guān)注的是后驗概率廉嚼,即根據(jù)觀察到的結(jié)果來尋找合理的假設(shè)玫镐。

05

兩個學(xué)派

其實概率論的研究可以根據(jù)上述的古典模型和貝葉斯定理分為兩個學(xué)派:

  • 頻率學(xué)派

  • 貝葉斯學(xué)派

同一個硬幣向上拋10次,正面朝上的次數(shù)即為頻率怠噪。從事件發(fā)生的頻率來認識概率的研究方向恐似,被稱為“頻率學(xué)派”。

天氣預(yù)報以及明天下雨的概率是80%傍念,就不能從頻率的角度來認識了矫夷,這個只能看做是可信度葛闷,也就是說明天下雨的可信度是80%。從隨機事件發(fā)生的可信度來認識概率的研究方向双藕,被稱為“貝葉斯學(xué)派”淑趾。

頻率學(xué)派認為假設(shè)是客觀存在且不會改變的,即存在固定的先驗概率忧陪。

貝葉斯學(xué)派認為固定的先驗概率不存在扣泊,參數(shù)本身也是隨機,也就是說假設(shè)是取決于觀察結(jié)果的嘶摊,不確定且可以修正的延蟹。數(shù)據(jù)就是用來對假設(shè)進行調(diào)整的,也即調(diào)參叶堆。

06

參數(shù)估計

在機器學(xué)習(xí)中阱飘,我們經(jīng)常會聽到參數(shù)、模型等概念虱颗,那這些概念表示什么呢沥匈?比如,我們可以使用公式y=ax+b來描述一組數(shù)據(jù)的分布上枕,這就是線性模型咐熙。那么參數(shù)a和b就確定了這個線性模型的形狀。我們根據(jù)已經(jīng)發(fā)生的樣本數(shù)據(jù)來分析總體對應(yīng)的模型辨萍,就需要估計參數(shù)棋恼,這就是參數(shù)估計。

在概率論中锈玉,參數(shù)估計有兩種方式爪飘,分別是:

  • 最大似然估計

  • 最大后驗估計

這兩種估計方法分別對應(yīng)了“頻率學(xué)派”和"貝葉斯學(xué)派"。那怎么理解這兩種估計方法呢拉背?

最大似然估計

似然师崎,字面理解就是“貌似就是這樣”,最大似然估計也即樣本已經(jīng)發(fā)生了椅棺,求使得樣本發(fā)生概率最大時對應(yīng)的參數(shù)值犁罩,因為既然樣本能發(fā)生,那么這種情況概率就最大两疚。

我們先看個簡單的例子床估,在一個盒子里放了未知個數(shù)且大小均勻的黑球和白球,每次從盒子里取一個球诱渤,記錄它的顏色之后放回到盒子里∝の祝現(xiàn)在共取了100個球,其中黑球的個數(shù)是60個,那么通過黑球出現(xiàn)的頻率我們知道黑球的概率是60%递胧,為什么呢碑韵?這里頭包含了什么思想呢?

我們先假設(shè)黑球的概率是p缎脾,我們定義隨機事件A表示100次試驗中黑球出現(xiàn)60次祝闻,白球出現(xiàn)40次,那么就有:

image

(8)

我們知道赊锚,最大似然估計的思想是治筒,隨機事件已經(jīng)發(fā)生,找出參數(shù)似的隨機事件A發(fā)生的概率最大舷蒲,即找到參數(shù)p的值使得P(A)最大。在高等數(shù)學(xué)中友多,我們知道函數(shù)的極值就是該函數(shù)導(dǎo)數(shù)為0的點牲平。對P(A)求導(dǎo)數(shù),于是有了下面的式子:

image

(9)

根據(jù)式(9)即可得到 p = 60%域滥。

這就是最大似然估計的數(shù)學(xué)思想纵柿。

最大后驗估計

最大后驗估計運用的其實是貝葉斯公式,考慮的是找到一個參數(shù)值使得后驗概率最大启绰。我們由貝葉斯公式知道:

image

(10)

需要找到一個θ的值(θ滿足先驗分布p(θ))使得后驗概率p(θ|D)取最大值昂儒。也就是說上面就可以看做一個關(guān)于θ的函數(shù),我們記為L(θ)委可,由于D與θ無關(guān)渊跋,所以可以看成***L(θ) = P(D|θ) *· P(θ) ****∽徘悖可以看到P(D|θ)是似然概率拾酝,如果p(θ)先驗概率為1,那么最大后驗估計的值跟最大似然估計的值就是一樣的了卡者。所以蒿囤,最大后驗估計其實就是加入了一個先驗概率來進行糾正。

我們來看一個使用貝葉斯公式計算概率的經(jīng)典問題:

有一種病崇决,通過抽樣調(diào)查材诽,在人群中的得病率為1%,采取了一種檢查手段恒傻,如果報告呈陽性說明有95%的可能性患病脸侥,請問如果一個人的檢查報告呈陽性,那么他患病的概率是多少碌冶?

王天一《人工智能基礎(chǔ)課》

其實就是求條件概率湿痢。

image

這個例子說明了什么呢?得病是存在先驗分布的,也就是人群中的患病率為1%譬重。如果不考慮這個先驗分布拒逮,那么他患病的概率就是95%。這就是最大后驗估計的數(shù)學(xué)思想臀规。

** 結(jié)語 **

概率論的很多思想被廣泛應(yīng)用于機器學(xué)習(xí)中滩援,學(xué)好概率論是入門機器學(xué)習(xí)的前提之一,一起加油塔嬉!

關(guān)于關(guān)注公眾號“歲與禾”玩徊,查看更多精彩內(nèi)容!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末谨究,一起剝皮案震驚了整個濱河市恩袱,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌胶哲,老刑警劉巖畔塔,帶你破解...
    沈念sama閱讀 219,270評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異鸯屿,居然都是意外死亡澈吨,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評論 3 395
  • 文/潘曉璐 我一進店門寄摆,熙熙樓的掌柜王于貴愁眉苦臉地迎上來谅辣,“玉大人,你說我怎么就攤上這事婶恼∩=祝” “怎么了?”我有些...
    開封第一講書人閱讀 165,630評論 0 356
  • 文/不壞的土叔 我叫張陵熙尉,是天一觀的道長联逻。 經(jīng)常有香客問我,道長检痰,這世上最難降的妖魔是什么包归? 我笑而不...
    開封第一講書人閱讀 58,906評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮铅歼,結(jié)果婚禮上公壤,老公的妹妹穿的比我還像新娘。我一直安慰自己椎椰,他們只是感情好厦幅,可當(dāng)我...
    茶點故事閱讀 67,928評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著慨飘,像睡著了一般确憨。 火紅的嫁衣襯著肌膚如雪译荞。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,718評論 1 305
  • 那天休弃,我揣著相機與錄音吞歼,去河邊找鬼。 笑死塔猾,一個胖子當(dāng)著我的面吹牛篙骡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播丈甸,決...
    沈念sama閱讀 40,442評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼糯俗,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了睦擂?” 一聲冷哼從身側(cè)響起得湘,我...
    開封第一講書人閱讀 39,345評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎顿仇,沒想到半個月后忽刽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,802評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡夺欲,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,984評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了今膊。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片些阅。...
    茶點故事閱讀 40,117評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖斑唬,靈堂內(nèi)的尸體忽然破棺而出市埋,到底是詐尸還是另有隱情,我是刑警寧澤恕刘,帶...
    沈念sama閱讀 35,810評論 5 346
  • 正文 年R本政府宣布缤谎,位于F島的核電站,受9級特大地震影響褐着,放射性物質(zhì)發(fā)生泄漏坷澡。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,462評論 3 331
  • 文/蒙蒙 一含蓉、第九天 我趴在偏房一處隱蔽的房頂上張望频敛。 院中可真熱鬧,春花似錦馅扣、人聲如沸斟赚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,011評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拗军。三九已至,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間发侵,已是汗流浹背交掏。 一陣腳步聲響...
    開封第一講書人閱讀 33,139評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留器紧,地道東北人耀销。 一個月前我還...
    沈念sama閱讀 48,377評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像铲汪,于是被迫代替她去往敵國和親熊尉。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,060評論 2 355