目前網(wǎng)絡(luò)上流傳著無數(shù)版本的人工智能入門書單,無一例外的都需要學(xué)習(xí)數(shù)學(xué)烹困。對于很多畢業(yè)多年的程序猿(媛)來說晶渠,再次復(fù)習(xí)數(shù)學(xué)可能是一件很痛苦的事情罕伯。
初學(xué)者的熱情都會被繁瑣的公式曲伊、燒腦的概念給磨滅的所剩無幾,本文將從人工智能所需的概率論知識入手追他,結(jié)合參考資料將復(fù)雜的公式和定理簡單化坟募,力求最快的進行一次人工智能基礎(chǔ)入門。
01
古典概率模型
在古典概率模型中邑狸,試驗的結(jié)果只包含有限個基本事件懈糯,且單個事件發(fā)生的可能性相同。這段話可能不好理解单雾,先不著急赚哗。我們先看一下對應(yīng)的數(shù)學(xué)解釋。
假設(shè)所有的基本事件的數(shù)據(jù)為n硅堆,待觀察的隨機事件A包含的基本事件數(shù)目為k蜂奸,則隨機事件A發(fā)生的概率公式為:
(1)
例如,在拋100次硬幣的試驗中硬萍,n = 100,想要觀察“拋出正面”則稱之為隨機事件A围详,在100次試驗中朴乖,隨機事件A發(fā)生的次數(shù)是k = 50次祖屏,那么拋出正面的概率為 1/2。
上面的定義針對的是隨機事件买羞,如果想要刻畫多個隨機事件之間的關(guān)系袁勺,那么古典概率模型就無能為力了,需要引入其他的方式了畜普,比如條件概率期丰。
02
條件概率
什么是條件概率呢?
首先看一段數(shù)學(xué)解釋:條件概率是根據(jù)已知信息對樣本空間進行調(diào)整后得到的新的概率分布吃挑。條件概率仍然描述的是樣本空間的概率分布钝荡,只不過需要根據(jù)已知的樣本進行了調(diào)整。假設(shè)兩個隨機事件A和B舶衬,條件概率就是指事件A在事件B已經(jīng)發(fā)生的條件下發(fā)生的概率埠通,可以使用數(shù)學(xué)公式來表示:
(2)
我們來看一個簡單的例子:在一次足球比賽中,求解球隊在已經(jīng)0:2落后的情況下最后以3:2翻盤獲勝的概率逛犹?0:2就是上式中的隨機事件B端辱,3:2獲勝就是上式中的隨機事件A。
我們繼續(xù)來看一下幾何解釋:如下圖虽画,A∩B表示在B已發(fā)生的情況下A發(fā)生的概率舞蔽,則P(A∩B) = P(AB)。就可以推導(dǎo)出上面的公式了码撰。
P(AB)表示的聯(lián)合概率渗柿,標(biāo)識了隨機事件A和隨機事件B同時發(fā)生的概率。
如果聯(lián)合概率P(AB)等于各自發(fā)生概率的乘積灸拍,也即P(AB) = P(A)·P(B)做祝,則表示隨機事件A與隨機事件B之間互相獨立,沒有任何關(guān)系鸡岗,于是得出P(A|B) = P(B)混槐。
03
全概率公式
了解聯(lián)合概率、條件概率轩性,我們來看一下全概率公式声登。全概率公式是用于將復(fù)雜事件的概率轉(zhuǎn)換成在不同情況下簡單事件發(fā)生的概率求和。先看個公式:
(3)
怎么理解上面的公式呢揣苏,我們看一個簡單的例子:小明從家到公司有B1悯嗓、B2、B3三條路卸察,小明每次上班選擇上述三條路的概率分別是P(B1)=0.5脯厨、P(B2)=0.3和******P(B3)=0.2。這三條路不擁堵的概率為P(A1)=0.2坑质、P(A2)=0.4和P(A3)=0.5合武。求小明每次上班不遲到(不擁堵代表不遲到)的概率是多少稼跳?
設(shè)隨機事件A表示上班不遲到红淡,則P(A|B1)、P(A|B2)遂黍、P(A|B3)分別表示選擇B1\B2\B3上班不遲到的概率绍豁,那么就有:
(4)
公式中的每一項表示:選擇第i條路不遲到的概率 = 選擇第i條路的概率 * 選擇第i條路的前提下還不遲到的概率无拗。
公式(1)和公式(2)等價被饿,即為全概率公式。
全概率公式表示了一個解決概率論問題的思路:先做出一些假設(shè)P(Bi),再在這些假設(shè)的發(fā)生的情況下討論復(fù)雜事件A發(fā)生的概率澡谭。
04
貝葉斯公式及定理
在上面小明上班不遲到的例子中蛙奖,我們繼續(xù)提問:求小明在不遲到的情況下潘酗,選擇B1這條路的概率是多少。
在條件概率中我們推到除了公式(2),將公式(2)換個方式雁仲,就可以得到條件概率P(AB) = P(A|B)·P(B)仔夺。在這個問題中,小明不遲到的情況下選擇B1這條路的概率P(B1|A)就等價于隨機事件A(小明不遲到)和隨機事件B(小明選擇B1這條路)同時發(fā)生的概率P(AB)除以事件A的概率P(A)攒砖。也即:
(5)
將上面的全概率公式帶入(5)中缸兔,即可得到貝葉斯公式:
(6)
我們將式(5)中的Bi和A分別替換為H和D,即可抽象出貝葉斯定理:
(7)
其中P(H)表示先驗概率吹艇,即預(yù)先設(shè)定的假設(shè)成立的概率惰蜜;
p(D|H)表示似然概率,即假設(shè)成立的前提下結(jié)果發(fā)生的概率受神;
P(H|D)表示后驗概率抛猖,即結(jié)果發(fā)生的前提下,假設(shè)成立的概率鼻听。
比較抽象财著,我們?nèi)匀焕蒙鲜鲞x路的例子來進行說明:
P(B1)就是先驗概率,表示了假設(shè)選擇第一條路的概率撑碴;
P(A|B1)就是似然概率撑教,表示了選擇第一條路前提下不遲到的概率;
P(B1|A)就是后驗概率灰羽,表示了在不遲到的結(jié)果下驮履,假設(shè)選第一條路的概率。
貝葉斯定理關(guān)注的是后驗概率廉嚼,即根據(jù)觀察到的結(jié)果來尋找合理的假設(shè)玫镐。
05
兩個學(xué)派
其實概率論的研究可以根據(jù)上述的古典模型和貝葉斯定理分為兩個學(xué)派:
頻率學(xué)派
貝葉斯學(xué)派
同一個硬幣向上拋10次,正面朝上的次數(shù)即為頻率怠噪。從事件發(fā)生的頻率來認識概率的研究方向恐似,被稱為“頻率學(xué)派”。
天氣預(yù)報以及明天下雨的概率是80%傍念,就不能從頻率的角度來認識了矫夷,這個只能看做是可信度葛闷,也就是說明天下雨的可信度是80%。從隨機事件發(fā)生的可信度來認識概率的研究方向双藕,被稱為“貝葉斯學(xué)派”淑趾。
頻率學(xué)派認為假設(shè)是客觀存在且不會改變的,即存在固定的先驗概率忧陪。
貝葉斯學(xué)派認為固定的先驗概率不存在扣泊,參數(shù)本身也是隨機,也就是說假設(shè)是取決于觀察結(jié)果的嘶摊,不確定且可以修正的延蟹。數(shù)據(jù)就是用來對假設(shè)進行調(diào)整的,也即調(diào)參叶堆。
06
參數(shù)估計
在機器學(xué)習(xí)中阱飘,我們經(jīng)常會聽到參數(shù)、模型等概念虱颗,那這些概念表示什么呢沥匈?比如,我們可以使用公式y=ax+b來描述一組數(shù)據(jù)的分布上枕,這就是線性模型咐熙。那么參數(shù)a和b就確定了這個線性模型的形狀。我們根據(jù)已經(jīng)發(fā)生的樣本數(shù)據(jù)來分析總體對應(yīng)的模型辨萍,就需要估計參數(shù)棋恼,這就是參數(shù)估計。
在概率論中锈玉,參數(shù)估計有兩種方式爪飘,分別是:
最大似然估計
最大后驗估計
這兩種估計方法分別對應(yīng)了“頻率學(xué)派”和"貝葉斯學(xué)派"。那怎么理解這兩種估計方法呢拉背?
最大似然估計
似然师崎,字面理解就是“貌似就是這樣”,最大似然估計也即樣本已經(jīng)發(fā)生了椅棺,求使得樣本發(fā)生概率最大時對應(yīng)的參數(shù)值犁罩,因為既然樣本能發(fā)生,那么這種情況概率就最大两疚。
我們先看個簡單的例子床估,在一個盒子里放了未知個數(shù)且大小均勻的黑球和白球,每次從盒子里取一個球诱渤,記錄它的顏色之后放回到盒子里∝の祝現(xiàn)在共取了100個球,其中黑球的個數(shù)是60個,那么通過黑球出現(xiàn)的頻率我們知道黑球的概率是60%递胧,為什么呢碑韵?這里頭包含了什么思想呢?
我們先假設(shè)黑球的概率是p缎脾,我們定義隨機事件A表示100次試驗中黑球出現(xiàn)60次祝闻,白球出現(xiàn)40次,那么就有:
(8)
我們知道赊锚,最大似然估計的思想是治筒,隨機事件已經(jīng)發(fā)生,找出參數(shù)似的隨機事件A發(fā)生的概率最大舷蒲,即找到參數(shù)p的值使得P(A)最大。在高等數(shù)學(xué)中友多,我們知道函數(shù)的極值就是該函數(shù)導(dǎo)數(shù)為0的點牲平。對P(A)求導(dǎo)數(shù),于是有了下面的式子:
(9)
根據(jù)式(9)即可得到 p = 60%域滥。
這就是最大似然估計的數(shù)學(xué)思想纵柿。
最大后驗估計
最大后驗估計運用的其實是貝葉斯公式,考慮的是找到一個參數(shù)值使得后驗概率最大启绰。我們由貝葉斯公式知道:
(10)
需要找到一個θ的值(θ滿足先驗分布p(θ))使得后驗概率p(θ|D)取最大值昂儒。也就是說上面就可以看做一個關(guān)于θ的函數(shù),我們記為L(θ)委可,由于D與θ無關(guān)渊跋,所以可以看成***L(θ) = P(D|θ) *· P(θ) ****∽徘悖可以看到P(D|θ)是似然概率拾酝,如果p(θ)先驗概率為1,那么最大后驗估計的值跟最大似然估計的值就是一樣的了卡者。所以蒿囤,最大后驗估計其實就是加入了一個先驗概率來進行糾正。
我們來看一個使用貝葉斯公式計算概率的經(jīng)典問題:
有一種病崇决,通過抽樣調(diào)查材诽,在人群中的得病率為1%,采取了一種檢查手段恒傻,如果報告呈陽性說明有95%的可能性患病脸侥,請問如果一個人的檢查報告呈陽性,那么他患病的概率是多少碌冶?
王天一《人工智能基礎(chǔ)課》
其實就是求條件概率湿痢。
這個例子說明了什么呢?得病是存在先驗分布的,也就是人群中的患病率為1%譬重。如果不考慮這個先驗分布拒逮,那么他患病的概率就是95%。這就是最大后驗估計的數(shù)學(xué)思想臀规。
** 結(jié)語 **
概率論的很多思想被廣泛應(yīng)用于機器學(xué)習(xí)中滩援,學(xué)好概率論是入門機器學(xué)習(xí)的前提之一,一起加油塔嬉!
關(guān)于關(guān)注公眾號“歲與禾”玩徊,查看更多精彩內(nèi)容!