在機(jī)器學(xué)習(xí)的世界中昏滴,沒(méi)有完全確定的事抛虫,所以所有機(jī)器學(xué)習(xí)算法本質(zhì)上都是在學(xué)習(xí)一種能夠最佳表達(dá)事物的概率分布懂缕。
因此我們很有必要對(duì)概率分布有一個(gè)清晰的理解侣集。
概率分布是對(duì)隨機(jī)變量在現(xiàn)實(shí)世界中分布情況的表達(dá)键俱,這里的隨機(jī)變量概括起來(lái)可以分為兩類:離散隨機(jī)變量、連續(xù)隨機(jī)變量世分。
離散隨機(jī)變量類似于拋擲硬幣時(shí)只能出現(xiàn)正面编振、反面,而沒(méi)有介于正面臭埋、反面之間的情況出現(xiàn)踪央;我們不能想當(dāng)然認(rèn)為離散隨機(jī)變量出現(xiàn)的情況只能是有限個(gè)臀玄,"離散"強(qiáng)調(diào)的是每種情況之間的非連續(xù)性。
連續(xù)隨機(jī)變量類似于我們用筆畫(huà)線所畫(huà)出的線的長(zhǎng)度畅蹂,這個(gè)長(zhǎng)度值是可以為任意非負(fù)值的镐牺,所有連續(xù)隨機(jī)變量可能的取值是無(wú)限個(gè)的。
概率分布便是對(duì)隨機(jī)變量所有可能取值出現(xiàn)概率的一個(gè)完全列舉魁莉。
離散型隨機(jī)變量的概率分布可以用直方圖的形式表達(dá)出來(lái)睬涧;連續(xù)型隨機(jī)變量的概率分布卻只能用概率密度函數(shù)來(lái)表達(dá),因?yàn)槲覀冎荒軌虮磉_(dá)連續(xù)性隨機(jī)變量的取值為某一區(qū)間時(shí)的概率旗唁,而連續(xù)型隨機(jī)變量的值取該區(qū)間范圍時(shí)的概率就對(duì)應(yīng)于概率密度函數(shù)在該區(qū)間上的積分值畦浓。
隨機(jī)變量對(duì)應(yīng)的概率分布是有無(wú)限種的,而重要的概率分布卻不多(我們應(yīng)該為此感到慶幸)检疫;它們是那些對(duì)現(xiàn)實(shí)世界具有高度概括能力的概率分布讶请。
- 高斯分布
高斯分布又稱為正態(tài)分布,它是由德國(guó)數(shù)學(xué)家高斯提出的屎媳。
高斯分布在現(xiàn)實(shí)世界中是最常見(jiàn)的概率分布之一夺溢,它描述的是那些取極端值概率小,取中庸值概率大的隨機(jī)變量烛谊,例如人類的身高风响、班級(jí)數(shù)學(xué)成績(jī)、午餐用餐時(shí)間等等丹禀。
高斯分布的概率密度函數(shù)為:
- 泊松分布
泊松分布是統(tǒng)計(jì)與概率學(xué)中常見(jiàn)的離散分布状勤,它描述的是某段時(shí)間范圍內(nèi),某件事情n次的概率(單位時(shí)間內(nèi)双泪,隨機(jī)事件發(fā)生的次數(shù))持搜。
泊松分布的概率分布為:
- 伯努利分布
伯努利分布是概率學(xué)中非常常用的一種離散分布,它滿足(1)各次試驗(yàn)中的事件相互獨(dú)立焙矛,每一次n=1和n=0的概率分別為p和q葫盼。(2)每次試驗(yàn)的結(jié)果只可能是n=0或n=1。
伯努利分布的概率分布為:
目前我們所了解的有關(guān)概率論在機(jī)器學(xué)習(xí)中的應(yīng)用似乎只有樸素貝葉斯村斟,其實(shí)概率率在機(jī)器學(xué)習(xí)算法中的應(yīng)用是非常廣泛的贫导,之后將為大家慢慢解開(kāi)概率論在機(jī)器學(xué)習(xí)中的神秘面紗。