以下文章作為個人學習的知識總結(jié)
機器學習也叫做統(tǒng)計學習堆生,因為大部分機器學習算法建立在概率統(tǒng)計理論基礎(chǔ)之上井氢,掌握概率統(tǒng)計理論基礎(chǔ)就變得非常重要
個人認為腾务,數(shù)學的學習要從基本的定義出發(fā)虹脯,然后基于定義驴娃,通過演繹推理得到一系列公式。 概率論也不例外归形。 所以托慨,入手概率論之前鼻由, 第一個問題就是 什么是概率暇榴? 這個問題可以轉(zhuǎn)化成: 概率的定義是什么?
概率的基本定義
概率的定義是整個概率論的基礎(chǔ)蕉世, 理解它的定義就顯得格外重要蔼紧。
在引出概率的定義之前, 要清楚的明白概率論中的三個概念狠轻,實驗奸例、樣本空間和事件。因為這三個概念的直接引出了概率的定義向楼。
條件概率
在機器學習算法中查吊,不少算法是以P(Y|X)作為目標函數(shù)的。貝葉斯學習算法也是以條件概率為基礎(chǔ)的湖蜕。?
理解條件概率要從最基本的定義入手逻卖, 才能理解更加深刻。概率的定義是基于樣本空間昭抒, 可以借助樣本空間去理解條件概率评也。
弄清楚條件概率的定義之后, 得掌握條件概率和聯(lián)合概率之間的推導(dǎo)公式灭返。更進一步盗迟, 得掌握貝葉斯公式,以及貝葉斯公式的不同表現(xiàn)形式熙含。
隨機變量
得充分理解隨機變量的定義罚缕, 隨機變量不是變量, 其實就是一個函數(shù)怎静。
基于隨機變量引出了期望邮弹、方差喂饥、概率分布這些概念。
需要掌握常見的概率分布:
高斯分布肠鲫、伯努利分布员帮、二項分布、泊松分布等导饲。
進一步捞高,理解條件概率分布和聯(lián)合概率分布。因為統(tǒng)計學習方法基本上都是學習 這兩種分布渣锦, 如:樸素貝葉斯學習的就是聯(lián)合概率分布硝岗;極大似然估計學習的就是條件概率分布。
獨立性
理解獨立性的定義袋毙。 部分機器學習算法為了降低計算復(fù)雜度型檀, 就把隨機變量的獨立性作為假設(shè), 可顯著降低計算復(fù)雜度听盖, 如:樸素貝葉斯模型胀溺,極大似然估計。?
總結(jié)
重要的事情強調(diào)三遍皆看, 深刻理解定義非常重要仓坞!非常重要!非常重要腰吟!?了解基本定義之后无埃, 由點及面的展開基本知識的學習, 如條件概率毛雇、聯(lián)合概率嫉称、邊緣概率,這些概率的公式推導(dǎo)和關(guān)系(最重要的是貝葉斯)灵疮。
所有的基本知識學完之后织阅,需要在腦海形成一條知識的主干, 從基本定義出發(fā)始藕, 由點到線再到面的鋪開蒲稳,進行知識點的聯(lián)結(jié)!