貝葉斯公式廣泛的被利用到機器學習領(lǐng)域碘橘,實際上它也是概率論的基礎(chǔ)涩哟,因為它貫穿了整個機器學習中對隨機問題進行分析的整個過程救鲤。
貝葉斯公式實際上解決了計算條件概率的問題忿檩。發(fā)生一件事情的概率,指的是在隨機實驗中介蛉,有多少比例的樣本發(fā)生了特定的事情(A)夯缺,就稱為該事件的發(fā)生概率(P(A))。如果一個樣本會發(fā)生兩個事件甘耿,稱為A和B踊兜,那么有兩個條件概率:
P(B|A):發(fā)生A事件的樣本里,發(fā)生B事件的概率佳恬,即滿足A條件前提下捏境,發(fā)生B事件的條件概率。
P(A|B):發(fā)生B事件的樣本里毁葱,發(fā)生A事件的概率垫言,即滿足B條件前提下,發(fā)生A事件的條件概率倾剿。
有人可能會覺得對于滿足條件的樣本數(shù)而言筷频,P(B|A)和P(A|B)應(yīng)該是相同的,為何條件概率不同前痘?原因是凛捏,條件概率指的是發(fā)生第二個事件相對于第一個事件的概率,而不是相對于整個樣本的芹缔。
貝葉斯公式非常簡潔的說明了如何計算條件概率:
P(B|A) = P(A|B) * P(B) / P(A)
為了方便理解坯癣,這個公式還可以寫成這樣:
P(B|A) * P(A) = P(A|B) * P(B)
公式的左右兩邊實際上就是同時滿足A和B兩個條件下,在整個樣本中出現(xiàn)的概率最欠。這就是前面提到的示罗,滿足兩個條件的樣本數(shù)是確定的,并不會因為哪個條件在先而發(fā)生變化芝硬。
如下圖所示蚜点,整個方框為所有樣本數(shù)(t),其中A圈表示A的樣本數(shù)(a)拌阴;B圈表示B的樣本數(shù)(b)绍绘;A和B重疊的樣本數(shù)為c;那么:
P(A) = a/t
P(B) = b/t
P(A|B) = c/a
P(B|A) = c/b
相信各位很容易看出來有這個關(guān)系:
c/t = P(A|B) * P(B) = P(B|A) * P(A)
也就是A和B條件同時滿足時在整個樣本中出現(xiàn)的概率皮官。這樣就能明白貝葉斯公式為什么可以成立的原因了脯倒。正如拉普拉斯所說实辑,概率論只不過是把常識用數(shù)學公式表達了出來而已捺氢。