在機(jī)器學(xué)習(xí)中瓶籽,最重要的概念包括MLE(Maximum Likelihood Esitmate)和MAP(Maximum A Posterior)恃鞋。
學(xué)過概率與統(tǒng)計(jì)的人崖媚,應(yīng)該就是極大似然估計(jì)MLE,該方法假設(shè)要估計(jì)的參數(shù)為常數(shù)恤浪,從而求解最大似然函數(shù)問題畅哑,得到最優(yōu)參數(shù)。
而MAP則是根據(jù)貝葉斯公式水由,認(rèn)為要估計(jì)的參數(shù)為隨機(jī)變量荠呐,概率密度最大處對應(yīng)的參數(shù)值為最優(yōu)參數(shù)。利用先驗(yàn)概率P(u),求得在觀測X下的后驗(yàn)概率密度分布P(u|X)泥张。(由于分母與u無關(guān)呵恢,僅僅代表歸一化含義,因此可以不考慮)媚创。
如果采用對數(shù)形式渗钉,可以發(fā)現(xiàn),最大后驗(yàn)概率=最大似然+最大先驗(yàn)钞钙。從某種意義上晌姚,這就對應(yīng)了Cost Function = Loss + Regularization。(是不是很神奇呢歇竟?)
舉個例子,在Navie Bayes中的拉格朗日平滑方法就是最大后驗(yàn)(為不同的類別數(shù)量分別+1就對應(yīng)著一種特殊的先驗(yàn)——共軛先驗(yàn)抵恋,有興趣可以進(jìn)一步了解)焕议。
而且一般來講,當(dāng)數(shù)據(jù)量足夠大的時候弧关,我們對數(shù)據(jù)的分布有足夠的信心的時候盅安,這時先驗(yàn)所起的作用就很小,最大似然估計(jì)與最大后驗(yàn)估計(jì)效果基本一致世囊,也就不需要所謂的專家系統(tǒng)(domain knowledge)别瞭,這就是大數(shù)據(jù)的魅力。