大家好广凸,我是uniform典鸡,本人平時(shí)關(guān)注機(jī)器學(xué)習(xí)和深度學(xué)習(xí)相關(guān)的工作被廓,后續(xù)我將會(huì)不斷推出機(jī)器學(xué)習(xí)&深度學(xué)習(xí)的入門(mén)教程,力圖把各個(gè)公式結(jié)合在一起萝玷,給大家呈現(xiàn)不一樣的數(shù)學(xué)和統(tǒng)計(jì)嫁乘。最新的一些業(yè)界paper也會(huì)后續(xù)開(kāi)相應(yīng)的專(zhuān)欄來(lái)read昆婿,希望大家關(guān)注。
1 極大似然法的通俗理解
最大似然估計(jì)法(MLE:max likelihood estimation)其實(shí)就是希望通過(guò)樣本來(lái)估計(jì)總體的參數(shù)蜓斧。
已知一個(gè)袋子仓蛆,里面分別裝有兩種顏色的球(紅色和白色),我們有放回地從這個(gè)袋子抽取10次挎春,得到8個(gè)紅色球和2個(gè)白色球看疙,求解該袋子的紅色球的占比概率。
為了計(jì)算這個(gè)概率直奋,我們希望最合理的參數(shù)應(yīng)該是使得上述事件發(fā)生概率最大的參數(shù)能庆。
在參數(shù)估計(jì)的方法理論上,一直存在兩種學(xué)派
1 頻率派
2 貝葉斯學(xué)派
一般我們假設(shè):數(shù)據(jù)屬于獨(dú)立同分布
今天介紹的最大似然就是頻率學(xué)派的方法理論脚线,我們假設(shè)紅色球的概率為p搁胆,則白色球的概率為(1-p),上述描述的事件可以用如下概率表示:
只需要求得上述式子使得L取最大值的p即可邮绿。
上述式子求解極值的方法一般是先取對(duì)數(shù)
求導(dǎo)得到
2 極大似然法的一般式子
通過(guò)上述的例子渠旁,我們明白了極大似然法如何進(jìn)行參數(shù)估計(jì),我們用更加一般的式子表示如下:
其中D表示數(shù)據(jù)集(即上述我們采樣的樣本)船逮,式子表示希望找到某個(gè)\theta使得P(D)概率最大顾腊。
上面我們提到了MLE屬于頻率學(xué)派的理論基礎(chǔ),然而對(duì)于貝葉斯學(xué)派傻唾,他們認(rèn)為參數(shù)\theta本身不是一個(gè)常量投慈,而是應(yīng)該也服從某個(gè)分布(即我們所說(shuō)的先驗(yàn)分布)承耿。我們先給式子如下:
這個(gè)式子就是我們所說(shuō)的后驗(yàn)概率冠骄,我們目標(biāo)就是希望后驗(yàn)概率最大(MAP)。
我們做如下假設(shè)
從擬合的角度來(lái)看加袋,最后一項(xiàng)logP(\theta)其實(shí)就是一個(gè)類(lèi)似正則化的作用凛辣。第一項(xiàng)是表示經(jīng)驗(yàn)損失。
3 更一般的例子
我們舉個(gè)后續(xù)文章會(huì)陸續(xù)用到的例子:
假設(shè)要估計(jì)某個(gè)學(xué)校男生女生的身高分布职烧,已知該校男生和女生的身高分別服從兩個(gè)參數(shù)不同的高斯分布扁誓,以男生抽樣為例子,我們從男生中抽樣得到n名學(xué)生的身高(x1, x2, x3, ...,xn)蚀之,請(qǐng)問(wèn)該校男生的身高分布蝗敢。
上述問(wèn)題用數(shù)學(xué)公式表示如下:
根據(jù)MLE,我們的目標(biāo)依然是最大化L足删,由于連乘計(jì)算求導(dǎo)不方便寿谴,我們?nèi)?duì)數(shù)
由于凸函數(shù)極值是導(dǎo)數(shù)為零的點(diǎn),所以求如下等式
可以求得
根據(jù)抽樣的x帶入上述式子可以求得估計(jì)的分布結(jié)果失受。
如果上述x是多維向量讶泰,那么上述參數(shù)估計(jì)可以推廣到高維(對(duì)應(yīng)的高斯分布也是高維高斯分布咏瑟,后續(xù)我們會(huì)舉更多高維例子)