機(jī)器學(xué)習(xí)基礎(chǔ)之參數(shù)估計(jì)
一绢要、參數(shù)估計(jì)
對(duì)所要研究的隨機(jī)變量映跟,當(dāng)它的概率分布的類型已知,但是參數(shù)未知扬虚,比如服從正太分布。但是這兩個(gè)參數(shù)未知球恤。那么這么確定這些未知參數(shù)呢辜昵?我們可以通過采樣的方式,得到一批樣本數(shù)據(jù)咽斧,用樣本的統(tǒng)計(jì)量來估計(jì)總體的統(tǒng)計(jì)量堪置。那么這種方式就是參數(shù)估計(jì)。
我們先來看一種簡(jiǎn)單的估計(jì)张惹。
矩法估計(jì):設(shè)總體的分布函數(shù)中個(gè)未知參數(shù)舀锨。假定總體的階原點(diǎn)絕對(duì)矩有限,并記⊥鸲海現(xiàn)用樣本的k階原點(diǎn)矩來作為總體的k階矩的估計(jì)量坎匿。即
那么通過樣本的估計(jì)量,我們就可以估計(jì)出總體的一些參數(shù)雷激。
比如假設(shè)服從一個(gè)分布(不管什么分布)替蔬,。但其值未知屎暇,則由樣本的一階矩承桥、二階矩
總體的一階矩、二階矩
令, 就可以解出參數(shù)的值.
二根悼、極大似然估計(jì)(Maximum Likelihood Estimate)
矩法估計(jì)要求隨機(jī)變量的原點(diǎn)矩存在凶异。再者,樣本矩的表達(dá)式用總體的分布函數(shù)表達(dá)式無關(guān)挤巡,因此矩法估計(jì)沒有充分利用分布函數(shù)對(duì)參數(shù)提供的信息剩彬。所以很多時(shí)候我們采用極大似然估計(jì)
(極大似然估計(jì))設(shè)總體的的密度函數(shù)為,其中為未知參數(shù)玄柏。為樣本襟衰,它的聯(lián)合密度函數(shù)為。
稱
為的似然函數(shù)粪摘。若有使得下試成立:
, 則稱為為參數(shù)的極大似然估計(jì)量
舉例:
假如有一個(gè)罐子瀑晒,里面有黑白兩種顏色的球。我們獨(dú)立且有放回的取100次徘意,統(tǒng)計(jì)得到70個(gè)白球苔悦,30個(gè)黑球。那么我們憑感覺可以猜測(cè)這個(gè)罐子里白球占70%椎咧,黑色占30%玖详。假設(shè)取得一次白球的概率為p,那么這次實(shí)驗(yàn)的數(shù)學(xué)表達(dá)就是
我們有理由相信我們觀察到的結(jié)果是概率最大的把介。 所以對(duì)上述式子求導(dǎo),可以得到當(dāng)p=0.7時(shí)取得最大值蟋座。
所以極大似然背后的直觀原理就是我們觀測(cè)到的實(shí)驗(yàn)結(jié)果是概率最大的
三拗踢、再談邏輯回歸
訓(xùn)練數(shù)據(jù), 其中。即每個(gè)樣本有n個(gè)特征向臀,標(biāo)簽1表示正例巢墅、0表示負(fù)例。邏輯回歸模型描述如下:
,
其中是需要學(xué)習(xí)的參數(shù),是激活函數(shù)券膀。
數(shù)據(jù)已知君纫,參數(shù)未知,概率分布已知芹彬。那么就可以極大似然估計(jì)來估計(jì)模型參數(shù)蓄髓。
, 其中表示在輸入是時(shí)候的模型輸出。
模型的訓(xùn)練目標(biāo)就是找到參數(shù)w使得上述似然函數(shù)取得最大值舒帮。那么這么找到這個(gè)w呢会喝?
通過反向傳播算法讓w沿梯度正方向更新
去對(duì)數(shù)不改變函數(shù)取得最大值時(shí)的w,所以在實(shí)際過程中都是用的對(duì)數(shù)似然玩郊。
其中在前向傳播過程中是已知的好乐,所以這個(gè)表達(dá)式還是很簡(jiǎn)潔的。
注:上述求導(dǎo)過程中用到了鏈?zhǔn)椒▌t和公式
參考文獻(xiàn):
- 鄧集賢瓦宜。概率論及數(shù)理統(tǒng)計(jì)蔚万,第四版,高等教育出版社