〇、說明
極大似然估計(Maximum Likelihood Estimation,MLE),也稱最大似然估計鳖擒。統(tǒng)計學(xué)中,極大似然估計是重要的參數(shù)估計方法烫止;機(jī)器學(xué)習(xí)領(lǐng)域蒋荚,也經(jīng)常看到直接使用極大似然估計以及使用極大似然思想的方法馆蠕。
在這篇筆記里期升,主要涉及極大似然的思想和非參數(shù)極大似然估計NPMLE。
如有錯誤疏漏互躬,煩請指出播赁。如要轉(zhuǎn)載,請聯(lián)系筆者吼渡,hpfhepf@gmail.com容为。
一、常規(guī)極大似然估計
1.1、問題描述
在參數(shù)估計[1]任務(wù)中坎背,極大似然估計在給定樣本且已知概率分布(密度)條件下竭缝,估計分布參數(shù)的重要方法。
(在機(jī)器學(xué)習(xí)中沼瘫,會用到未知概率分布(密度)的極大似然估計抬纸,見下文)
1.2、極大似然思想
極大似然估計的核心思想耿戚,就是估計出使樣本出現(xiàn)概率最大的參數(shù)作為分布(密度)參數(shù)湿故;從另一個角度,極大似然估計認(rèn)為已經(jīng)發(fā)生的(這些樣本出現(xiàn))就是是概率最大的膜蛔,從而求出分布(密度)參數(shù)坛猪。
1.3、極大似然估計
極大似然估計在絕大多數(shù)概率論或統(tǒng)計課程中都有詳細(xì)的介紹皂股,我這里就不贅述了墅茉,具體參見課本和網(wǎng)上資料。
這里貼幾個還不錯的網(wǎng)上資料:
維基百科《極大似然估計》[2]
《最大似然估計》[3]
二呜呐、非參數(shù)極大似然估計
2.1就斤、緣起
筆者在參考李航博士《統(tǒng)計學(xué)習(xí)方法》[4]學(xué)習(xí)最大熵模型,遇到條件概率P(Y|X)的對數(shù)似然函數(shù)(6.2.4節(jié))時蘑辑,真的是一頭霧水洋机。如下圖
一直接觸的極大似然估計都是已知模型,通過樣本求參數(shù)洋魂。而這個似然函數(shù)绷旗,模型未知,參數(shù)未知副砍,更不知道是怎么來的衔肢,懵圈了。豁翎。角骤。
2.2、搜尋
為了搞清楚這個問題谨垃,查閱了《統(tǒng)計學(xué)習(xí)方法》的參考文獻(xiàn)《A Maximum Entropy Approach to Natural Language Processing》[5]启搂,也沒有搞清楚這個問題。
后來各種關(guān)鍵字在google上搜刘陶,終于搜到了比較靠譜的信息,大概如下:
https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf[6]
http://www.ms.uky.edu/~mai/sta709/Owen2005.pdf[7]
http://statweb.stanford.edu/~owen/empirical/[8]
這大概是一個經(jīng)驗似然(Empirical Likelihood)問題牢撼,但是有點(diǎn)艱深匙隔,筆者并不打算深入挖掘下去,只是從機(jī)器學(xué)習(xí)數(shù)學(xué)基礎(chǔ)的角度搞清楚上述公式的由來熏版。筆者看到了[4]的第一個公式纷责,終于明白了李航博士書中公式的由來捍掺,如下。
2.3再膳、NPMLE
非參數(shù)極大似然估計(Non-Parametric Maximum Likelihood Estimation,NPMLE)挺勿,在大多數(shù)初級的概率論課本里是沒有的。
這里根據(jù)常規(guī)MLE的假設(shè)和建模過程喂柒,來簡略推導(dǎo)NPMLE的似然函數(shù)不瓶。下圖[3]為常規(guī)MLE的假設(shè)和似然函數(shù)建模過程。
參考常規(guī)MLE灾杰,假設(shè)非參數(shù)的分布有相同的采樣蚊丐,但沒有參數(shù)。
附錄
參考
[1]艳吠、百度百科《參數(shù)估計》
[2]麦备、維基百科《極大似然估計》
[3]、《最大似然估計》
[4]昭娩、李航《統(tǒng)計學(xué)習(xí)方法》
[5]凛篙、Adam L. Berger, Stephen A. Della Pietra《A Maximum Entropy Approach to Natural Language Processing》
[6]、https://www.stat.washington.edu/thompson/S581_04/Notes/chapter_8.pdf