極大似然估計该面,通俗理解來說夭苗,就是利用已知的樣本結果信息,反推最具有可能(最大概率)導致這些樣本結果出現(xiàn)的模型參數(shù)值隔缀!
換句話說题造,極大似然估計提供了一種給定觀察數(shù)據(jù)來評估模型參數(shù)的方法,即:“模型已定猾瘸,參數(shù)未知”界赔。
例如,我們假定模型服從于正態(tài)分布牵触,但是不知道均值和方差淮悼;或者是二項分布,但是不知道均值揽思。
輸入有兩個:表示某一個具體的數(shù)據(jù)袜腥; 表示模型的參數(shù)
如果是已知確定的,是變量钉汗,這個函數(shù)叫做似然函數(shù)(likelihood function), 它描述對于不同的模型參數(shù)羹令,出現(xiàn)這個樣本點的概率是多少。
由于重新縮放并不會改變的結果损痰,即
當趨于無窮的時候特恬,最大似然函數(shù)是最好的漸進估計(也就是說對參數(shù)估計的準確度最高)
上面說到期望就是平均數(shù)隨樣本趨于無窮的極限,那么這句話是什么意思呢徐钠?
我們還是以上面的擲骰子為例子:
如果我們擲了無數(shù)次的骰子,然后將其中的點數(shù)進行相加役首,然后除以他們擲骰子的次數(shù)得到均值尝丐,這個有無數(shù)次樣本得出的均值就趨向于期望显拜。
個人理解:均值為多個隨機變量的和再除以個數(shù),相當于還是一個隨機變量爹袁,當數(shù)量足夠多的時候远荠,這個隨機變量會收斂,這個收斂的值為期望
由于與模型無關失息,即
所以一種解釋最大似然的觀點是將它看作最小化訓練集上的經(jīng)驗分布和模型分布之間的差異譬淳,可以通過KL散度來度量。
需要注意的是這種方法雖然簡單盹兢,但是結果準確度嚴重依賴于 假設的模型分布?是否符合 潛在的真實分布邻梆。不能靠瞎猜就確定模型分布