前言
本系列文章為 《Deep Learning》 讀書筆記分瘾,可以參看原書一起閱讀,效果更佳枝秤。
MLE VS MAP
最大似然函數(shù)(MLE)和最大后驗(yàn)概率估計(jì)(MAP)是兩種完全不同的估計(jì)方法零蓉,最大似然函數(shù)屬于頻率派統(tǒng)計(jì)(認(rèn)為存在唯一真值 θ),最大后驗(yàn)估計(jì)屬于貝葉斯統(tǒng)計(jì)(認(rèn)為 θ 是一個(gè)隨機(jī)變量大刊,符合一定的概率分布)为迈,這是兩種認(rèn)識(shí)方法的差異。模型不變缺菌,概率是參數(shù)推數(shù)據(jù)葫辐,統(tǒng)計(jì)是數(shù)據(jù)推參數(shù)。
最大似然估計(jì)
似然函數(shù)是一種關(guān)于模型中參數(shù)的函數(shù)伴郁,是根據(jù)模型的觀測值耿战,估計(jì)模型中參數(shù)的值。給定輸出 x 焊傅,關(guān)于 θ 的似然函數(shù) L(θ|x) 數(shù)值上等于給定參數(shù) θ 后變量 X 的概率昆箕。其數(shù)學(xué)定義為:
最大似然估計(jì)是其中的一種好的估計(jì)鸦列,在樣本趨近于無窮時(shí),最大似然是收斂率最好的漸進(jìn)估計(jì)鹏倘,且由于它的一致性和統(tǒng)計(jì)效率薯嗤,在機(jī)器學(xué)習(xí)中也是首選的估計(jì)方法。在獨(dú)立同分布情況下:
由于對數(shù)函數(shù)單調(diào)增纤泵,因此想要求 L 的最大值骆姐,可以求其對數(shù)作為求其最大值的函數(shù),這樣求出的結(jié)果是相同的捏题。深度學(xué)習(xí)所做分類任務(wù)中用到的交叉熵本質(zhì)是求最大似然函數(shù)玻褪。
條件最大似然估計(jì)
最大后驗(yàn)估計(jì)
貝葉斯公式:
其中 P(x|θ) 是似然函數(shù),P(θ) 是先驗(yàn)概率公荧。
則最大后驗(yàn)估計(jì)的數(shù)學(xué)定義為:
theta 為需要估計(jì)的參數(shù)带射,f 為概率,g 為先驗(yàn)估計(jì)循狰,最大化后驗(yàn)估計(jì)通過 f·g 求得窟社。當(dāng)先驗(yàn)分布為常數(shù)時(shí),最大后驗(yàn)估計(jì)與最大似然估計(jì)重合绪钥。
總結(jié)
最大似然估計(jì)與最大后驗(yàn)估計(jì)對比分析灿里。