很多參數(shù)估計(jì)問題均采用似然函數(shù)作為目標(biāo)函數(shù)要拂,當(dāng)訓(xùn)練數(shù)據(jù)足夠多時(shí)巴比,可以不斷提高模型精度术奖,但是以提高模型復(fù)雜度為代價(jià)的,同時(shí)帶來一個(gè)機(jī)器學(xué)習(xí)中非常普遍的問題——過擬合轻绞。
所以采记,模型選擇問題在模型復(fù)雜度與模型對(duì)數(shù)據(jù)集描述能力(即似然函數(shù))之間尋求最佳平衡。
人們提出許多信息準(zhǔn)則政勃,通過加入模型復(fù)雜度的懲罰項(xiàng)來避免過擬合問題唧龄,此處我們介紹一下常用的兩個(gè)模型選擇方法:
1赤池信息準(zhǔn)則(Akaike Information Criterion,AIC)
AIC是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn)奸远,由日本統(tǒng)計(jì)學(xué)家赤池弘次在1974年提出既棺,它建立在熵的概念上,提供了權(quán)衡估計(jì)模型復(fù)雜度和擬合數(shù)據(jù)優(yōu)良性的標(biāo)準(zhǔn)懒叛。
通常情況下丸冕,AIC定義為:
其中k是模型參數(shù)個(gè)數(shù),L是似然函數(shù)薛窥。從一組可供選擇的模型中選擇最佳模型時(shí)晨仑,通常選擇AIC最小的模型。
當(dāng)兩個(gè)模型之間存在較大差異時(shí)拆檬,差異主要體現(xiàn)在似然函數(shù)項(xiàng)洪己,當(dāng)似然函數(shù)差異不顯著時(shí),上式第一項(xiàng)竟贯,即模型復(fù)雜度則起作用答捕,從而參數(shù)個(gè)數(shù)少的模型是較好的選擇。
一般而言屑那,當(dāng)模型復(fù)雜度提高(k增大)時(shí)拱镐,似然函數(shù)L也會(huì)增大,從而使AIC變小持际,但是k過大時(shí)沃琅,似然函數(shù)增速減緩,導(dǎo)致AIC增大蜘欲,模型過于復(fù)雜容易造成過擬合現(xiàn)象益眉。
目標(biāo)是選取AIC最小的模型,AIC不僅要提高模型擬合度(極大似然),而且引入了懲罰項(xiàng)郭脂,使模型參數(shù)盡可能少年碘,有助于降低過擬合的可能性。
2貝葉斯信息準(zhǔn)則(Bayesian Information Criterion展鸡,BIC)
BIC(Bayesian InformationCriterion)貝葉斯信息準(zhǔn)則與AIC相似屿衅,用于模型選擇,1978年由Schwarz提出莹弊。訓(xùn)練模型時(shí)涤久,增加參數(shù)數(shù)量,也就是增加模型復(fù)雜度忍弛,會(huì)增大似然函數(shù)响迂,但是也會(huì)導(dǎo)致過擬合現(xiàn)象,針對(duì)該問題剧罩,AIC和BIC均引入了與模型參數(shù)個(gè)數(shù)相關(guān)的懲罰項(xiàng)栓拜,BIC的懲罰項(xiàng)比AIC的大,考慮了樣本數(shù)量惠昔,樣本數(shù)量過多時(shí)幕与,可有效防止模型精度過高造成的模型復(fù)雜度過高。
其中镇防,k為模型參數(shù)個(gè)數(shù)啦鸣,n為樣本數(shù)量,L為似然函數(shù)来氧。kln(n)懲罰項(xiàng)在維數(shù)過大且訓(xùn)練樣本數(shù)據(jù)相對(duì)較少的情況下诫给,可以有效避免出現(xiàn)維度災(zāi)難現(xiàn)象。
3 AIC與BIC比較
AIC和BIC的公式中前半部分是一樣的啦扬,后半部分是懲罰項(xiàng)中狂,當(dāng)n≥8n≥8時(shí),kln(n)≥2kkln(n)≥2k扑毡,所以胃榕,BIC相比AIC在大數(shù)據(jù)量時(shí)對(duì)模型參數(shù)懲罰得更多,導(dǎo)致BIC更傾向于選擇參數(shù)少的簡(jiǎn)單模型瞄摊。
作者:7125messi
鏈接:http://www.reibang.com/p/058422cccc8d
來源:簡(jiǎn)書
簡(jiǎn)書著作權(quán)歸作者所有勋又,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。