AIC和BIC準(zhǔn)則

很多參數(shù)估計(jì)問題均采用似然函數(shù)作為目標(biāo)函數(shù)要拂,當(dāng)訓(xùn)練數(shù)據(jù)足夠多時(shí)巴比,可以不斷提高模型精度术奖,但是以提高模型復(fù)雜度為代價(jià)的,同時(shí)帶來一個(gè)機(jī)器學(xué)習(xí)中非常普遍的問題——過擬合轻绞。

所以采记,模型選擇問題模型復(fù)雜度模型對(duì)數(shù)據(jù)集描述能力(即似然函數(shù))之間尋求最佳平衡。

人們提出許多信息準(zhǔn)則政勃,通過加入模型復(fù)雜度的懲罰項(xiàng)來避免過擬合問題唧龄,此處我們介紹一下常用的兩個(gè)模型選擇方法:

1赤池信息準(zhǔn)則(Akaike Information Criterion,AIC)

AIC是衡量統(tǒng)計(jì)模型擬合優(yōu)良性的一種標(biāo)準(zhǔn)奸远,由日本統(tǒng)計(jì)學(xué)家赤池弘次在1974年提出既棺,它建立在熵的概念上,提供了權(quán)衡估計(jì)模型復(fù)雜度和擬合數(shù)據(jù)優(yōu)良性的標(biāo)準(zhǔn)懒叛。

通常情況下丸冕,AIC定義為:

其中k是模型參數(shù)個(gè)數(shù),L是似然函數(shù)薛窥。從一組可供選擇的模型中選擇最佳模型時(shí)晨仑,通常選擇AIC最小的模型

當(dāng)兩個(gè)模型之間存在較大差異時(shí)拆檬,差異主要體現(xiàn)在似然函數(shù)項(xiàng)洪己,當(dāng)似然函數(shù)差異不顯著時(shí),上式第一項(xiàng)竟贯,即模型復(fù)雜度則起作用答捕,從而參數(shù)個(gè)數(shù)少的模型是較好的選擇。

一般而言屑那,當(dāng)模型復(fù)雜度提高(k增大)時(shí)拱镐,似然函數(shù)L也會(huì)增大,從而使AIC變小持际,但是k過大時(shí)沃琅,似然函數(shù)增速減緩,導(dǎo)致AIC增大蜘欲,模型過于復(fù)雜容易造成過擬合現(xiàn)象益眉。

目標(biāo)是選取AIC最小的模型,AIC不僅要提高模型擬合度(極大似然),而且引入了懲罰項(xiàng)郭脂,使模型參數(shù)盡可能少年碘,有助于降低過擬合的可能性。

2貝葉斯信息準(zhǔn)則(Bayesian Information Criterion展鸡,BIC)

BIC(Bayesian InformationCriterion)貝葉斯信息準(zhǔn)則與AIC相似屿衅,用于模型選擇,1978年由Schwarz提出莹弊。訓(xùn)練模型時(shí)涤久,增加參數(shù)數(shù)量,也就是增加模型復(fù)雜度忍弛,會(huì)增大似然函數(shù)响迂,但是也會(huì)導(dǎo)致過擬合現(xiàn)象,針對(duì)該問題剧罩,AIC和BIC均引入了與模型參數(shù)個(gè)數(shù)相關(guān)的懲罰項(xiàng)栓拜,BIC的懲罰項(xiàng)比AIC的大,考慮了樣本數(shù)量惠昔,樣本數(shù)量過多時(shí)幕与,可有效防止模型精度過高造成的模型復(fù)雜度過高

其中镇防,k為模型參數(shù)個(gè)數(shù)啦鸣,n為樣本數(shù)量,L為似然函數(shù)来氧。kln(n)懲罰項(xiàng)在維數(shù)過大且訓(xùn)練樣本數(shù)據(jù)相對(duì)較少的情況下诫给,可以有效避免出現(xiàn)維度災(zāi)難現(xiàn)象。

3 AIC與BIC比較

AICBIC的公式中前半部分是一樣的啦扬,后半部分是懲罰項(xiàng)中狂,當(dāng)n≥8n≥8時(shí),kln(n)≥2kkln(n)≥2k扑毡,所以胃榕,BIC相比AIC在大數(shù)據(jù)量時(shí)對(duì)模型參數(shù)懲罰得更多,導(dǎo)致BIC更傾向于選擇參數(shù)少的簡(jiǎn)單模型瞄摊。

作者:7125messi

鏈接:http://www.reibang.com/p/058422cccc8d

來源:簡(jiǎn)書

簡(jiǎn)書著作權(quán)歸作者所有勋又,任何形式的轉(zhuǎn)載都請(qǐng)聯(lián)系作者獲得授權(quán)并注明出處。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末换帜,一起剝皮案震驚了整個(gè)濱河市楔壤,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌惯驼,老刑警劉巖蹲嚣,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件递瑰,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡端铛,警方通過查閱死者的電腦和手機(jī)泣矛,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門疲眷,熙熙樓的掌柜王于貴愁眉苦臉地迎上來禾蚕,“玉大人,你說我怎么就攤上這事狂丝』幌” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵几颜,是天一觀的道長(zhǎng)倍试。 經(jīng)常有香客問我,道長(zhǎng)蛋哭,這世上最難降的妖魔是什么县习? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮谆趾,結(jié)果婚禮上躁愿,老公的妹妹穿的比我還像新娘。我一直安慰自己沪蓬,他們只是感情好彤钟,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著跷叉,像睡著了一般逸雹。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上云挟,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天梆砸,我揣著相機(jī)與錄音,去河邊找鬼园欣。 笑死帖世,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的俊庇。 我是一名探鬼主播狮暑,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼辉饱!你這毒婦竟也來了搬男?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤彭沼,失蹤者是張志新(化名)和其女友劉穎缔逛,沒想到半個(gè)月后动漾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡搀庶,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年溉卓,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片敦冬。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡辅搬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出脖旱,到底是詐尸還是另有隱情堪遂,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布萌庆,位于F島的核電站溶褪,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏践险。R本人自食惡果不足惜猿妈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望巍虫。 院中可真熱鬧彭则,春花似錦、人聲如沸垫言。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽筷频。三九已至蚌成,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間凛捏,已是汗流浹背担忧。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坯癣,地道東北人瓶盛。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像示罗,于是被迫代替她去往敵國(guó)和親惩猫。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容