轉(zhuǎn)自july算法班:
模型的狀態(tài)分為過(guò)擬合和欠擬合
過(guò)擬合(overfitting/high variance) 高波動(dòng)性
欠擬合(underfitting/high bias) ?高偏差
比如給出一些樣本點(diǎn)挖腰,需要在上面畫畫豹储,第一張圖毫無(wú)規(guī)律可尋列林,稱為欠擬合枝冀。而中間圖找出了一些樣本點(diǎn)之間的關(guān)聯(lián)性智亮。最后一張圖根據(jù)樣本點(diǎn)畫出了一只貓。我們稱為過(guò)擬合洋丐『阑澹可以這樣想,如果這些點(diǎn)只能畫出貓是不是局限了我們想象力呢达椰?難道不能畫出一只仰頭的兔子來(lái)嗎翰蠢?
所以我們要尋找的規(guī)律不是一種特殊的規(guī)律,而是一種普適的一般性的規(guī)律啰劲,它既對(duì)已知數(shù)據(jù)有較好的擬合對(duì)未知數(shù)據(jù)也沒(méi)有較大的偏差性梁沧。
---模型狀態(tài)驗(yàn)證工具:學(xué)習(xí)曲線
---不同模型狀態(tài)的處理
---過(guò)擬合,找更多的數(shù)據(jù)來(lái)學(xué)習(xí)
---增大正則化系數(shù)
---減少特征個(gè)數(shù)(不太推薦)
注意:不要以為降維就可以解決過(guò)擬合的問(wèn)題
----2. 欠擬合
-----找到更多特征
-----減小正則化系數(shù)
---線性模型的權(quán)重分析
----1.線性或者線性kernel的model
---Linear Regression
---Logistic Regression
---Linear SVM
------2. 對(duì)權(quán)重絕對(duì)值高/低的特征
---做更細(xì)化的工作
----特征組合
-----優(yōu)化3之Bad-Case分析
1. 分類問(wèn)題
----哪些樣本分錯(cuò)了
----哪部分特征使得它分錯(cuò)了
----這些bad cases有沒(méi)有共性蝇裤?
-----是否還有沒(méi)有挖掘出的特征
2. 回歸問(wèn)題
-----哪些樣本預(yù)測(cè)結(jié)果差距大廷支,為什么
------優(yōu)化4之模型融合
1. 集體智慧
Bagging
隨機(jī)森林
2. 一萬(wàn)小時(shí)定律
Adaboost(小學(xué)-初中-高中-大學(xué)-(碩士)-(博士))
梯度提升樹(shù)(GBT)
Bagging
1. 模型很多時(shí)候效果不好的原因是因?yàn)檫^(guò)擬合
2. 如何緩解频鉴?
--每次少給一點(diǎn)樣本集
---找不同的模型來(lái)做,然后綜合一下答案(貨比三家)
--算法:
1. 不用全部的數(shù)據(jù)集恋拍,每次有放回的抽取一個(gè)子集訓(xùn)練模型【可以降低噪聲點(diǎn)對(duì)結(jié)果的影響】
2. 分類:用這些模型結(jié)果做一個(gè)vote
3. 回歸:對(duì)這些模型的結(jié)果取平均
--用不同的算法:
用這些結(jié)果做vote或求平均
----AdaBoost
1.考得不好的原因垛孔?
---不夠努力:重復(fù)迭代和訓(xùn)練
---時(shí)間分配要合理,要多做之前練習(xí)錯(cuò)的題:每次分配給分錯(cuò)的樣本更高的權(quán)重
--不聰明施敢,但是腳踏實(shí)地:最簡(jiǎn)單的分類器的疊加
有可能會(huì)過(guò)擬合
解決:學(xué)習(xí)的時(shí)候不學(xué)所有的樣本集和特征周荐。減少樹(shù)的深度
對(duì)錯(cuò)誤值和噪聲敏感
回歸問(wèn)題:GDT(梯度提升樹(shù))
第二張圖中所有綠色的點(diǎn)是紅色的點(diǎn)對(duì)于粗糙的模型作差(殘差)得到
不斷地重復(fù)上述過(guò)程