方差與偏差
方差表示,不同采樣下預(yù)測(cè)結(jié)果的擺動(dòng)情況
偏差表示,預(yù)測(cè)值對(duì)真實(shí)值的接近程度
模型約復(fù)雜,偏差越小方差越大--------
-----
訓(xùn)練誤差修正
基于訓(xùn)練誤差 獲得較好的預(yù)測(cè)誤差
考慮兼顧方差和偏差的評(píng)價(jià)方式, 不單單以殘差為唯一標(biāo)準(zhǔn)浩淘,同時(shí)引入模型的特征數(shù)量作為懲罰項(xiàng)
進(jìn)一步:AIC 和BIC 的對(duì)比https://zhuanlan.zhihu.com/p/142489599
AIC
Kl距離:“tSNE”中有所涉及, aic中對(duì)kl距離用log似然函數(shù)來(lái)表示吴攒。
BIC---
相對(duì)AIC增大了對(duì)模型特征數(shù)的懲罰
--
交叉驗(yàn)證
前面討論的對(duì)訓(xùn)練誤差修正得到測(cè)試誤差的估計(jì)是間接方法张抄,這種方法的橋梁是訓(xùn)練誤差,而交叉驗(yàn)證則是對(duì)測(cè)試誤差的直接估計(jì)洼怔。交叉驗(yàn)證比訓(xùn)練誤差修正的優(yōu)勢(shì)在于:能夠給出測(cè)試誤差的一個(gè)直接估計(jì)欣鳖,
共線性來(lái)源:
1 數(shù)據(jù)采集: 采樣方式導(dǎo)致只采集了獨(dú)立變量的一個(gè)小的子集
2 外部限制: 物理政治法律
3 模型的過(guò)度定義: 變量多于觀測(cè)值
4 數(shù)據(jù)重構(gòu): 如果采樣子集過(guò)小,那任何形式的指數(shù)或交叉項(xiàng)組合都會(huì)增加共線性
5 離群點(diǎn)主導(dǎo):
識(shí)別共線性:
1 成對(duì)散點(diǎn)圖明顯趨勢(shì)
2 相關(guān)性矩陣中的高相關(guān)性
3 方差膨脹系數(shù)VIF 越高表示共線性系數(shù)
4 相關(guān)性矩陣的特征值接近0表示共線性茴厉,使用條件數(shù)泽台,大的條件數(shù)表征共線性
5 對(duì)比擬合系數(shù)的符號(hào),多元與一元擬合符號(hào)相反
修正共線性方法:
外部方法:
1 增量增廣 提高采樣的數(shù)量和質(zhì)量Ifthe multicollinearity has been created by the data collection, collectadditional data over a widerX-subspace.
2 簡(jiǎn)化模型If the choice of the linear model has increased themulticollinearity, simplify the model by using variable selection techniques.
3 剔除異常觀測(cè)值If an observation or two has induced themulticollinearity, remove those observations.
內(nèi)部方法:
1 嶺回歸