一赐纱、在建立線性回歸模型之前需要考慮的:
-
1糊肤、數(shù)據(jù)預處理:線性回歸是最簡單的回歸模型助泽,模型具有很好的可解釋性啰扛,因而廣泛應用于醫(yī)學統(tǒng)計建模領(lǐng)域。但由于其應用條件的限制嗡贺,使得應用此方法建模時隐解,在數(shù)據(jù)預處理階段需要做一些針對性的考量。
-
1.1 預測變量(特征)的共線性問題
共線性問題的診斷:相關(guān)性熱圖诫睬、PCA(有多少個占據(jù)主要方差的主成分煞茫,即意味著有多少組共線性的變量)、方差膨脹因子(VIF)
共線性問題的處理:《應用預測建模》P33提供的方法直接進行變量刪除续徽;降維(如PCA,在這之前還要進行偏度變換和中心化及標準化)蚓曼;含降維的回歸算法:elastic net族算法:含LASSO/ridge;能夠應對變量共線性的模型:偏最小二乘(PLS)钦扭、Random Forest等
-
1.2 離群值的影響:一個離群值可能極大程度改變直線的走向
解決方法包括:1. 剔除離群值 2.采用SSE之外的損失函數(shù)纫版,如殘差絕對值
-
-
2、模型性能問題:畢竟是一個線性模型客情,只能做線性擬合其弊,其參數(shù)矩陣的形變能力是有限的。書中說到“顯然裹匙,如果數(shù)據(jù)具有曲線或非線性的結(jié)構(gòu)瑞凑,回歸模型將無法刻畫這些特性”
- 2.1 診斷:判斷響應變量與預測變量間關(guān)系的可視化方法是圖5-3所示的“基本診斷圖”:如果預測值與殘差的關(guān)系是曲線,則可能無法采用線性模型概页。
- 2.2 治療:如果響應變量與預測變量間的非線性關(guān)系容易識別籽御,可以通過往線性模型中添加二次項、三次項或者多次項來解決惰匙,則可以繼續(xù)應用線性模型技掏;否則應采用更為復雜的、非線性的算法
-
3项鬼、數(shù)據(jù)分割與重抽樣造成的問題
如果有100個樣本哑梳,75個特征(此時樣本數(shù)大于特征數(shù),全部用于建模是ok的)绘盟;但如果進行2:1交叉驗證鸠真,訓練集67*75;測試集 33:75龄毡,就會出現(xiàn)特征數(shù)大于樣本數(shù)的問題吠卷,此時應在訓練和測試時考慮特征降維
二、線性回歸模型及其變體
-
1. 線性回歸模型:無需調(diào)參沦零,只需要在建模前考慮好上述問題即可
-
2. 偏最小二乘回歸(Partial least squares regression,PLS regression,簡稱PLS):是在應用PCA降維方法的同時使得降維得到的主成分還要與響應變量的相關(guān)系數(shù)達到最大祭隔。
- 換言之,PLS不等同于PCA之后再進行線性回歸路操;后者兩步驟是割裂的疾渴,PCA的時候,僅考慮使得樣本方差最大化的主成分屯仗,至于所得主成分是否與響應變量具有足夠的聯(lián)系搞坝,則沒有納入考量;PCA之后再進行線性回歸魁袜,有可能所得到的主成分與響應變量之間沒有足夠聯(lián)系瞄沙,因而導致建模失敿号妗;PLS則是PCA與線性回歸一體化距境;同時考慮樣本方差最大化和所得主成分與響應變量的相關(guān)性申尼,在二者之間取得平衡。
- PLS有一個調(diào)優(yōu)參數(shù)垫桂,即需要保留的成分數(shù)师幕,通過數(shù)據(jù)分割重抽樣來進行調(diào)參
- PLS 能夠計算變量的重要性系數(shù)(VIP):VIP值越大,該變量對于響應變量的重要性就越大诬滩;通常以1為cutoff,大于1認為該變量是有用的
-
3. PLS算法的演變:演變的目的霹粥,是要解決PLS算法在面對樣本量(n)和特征數(shù)(p)增大的場景下,其運算效率降低疼鸟、對運算內(nèi)存要求增大后控。因此為了簡化運算,提升效率而提出了PLS的如下變體:
n>>p
- 3.1 將PLS的步驟分解為三個步驟:一個維度為P * P的“核”矩陣空镜,預測變量的協(xié)方差矩陣(P * P ),以及預測變量與響應變量的協(xié)方差矩陣(P*1)浩淘;這種類似于矩陣分解的算法提升了運算效率,包括de Jong 和 Ter Braak1994;Dayal和MacGregor 1997所提出的算法
- 3.2 將目標轉(zhuǎn)化為“在預測變量空間中尋找潛在的正交變量吴攒,使其最大化與響應變量的協(xié)方差”张抄;這一視角的轉(zhuǎn)變使得目標轉(zhuǎn)化為了縮減預測變量與響應變量之間的協(xié)方差矩陣(P*1),即SIMPLS
p>n: Rannar 1994
當然洼怔,PLS算法無論如何改進署惯,其仍然是對原始預測變量空間進行線性變換得到其子空間,進而與響應變量進行關(guān)聯(lián)镣隶;如果預測變量空間與響應變量之間原本就具有的是“非線性相關(guān)/關(guān)聯(lián)”极谊,那這是PLS或者所有線性回歸家族算法無法逾越的障礙。只能借助于非線性算法來解決問題安岂。
-
4. 懲罰線性回歸:加入懲罰項的目的是限制單個特征的系數(shù)過大:加入懲罰項后的作用是當系數(shù)值只有在成比例地減小SSE的情況下怀酷,才可能取得取得很大的值,因而通過這種辦法限制了特征系數(shù)過大嗜闻,也可以理解為對特征系數(shù)的收縮
-
4.1 懲罰參數(shù)λ變化對RMSE的影響
-
懲罰參數(shù)λ從0開始增加的過程中,特征系數(shù)逐漸減小桅锄,此過程中琉雳,模型方差逐步減小,此時偏差受影響較小友瘤,因而RMSE逐步減少翠肘;到達臨界值后,方差已經(jīng)被控制得很好辫秧,而特征系數(shù)過分收縮帶來模型偏差過大(即欠擬合)束倍,故RMSE增大。
-
4.2 LASSO、Ridge绪妹、ElasticNetwork的比較
- LASSO能夠使得某些特征系數(shù)為零甥桂,即內(nèi)嵌了“特征選擇”功能邮旷,Ridge不具備特征選擇的功能
- 彈性網(wǎng)絡包含了LASSO和Ridge黄选,因而同步具有Ridge的特征和LASSO篩選特征的功能;分別將λ1和λ2設為0即可將其轉(zhuǎn)換為LASSO和Ridge中的任一办陷;因而有些R包也是將LASSO和Ridge蘊含在了彈性網(wǎng)絡算法包中
- 要注意的是,書中提到的彈性網(wǎng)絡參數(shù)是辱揭;但實際的R包中彈性網(wǎng)絡的參數(shù)則是:
- Lasso回歸(α = 1: )问窃;嶺回歸(α = 0)域庇;彈性網(wǎng)絡回歸(α ~(0,1)
-
4.3 LASSO結(jié)果判讀:兩幅圖雖然方向相反嵌戈,但橫坐標含義本質(zhì)是相同的:λ越大,即懲罰參數(shù)越大听皿,所剩的特征越少熟呛,當前解的個數(shù)相對于完全最小二乘解的比例(fraction of full solution)越小
-
4.4 LASSO的擴展
- LASSO的思想最開始用于線性回歸,稱之為LASSO回歸尉姨。但這種懲罰方式及其內(nèi)嵌的特征選擇功能庵朝,并不僅限于線性回歸中,可以擴展到其他算法中又厉,如線性判別分析九府、PLS以及PCA。其中的一項重大拓展是Efron等于2004年提出的“最小角回歸”覆致,即
參考文獻
R的glmnet和caret分別實現(xiàn)ElasticNetwork侄旬、LASSO、Ridge
R包ElasticNetwork算法原理和實現(xiàn)
LASSO煌妈、Ridge儡羔、ElasticNetwork的對比和適應證