最簡單的回歸模型-線性回歸及其變體_chapter6

一赐纱、在建立線性回歸模型之前需要考慮的:

  • 1糊肤、數(shù)據(jù)預處理:線性回歸是最簡單的回歸模型助泽,模型具有很好的可解釋性啰扛,因而廣泛應用于醫(yī)學統(tǒng)計建模領(lǐng)域。但由于其應用條件的限制嗡贺,使得應用此方法建模時隐解,在數(shù)據(jù)預處理階段需要做一些針對性的考量。

    • 1.1 預測變量(特征)的共線性問題
    • 共線性問題的診斷:相關(guān)性熱圖诫睬、PCA(有多少個占據(jù)主要方差的主成分煞茫,即意味著有多少組共線性的變量)、方差膨脹因子(VIF)

    • 共線性問題的處理:《應用預測建模》P33提供的方法直接進行變量刪除续徽;降維(如PCA,在這之前還要進行偏度變換和中心化及標準化)蚓曼;含降維的回歸算法:elastic net族算法:含LASSO/ridge;能夠應對變量共線性的模型:偏最小二乘(PLS)钦扭、Random Forest等

    • 1.2 離群值的影響:一個離群值可能極大程度改變直線的走向
    • 解決方法包括:1. 剔除離群值 2.采用SSE之外的損失函數(shù)纫版,如殘差絕對值

  • 2、模型性能問題:畢竟是一個線性模型客情,只能做線性擬合其弊,其參數(shù)矩陣的形變能力是有限的。書中說到“顯然裹匙,如果數(shù)據(jù)具有曲線或非線性的結(jié)構(gòu)瑞凑,回歸模型將無法刻畫這些特性”

    • 2.1 診斷:判斷響應變量與預測變量間關(guān)系的可視化方法是圖5-3所示的“基本診斷圖”:如果預測值與殘差的關(guān)系是曲線,則可能無法采用線性模型概页。
    • 2.2 治療:如果響應變量與預測變量間的非線性關(guān)系容易識別籽御,可以通過往線性模型中添加二次項、三次項或者多次項來解決惰匙,則可以繼續(xù)應用線性模型技掏;否則應采用更為復雜的、非線性的算法
  • 3项鬼、數(shù)據(jù)分割與重抽樣造成的問題

  • 如果有100個樣本哑梳,75個特征(此時樣本數(shù)大于特征數(shù),全部用于建模是ok的)绘盟;但如果進行2:1交叉驗證鸠真,訓練集67*75;測試集 33:75龄毡,就會出現(xiàn)特征數(shù)大于樣本數(shù)的問題吠卷,此時應在訓練和測試時考慮特征降維

二、線性回歸模型及其變體

  • 1. 線性回歸模型:無需調(diào)參沦零,只需要在建模前考慮好上述問題即可

  • 2. 偏最小二乘回歸(Partial least squares regression,PLS regression,簡稱PLS):是在應用PCA降維方法的同時使得降維得到的主成分還要與響應變量的相關(guān)系數(shù)達到最大祭隔。

    • 換言之,PLS不等同于PCA之后再進行線性回歸路操;后者兩步驟是割裂的疾渴,PCA的時候,僅考慮使得樣本方差最大化的主成分屯仗,至于所得主成分是否與響應變量具有足夠的聯(lián)系搞坝,則沒有納入考量;PCA之后再進行線性回歸魁袜,有可能所得到的主成分與響應變量之間沒有足夠聯(lián)系瞄沙,因而導致建模失敿号妗;PLS則是PCA與線性回歸一體化距境;同時考慮樣本方差最大化和所得主成分與響應變量的相關(guān)性申尼,在二者之間取得平衡。
    • PLS有一個調(diào)優(yōu)參數(shù)垫桂,即需要保留的成分數(shù)师幕,通過數(shù)據(jù)分割重抽樣來進行調(diào)參
    • PLS 能夠計算變量的重要性系數(shù)(VIP):VIP值越大,該變量對于響應變量的重要性就越大诬滩;通常以1為cutoff,大于1認為該變量是有用的
  • 3. PLS算法的演變:演變的目的霹粥,是要解決PLS算法在面對樣本量(n)和特征數(shù)(p)增大的場景下,其運算效率降低疼鸟、對運算內(nèi)存要求增大后控。因此為了簡化運算,提升效率而提出了PLS的如下變體:

n>>p

- 3.1 將PLS的步驟分解為三個步驟:一個維度為P * P的“核”矩陣空镜,預測變量的協(xié)方差矩陣(P * P ),以及預測變量與響應變量的協(xié)方差矩陣(P*1)浩淘;這種類似于矩陣分解的算法提升了運算效率,包括de Jong 和 Ter Braak1994;Dayal和MacGregor 1997所提出的算法

- 3.2 將目標轉(zhuǎn)化為“在預測變量空間中尋找潛在的正交變量吴攒,使其最大化與響應變量的協(xié)方差”张抄;這一視角的轉(zhuǎn)變使得目標轉(zhuǎn)化為了縮減預測變量與響應變量之間的協(xié)方差矩陣(P*1),即SIMPLS

p>n: Rannar 1994

當然洼怔,PLS算法無論如何改進署惯,其仍然是對原始預測變量空間進行線性變換得到其子空間,進而與響應變量進行關(guān)聯(lián)镣隶;如果預測變量空間與響應變量之間原本就具有的是“非線性相關(guān)/關(guān)聯(lián)”极谊,那這是PLS或者所有線性回歸家族算法無法逾越的障礙。只能借助于非線性算法來解決問題安岂。

  • 4. 懲罰線性回歸:加入懲罰項的目的是限制單個特征的系數(shù)過大:加入懲罰項后的作用是當系數(shù)值只有在成比例地減小SSE的情況下怀酷,才可能取得取得很大的值,因而通過這種辦法限制了特征系數(shù)過大嗜闻,也可以理解為對特征系數(shù)的收縮

最小二乘法回歸與各帶懲罰項線性回歸的公式比較
  • 4.1 懲罰參數(shù)λ變化對RMSE的影響
  • 懲罰參數(shù)λ從0開始增加的過程中,特征系數(shù)逐漸減小桅锄,此過程中琉雳,模型方差逐步減小,此時偏差受影響較小友瘤,因而RMSE逐步減少翠肘;到達臨界值后,方差已經(jīng)被控制得很好辫秧,而特征系數(shù)過分收縮帶來模型偏差過大(即欠擬合)束倍,故RMSE增大。
    嶺回歸中λ參數(shù)與RMSE的關(guān)系
  • 4.2 LASSO、Ridge绪妹、ElasticNetwork的比較
    • LASSO能夠使得某些特征系數(shù)為零甥桂,即內(nèi)嵌了“特征選擇”功能邮旷,Ridge不具備特征選擇的功能
    • 彈性網(wǎng)絡包含了LASSO和Ridge黄选,因而同步具有Ridge的特征和LASSO篩選特征的功能;分別將λ1和λ2設為0即可將其轉(zhuǎn)換為LASSO和Ridge中的任一办陷;因而有些R包也是將LASSO和Ridge蘊含在了彈性網(wǎng)絡算法包中
    • 要注意的是,書中提到的彈性網(wǎng)絡參數(shù)是\color{blue}{λ1民镜、λ2}辱揭;但實際的R包中彈性網(wǎng)絡的參數(shù)則是\color{red}{α、λ}
      R包中彈性網(wǎng)絡算法的損失函數(shù)及參數(shù))
    • Lasso回歸(α = 1: )问窃;嶺回歸(α = 0)域庇;彈性網(wǎng)絡回歸(α ~(0,1)
  • 4.3 LASSO結(jié)果判讀:兩幅圖雖然方向相反嵌戈,但橫坐標含義本質(zhì)是相同的:λ越大,即懲罰參數(shù)越大听皿,所剩的特征越少熟呛,當前解的個數(shù)相對于完全最小二乘解的比例(fraction of full solution)越小
image.png
image.png
  • 4.4 LASSO的擴展
  • LASSO的思想最開始用于線性回歸,稱之為LASSO回歸尉姨。但這種懲罰方式及其內(nèi)嵌的特征選擇功能庵朝,并不僅限于線性回歸中,可以擴展到其他算法中又厉,如線性判別分析九府、PLS以及PCA。其中的一項重大拓展是Efron等于2004年提出的“最小角回歸”覆致,即\color{red} { LARS}

參考文獻

R的glmnet和caret分別實現(xiàn)ElasticNetwork侄旬、LASSO、Ridge
R包ElasticNetwork算法原理和實現(xiàn)
LASSO煌妈、Ridge儡羔、ElasticNetwork的對比和適應證

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末宣羊,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子汰蜘,更是在濱河造成了極大的恐慌仇冯,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鉴扫,死亡現(xiàn)場離奇詭異赞枕,居然都是意外死亡,警方通過查閱死者的電腦和手機坪创,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門炕婶,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人莱预,你說我怎么就攤上這事柠掂。” “怎么了依沮?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵涯贞,是天一觀的道長。 經(jīng)常有香客問我危喉,道長宋渔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任辜限,我火速辦了婚禮皇拣,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘薄嫡。我一直安慰自己氧急,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布毫深。 她就那樣靜靜地躺著吩坝,像睡著了一般。 火紅的嫁衣襯著肌膚如雪哑蔫。 梳的紋絲不亂的頭發(fā)上钉寝,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音闸迷,去河邊找鬼嵌纲。 笑死,一個胖子當著我的面吹牛稿黍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播崩哩,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼巡球,長吁一口氣:“原來是場噩夢啊……” “哼言沐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起酣栈,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤险胰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后矿筝,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體起便,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年窖维,在試婚紗的時候發(fā)現(xiàn)自己被綠了榆综。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡铸史,死狀恐怖鼻疮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情琳轿,我是刑警寧澤判沟,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站崭篡,受9級特大地震影響挪哄,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜琉闪,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一迹炼、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧塘偎,春花似錦疗涉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至涵防,卻和暖如春闹伪,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背壮池。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工偏瓤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人椰憋。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓厅克,卻偏偏與公主長得像,于是被迫代替她去往敵國和親橙依。 傳聞我的和親對象是個殘疾皇子证舟,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 總結(jié) 線性回歸是有監(jiān)督學習里最常見也是最簡單的一種形式硕旗,可以分為一元線性回歸和多元線性回歸,適用情況為是連續(xù)型數(shù)據(jù)...
    忘詞x閱讀 2,857評論 0 0
  • 《精通機器學習:基于R 第二版》學習筆記 1女责、單變量線性回歸 1.1 散點圖漆枚,可以看到前后有兩個明顯的離群點 1...
    wonphen閱讀 1,374評論 0 10
  • 在統(tǒng)計學10-回歸一文中介紹了一元線性回歸的概念。假設我們現(xiàn)在有多個解釋變量抵知,如何構(gòu)造多元線性回歸模型呢墙基? 第一個...
    趙陽_c149閱讀 1,796評論 0 7
  • R中的線性回歸函數(shù)比較簡單,就是lm()刷喜,比較復雜的是對線性模型的診斷和調(diào)整残制。這里結(jié)合Statistical Le...
    真依然很拉風閱讀 65,353評論 1 64
  • 1、OLS線性回歸的基本原則 最優(yōu)擬合曲線應該使各點到直線的距離的平方和(即殘差平方和吱肌,簡稱RSS)最小痘拆。 2、O...
    wonphen閱讀 1,567評論 0 2