回歸系列之線性回歸的關(guān)鍵問題

如上篇文章靶溜, 嶺回歸狂塘、Lasso回歸和ElasticNet 回歸都是以普通的線性回歸為基礎(chǔ)匾乓,先列舉下線性回歸的模型公式:

線性回歸模型公式

嶺回歸為解決共線性問題捞稿,Lasso回歸是為解決變量選擇的問題, ElasticNet 解決不一致性和group select的問題拼缝。簡單來說這三個回歸算法是對線性回歸某些問題的優(yōu)化括享。

本文旨在列舉線性回歸涉及的關(guān)鍵問題, 后續(xù)文章針對每個點進(jìn)行詳細(xì)介紹珍促。

  • 模型系數(shù)的求解方法
  • 擬合問題
  • 變量選擇
  • 正則化

1.系數(shù)的求解方法

線性回歸求解過程其實是求線性回歸函數(shù)的W系數(shù)。求解系數(shù)的常見方法包括:最小二乘法和梯度下降法剩愧。

  • 最小二乘法
    最小二乘法是通過建立等價關(guān)系找到全局最小值猪叙, 通過推導(dǎo), 可得到如下公式:
W系數(shù)求解公式

由于最小二乘法直接進(jìn)行矩陣運算(求逆等),盡管可以得到全局最優(yōu)解穴翩。但是在數(shù)據(jù)很多場景的回歸分析或預(yù)測問題犬第,其計算效率較低(涉及超大矩陣的求逆運算)。

  • 梯度下降法
    梯度下降法作為迭代法的一種芒帕,先給定一個參數(shù)向量初始值歉嗓,然后向目標(biāo)函數(shù)下降最快的方向調(diào)整(即梯度方向),在若干次迭代之后找到全局最小背蟆。隨機梯度下降法的一個缺點是:在接近極值時收斂速度變慢鉴分,并且該方法對初始值的選取比較敏感。

2. 擬合問題

預(yù)測模型通常存在過擬合和欠擬合兩種極端情況带膀。 欠擬合是只得到的線性模型不能很好的擬合或者表示訓(xùn)練數(shù)據(jù)志珍。 過擬合是指線性模型能非常準(zhǔn)確的擬合訓(xùn)練數(shù)據(jù), 但是對新的預(yù)測數(shù)據(jù)不能很好的擬合或者表示垛叨。以最小二乘法為例伦糯,如果響應(yīng)變量和預(yù)測變量之間有比較明顯的線性關(guān)系,最小二乘回歸會有很小的偏倚嗽元,如果觀測數(shù)量n遠(yuǎn)大于預(yù)測變量p時敛纲,最小二乘回歸也會有較小的方差。但是如果n和p比較接近剂癌,則容易產(chǎn)生過擬合淤翔;如果n<p,最小二乘回歸得不到有意義的結(jié)果珍手。

通常解決過擬合問題办铡, 采用的方法就是:通過變量選擇來減少變量數(shù)目, 以及正則化琳要。

3. 變量選擇

線性回歸的模型寡具,經(jīng)常有自變量和與部分因變量是無關(guān)的,又有些自變量之間本身就是明顯相關(guān)(即共線性問題)稚补, 這些問題會增加模型的復(fù)雜性童叠,以及模型的解釋能力。針對這問題课幕, 引入變量選擇厦坛,或者叫特征選擇。
變量的選擇方法有:

  • 子集選擇 包括逐步回歸和最優(yōu)子集法等乍惊,對可能的部分子集擬合線性模型杜秸,利用判別準(zhǔn)則 (如AIC,BIC,Cp,調(diào)整R2 等)決定最優(yōu)的模型。
  • 收縮方法(shrinkage method) 收縮方法又稱為正則化(regularization)润绎。主要是嶺回歸(ridge regression)和lasso回歸撬碟。嶺回歸可以解決共線性問題诞挨。Lasso使某些系數(shù)的估計為0,達(dá)到去除變量的效果呢蛤。
  • 降維 主成分回歸(PCR)和偏最小二乘回歸(PLS)的方法惶傻。把p個預(yù)測變量投影到m維空間(m<p),利用投影得到的不相關(guān)的組合建立線性模型其障。

4 正則化

為解決過擬合問題银室,回歸模型可在損失函數(shù)的后面加上一個約束條件從而限制模型的復(fù)雜度,這個約束條件即為正則化励翼。線性回歸的L1正則與L2正則:
嶺回歸L2范式:


嶺回歸L2正則

Lasso回歸L1范式:

Lasso回歸L1正則

如下圖蜈敢,假設(shè)存在一個二元預(yù)測模型x = (x1, x2),對應(yīng)存在兩個系數(shù)w=(w1, w2)抚笔。 左邊圖是Lasso回歸扶认, 右邊表示的是嶺回歸圖。等高線的紅色橢圓形是最小二乘法的誤差項(或者損失函數(shù)殊橙,等高線是指誤差項取值相同的點的連線)辐宾, 藍(lán)色部分是懲罰項(正則化項)的約束條件:Lasso是||Beta1|| + ||Beta2|| < t, 圖形如左邊膨蛮, 嶺回歸的懲罰項是||Beta1||^2 + ||Beta2||^2 < t叠纹,如右邊藍(lán)色圓圈。

L1和L2正則化

加入正則化后模型求得的系數(shù)解w的值敞葛, 一定是在損失函數(shù)項和正則化項之間誉察,即出現(xiàn)在圖中損失函數(shù)項等值線與正則化項等值線相交處。采用L1范數(shù)時誤差項的等值線與懲罰項等值線的交點出現(xiàn)在(參數(shù)空間)坐標(biāo)軸上惹谐,即w1或w2為0持偏;而在采用L2范數(shù)時,兩個等值線的相交點常出現(xiàn)在某個象限內(nèi)(如圖示第2象限)氨肌,即w1或w2均非0鸿秆。因此Lasso具有選擇變量的作用。

PS: 懲罰項中還存在一個參數(shù)怎囚,是lambda卿叽, 這是一個可調(diào)參數(shù)。求這個參數(shù)常見方法時:交叉驗證或者Cp準(zhǔn)則恳守。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末考婴,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子催烘,更是在濱河造成了極大的恐慌沥阱,老刑警劉巖,帶你破解...
    沈念sama閱讀 210,914評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件伊群,死亡現(xiàn)場離奇詭異考杉,居然都是意外死亡屁使,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,935評論 2 383
  • 文/潘曉璐 我一進(jìn)店門奔则,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蔽午,你說我怎么就攤上這事易茬。” “怎么了及老?”我有些...
    開封第一講書人閱讀 156,531評論 0 345
  • 文/不壞的土叔 我叫張陵抽莱,是天一觀的道長。 經(jīng)常有香客問我骄恶,道長食铐,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,309評論 1 282
  • 正文 為了忘掉前任僧鲁,我火速辦了婚禮虐呻,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘寞秃。我一直安慰自己斟叼,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,381評論 5 384
  • 文/花漫 我一把揭開白布春寿。 她就那樣靜靜地躺著朗涩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绑改。 梳的紋絲不亂的頭發(fā)上谢床,一...
    開封第一講書人閱讀 49,730評論 1 289
  • 那天,我揣著相機與錄音厘线,去河邊找鬼识腿。 笑死,一個胖子當(dāng)著我的面吹牛皆的,可吹牛的內(nèi)容都是我干的覆履。 我是一名探鬼主播,決...
    沈念sama閱讀 38,882評論 3 404
  • 文/蒼蘭香墨 我猛地睜開眼费薄,長吁一口氣:“原來是場噩夢啊……” “哼硝全!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起楞抡,我...
    開封第一講書人閱讀 37,643評論 0 266
  • 序言:老撾萬榮一對情侶失蹤伟众,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后召廷,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體凳厢,經(jīng)...
    沈念sama閱讀 44,095評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡账胧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,448評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了先紫。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片治泥。...
    茶點故事閱讀 38,566評論 1 339
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖遮精,靈堂內(nèi)的尸體忽然破棺而出居夹,到底是詐尸還是另有隱情,我是刑警寧澤本冲,帶...
    沈念sama閱讀 34,253評論 4 328
  • 正文 年R本政府宣布准脂,位于F島的核電站,受9級特大地震影響檬洞,放射性物質(zhì)發(fā)生泄漏狸膏。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,829評論 3 312
  • 文/蒙蒙 一添怔、第九天 我趴在偏房一處隱蔽的房頂上張望湾戳。 院中可真熱鬧,春花似錦澎灸、人聲如沸院塞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,715評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽拦止。三九已至,卻和暖如春糜颠,著一層夾襖步出監(jiān)牢的瞬間汹族,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,945評論 1 264
  • 我被黑心中介騙來泰國打工其兴, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留顶瞒,地道東北人。 一個月前我還...
    沈念sama閱讀 46,248評論 2 360
  • 正文 我出身青樓元旬,卻偏偏與公主長得像榴徐,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子匀归,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,440評論 2 348

推薦閱讀更多精彩內(nèi)容