Task02 - 掌握基本的回歸模型

線性回歸及其推廣

選擇度量模型性能的指標舰讹,一般有:

線性回歸的推廣

當數(shù)據(jù)存在非線性關(guān)系時梯影,我們使用線性回歸模型進行預測會導致預測性能極其低下居扒,因為模型的形式本身是線性的不铆,無法表達數(shù)據(jù)中的非線性關(guān)系。我們一個很自然的想法就是去推廣線性回歸模型啥纸,使得推廣后的模型更能表達非線性的關(guān)系号杏。

多項式回歸

tips:多項式的階數(shù)d不能取過大,一般不大于3或者4斯棒,因為d越大盾致,多項式曲線就會越光滑,在X的邊界處有異常的波動(邊界處的置信區(qū)間會擴大到很大)荣暮,并且容易造成過擬合庭惜,使預測效果的穩(wěn)定性下降。

在sklearn中的實現(xiàn):

參考網(wǎng)址:

https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.PolynomialFeatures.html?highlight=poly#sklearn.preprocessing.PolynomialFeatures

廣義可加模型(GAM)

GAM模型的優(yōu)點與不足:

優(yōu)點:簡單容易操作穗酥,能夠很自然地推廣線性回歸模型至非線性模型蜈块,使得模型的預測精度有所上升;由于模型本身是可加的迷扇,因此GAM還是能像線性回歸模型一樣把其他因素控制不變的情況下單獨對某個變量進行推斷,極大地保留了線性回歸的易于推斷的性質(zhì)爽哎。

缺點:GAM模型會經(jīng)常忽略一些有意義的交互作用蜓席,比如某兩個特征共同影響因變量,不過GAM還是能像線性回歸一樣加入交互項??(??) × ??(??)的形式進行建模课锌;但是GAM模型本質(zhì)上還是一個可加模型厨内,如果我們能擺脫可加性模型形式,可能還會提升模型預測精度渺贤,詳情請看后面的算法雏胃。

GAM的實現(xiàn):

參考網(wǎng)址:

https://github.com/dswah/pyGAM/blob/master/doc/source/notebooks/quick_start.ipynb

回歸樹

基于樹的回歸方法主要是依據(jù)分層和分割的方式將特征空間劃分為一系列簡單的區(qū)域。對某個給定的待預測的自變量志鞍,用他所屬區(qū)域中訓練集的平均數(shù)或者眾數(shù)對其進行預測瞭亮。由于劃分特征空間的分裂規(guī)則可以用樹的形式進行概括,因此這類方法稱為決策樹方法固棚。決策樹由結(jié)點(node)和有向邊(diredcted edge)組成统翩。結(jié)點有兩種類型:內(nèi)部結(jié)點(internal node)和葉結(jié)點(leaf node)。內(nèi)部結(jié)點表示一個特征或?qū)傩裕?b>葉結(jié)點表示一個類別或者某個值此洲。區(qū)域??1 , ??2等稱為葉節(jié)點厂汗,將特征空間分開的點為內(nèi)部節(jié)點。

回歸樹與線性模型的比較:

那問題來了呜师,哪種模型更優(yōu)呢娶桦?這個要視具體情況而言,如果特征變量與因變量的關(guān)系能很好的用線性關(guān)系來表達,那么線性回歸通常有著不錯的預測效果衷畦,擬合效果則優(yōu)于不能揭示線性結(jié)構(gòu)的回歸樹栗涂。反之,如果特征變量與因變量的關(guān)系呈現(xiàn)高度復雜的非線性霎匈,那么樹方法比傳統(tǒng)方法更優(yōu)戴差。

樹模型的優(yōu)缺點:

樹模型的解釋性強,在解釋性方面可能比線性回歸還要方便铛嘱。

樹模型更接近人的決策方式暖释。

樹模型可以用圖來表示,非專業(yè)人士也可以輕松解讀墨吓。

樹模型可以直接做定性的特征而不需要像線性回歸一樣啞元化球匕。

樹模型能很好處理缺失值和異常值,對異常值不敏感帖烘,但是這個對線性模型來說卻是致命的亮曹。

樹模型的預測準確性一般無法達到其他回歸模型的水平,但是改進的方法很多秘症。

回歸樹在sklearn中的實現(xiàn):

參考網(wǎng)址:

https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeRegressor.html?highlight=tree#sklearn.tree.DecisionTreeRegressor


支持向量機回歸(SVR)

SVR與線性模型的比較:

在線性回歸的理論中照卦,每個樣本點都要計算平方損失,但是SVR卻是不一樣的乡摹。SVR為:落在??(??)的??鄰域空間中的樣本點不需要計算損失役耕,這些都是預測正確的,其余的落在??域空間以外的樣本才需要計算損失(如下圖所示)聪廉,因此:

SVR在sklearn中的實現(xiàn):

參考網(wǎng)址:

https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html?highlight=svr#sklearn.svm.SVR

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末瞬痘,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子板熊,更是在濱河造成了極大的恐慌框全,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,252評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件干签,死亡現(xiàn)場離奇詭異津辩,居然都是意外死亡,警方通過查閱死者的電腦和手機筒严,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,886評論 3 399
  • 文/潘曉璐 我一進店門丹泉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人鸭蛙,你說我怎么就攤上這事摹恨。” “怎么了娶视?”我有些...
    開封第一講書人閱讀 168,814評論 0 361
  • 文/不壞的土叔 我叫張陵晒哄,是天一觀的道長睁宰。 經(jīng)常有香客問我,道長寝凌,這世上最難降的妖魔是什么柒傻? 我笑而不...
    開封第一講書人閱讀 59,869評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮较木,結(jié)果婚禮上红符,老公的妹妹穿的比我還像新娘。我一直安慰自己伐债,他們只是感情好预侯,可當我...
    茶點故事閱讀 68,888評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著峰锁,像睡著了一般萎馅。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上虹蒋,一...
    開封第一講書人閱讀 52,475評論 1 312
  • 那天糜芳,我揣著相機與錄音,去河邊找鬼魄衅。 笑死峭竣,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的晃虫。 我是一名探鬼主播邪驮,決...
    沈念sama閱讀 41,010評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼傲茄!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起沮榜,我...
    開封第一講書人閱讀 39,924評論 0 277
  • 序言:老撾萬榮一對情侶失蹤盘榨,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后蟆融,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體草巡,經(jīng)...
    沈念sama閱讀 46,469評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,552評論 3 342
  • 正文 我和宋清朗相戀三年型酥,在試婚紗的時候發(fā)現(xiàn)自己被綠了山憨。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,680評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡弥喉,死狀恐怖郁竟,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情由境,我是刑警寧澤棚亩,帶...
    沈念sama閱讀 36,362評論 5 351
  • 正文 年R本政府宣布蓖议,位于F島的核電站,受9級特大地震影響讥蟆,放射性物質(zhì)發(fā)生泄漏勒虾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 42,037評論 3 335
  • 文/蒙蒙 一瘸彤、第九天 我趴在偏房一處隱蔽的房頂上張望修然。 院中可真熱鬧,春花似錦质况、人聲如沸愕宋。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,519評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽掏婶。三九已至,卻和暖如春潭陪,著一層夾襖步出監(jiān)牢的瞬間雄妥,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,621評論 1 274
  • 我被黑心中介騙來泰國打工依溯, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留老厌,地道東北人。 一個月前我還...
    沈念sama閱讀 49,099評論 3 378
  • 正文 我出身青樓黎炉,卻偏偏與公主長得像枝秤,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子慷嗜,可洞房花燭夜當晚...
    茶點故事閱讀 45,691評論 2 361

推薦閱讀更多精彩內(nèi)容