線性回歸及其推廣
選擇度量模型性能的指標舰讹,一般有:
線性回歸的推廣
當數(shù)據(jù)存在非線性關(guān)系時梯影,我們使用線性回歸模型進行預測會導致預測性能極其低下居扒,因為模型的形式本身是線性的不铆,無法表達數(shù)據(jù)中的非線性關(guān)系。我們一個很自然的想法就是去推廣線性回歸模型啥纸,使得推廣后的模型更能表達非線性的關(guān)系号杏。
多項式回歸
tips:多項式的階數(shù)d不能取過大,一般不大于3或者4斯棒,因為d越大盾致,多項式曲線就會越光滑,在X的邊界處有異常的波動(邊界處的置信區(qū)間會擴大到很大)荣暮,并且容易造成過擬合庭惜,使預測效果的穩(wěn)定性下降。
在sklearn中的實現(xiàn):
參考網(wǎng)址:
廣義可加模型(GAM)
GAM模型的優(yōu)點與不足:
優(yōu)點:簡單容易操作穗酥,能夠很自然地推廣線性回歸模型至非線性模型蜈块,使得模型的預測精度有所上升;由于模型本身是可加的迷扇,因此GAM還是能像線性回歸模型一樣把其他因素控制不變的情況下單獨對某個變量進行推斷,極大地保留了線性回歸的易于推斷的性質(zhì)爽哎。
缺點:GAM模型會經(jīng)常忽略一些有意義的交互作用蜓席,比如某兩個特征共同影響因變量,不過GAM還是能像線性回歸一樣加入交互項??(??) × ??(??)的形式進行建模课锌;但是GAM模型本質(zhì)上還是一個可加模型厨内,如果我們能擺脫可加性模型形式,可能還會提升模型預測精度渺贤,詳情請看后面的算法雏胃。
GAM的實現(xiàn):
參考網(wǎng)址:
https://github.com/dswah/pyGAM/blob/master/doc/source/notebooks/quick_start.ipynb
回歸樹
基于樹的回歸方法主要是依據(jù)分層和分割的方式將特征空間劃分為一系列簡單的區(qū)域。對某個給定的待預測的自變量志鞍,用他所屬區(qū)域中訓練集的平均數(shù)或者眾數(shù)對其進行預測瞭亮。由于劃分特征空間的分裂規(guī)則可以用樹的形式進行概括,因此這類方法稱為決策樹方法固棚。決策樹由結(jié)點(node)和有向邊(diredcted edge)組成统翩。結(jié)點有兩種類型:內(nèi)部結(jié)點(internal node)和葉結(jié)點(leaf node)。內(nèi)部結(jié)點表示一個特征或?qū)傩裕?b>葉結(jié)點表示一個類別或者某個值此洲。區(qū)域??1 , ??2等稱為葉節(jié)點厂汗,將特征空間分開的點為內(nèi)部節(jié)點。
回歸樹與線性模型的比較:
那問題來了呜师,哪種模型更優(yōu)呢娶桦?這個要視具體情況而言,如果特征變量與因變量的關(guān)系能很好的用線性關(guān)系來表達,那么線性回歸通常有著不錯的預測效果衷畦,擬合效果則優(yōu)于不能揭示線性結(jié)構(gòu)的回歸樹栗涂。反之,如果特征變量與因變量的關(guān)系呈現(xiàn)高度復雜的非線性霎匈,那么樹方法比傳統(tǒng)方法更優(yōu)戴差。
樹模型的優(yōu)缺點:
樹模型的解釋性強,在解釋性方面可能比線性回歸還要方便铛嘱。
樹模型更接近人的決策方式暖释。
樹模型可以用圖來表示,非專業(yè)人士也可以輕松解讀墨吓。
樹模型可以直接做定性的特征而不需要像線性回歸一樣啞元化球匕。
樹模型能很好處理缺失值和異常值,對異常值不敏感帖烘,但是這個對線性模型來說卻是致命的亮曹。
樹模型的預測準確性一般無法達到其他回歸模型的水平,但是改進的方法很多秘症。
回歸樹在sklearn中的實現(xiàn):
參考網(wǎng)址:
支持向量機回歸(SVR)
SVR與線性模型的比較:
在線性回歸的理論中照卦,每個樣本點都要計算平方損失,但是SVR卻是不一樣的乡摹。SVR為:落在??(??)的??鄰域空間中的樣本點不需要計算損失役耕,這些都是預測正確的,其余的落在??域空間以外的樣本才需要計算損失(如下圖所示)聪廉,因此:
SVR在sklearn中的實現(xiàn):
參考網(wǎng)址:
https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html?highlight=svr#sklearn.svm.SVR