1. 什么是線性回歸
其實回歸算法是相對分類算法而言的赚抡,與我們想要預(yù)測的目標變量y的值類型有關(guān)蠢甲。如果目標變量y是分類型變量掷匠,如預(yù)測用戶的性別(男、女)岖圈,預(yù)測月季花的顏色(紅讹语、白、黃……)蜂科,預(yù)測是否患有肺癌(是顽决、否)短条,那我們就需要用分類算法去擬合訓(xùn)練數(shù)據(jù)并做出預(yù)測;如果y是連續(xù)型變量才菠,如預(yù)測用戶的收入(4千茸时,2萬,10萬……)赋访,預(yù)測員工的通勤距離(500m可都,1km,2萬里……)蚓耽,預(yù)測患肺癌的概率(1%渠牲,50%,99%……)步悠,我們則需要用回歸模型签杈。
聰明的你一定會發(fā)現(xiàn),有時分類問題也可以轉(zhuǎn)化為回歸問題鼎兽,例如剛剛舉例的肺癌預(yù)測答姥,我們可以用回歸模型先預(yù)測出患肺癌的概率,然后再給定一個閾值谚咬,例如50%鹦付,概率值在50%以下的人劃為沒有肺癌,50%以上則認為患有肺癌序宦。
這種分類型問題的回歸算法預(yù)測睁壁,最常用的就是邏輯回歸,后面我們會講到互捌。
2.一元線性回歸
線性回歸可以說是用法非常簡單潘明、用處非常廣泛、含義也非常容易理解的一類算法秕噪,作為機器學(xué)習(xí)的入門算法非常合適钳降。
當我們只用一個x來預(yù)測y,就是一元線性回歸腌巾,也就是在找一個直線來擬合數(shù)據(jù)遂填。
3. 損失函數(shù)
我們先從殘差說起。殘差說白了就是真實值和預(yù)測值間的差值(也可以理解為差距澈蝙、距離)吓坚,用公式表示是:
殘差平方和,即SSE(Sum of Squares for Error)灯荧,在機器學(xué)習(xí)中它是回歸問題中最常用的損失函數(shù):
4.最小二乘法
殘差平方和的公式是一個二次方程礁击,我們知道一元二次方程差不多長下圖這樣:
5. 小結(jié)
線性回歸的定義,是利用最小二乘函數(shù)對一個或多個自變量之間關(guān)系進行建模的方法。現(xiàn)在我們看這個定義哆窿,是不是覺得不難理解了呢链烈?
以上舉的例子是一維的例子(x只有一個),如果有兩個特征挚躯,就是二元線性回歸强衡,要擬合的就是二維空間中的一個平面。如果有多個特征码荔,那就是多元線性回歸:
最后再提醒一點漩勤,做線性回歸,不要忘了前提假設(shè)是y和x呈線性關(guān)系目胡,如果兩者不是線性關(guān)系锯七,就要選用其他的模型啦。