1. 線性回歸
?線性回歸是利用數(shù)理統(tǒng)計中回歸分析疏唾,來確定兩種或兩種以上變量間相互依賴的定量關系的一種統(tǒng)計分析方法蓄氧。
?直觀地說,在二維情況下槐脏,已知一些點的X,Y坐標喉童,統(tǒng)計條件X與結果Y的關系,畫一條直線顿天,讓直線離所有點都盡量地近(距離之和最刑寐取),用直線抽象地表達這些點露氮,然后對新的X預測新的Y祖灰。具體實現(xiàn)一般使用最小二乘法。
?線性回歸的優(yōu)點是理解和計算都相對簡單畔规,缺點是無法解決非線性問題局扶。
2. 最小二乘法
1) 原理
?最小二乘法(ordinary least squares,簡稱OLS)的核心就是保證所有數(shù)據(jù)偏差的平方和最腥ā(“平方”的在古時侯的稱謂為“二乘”)三妈。
?我們用直線擬合一些點,直線方程是 y’=ax+b 莫绣,每點偏差是y-y’畴蒲,其中y是實際值,y’是估計值对室。sum((y-y’)^2) 最小時模燥,直線擬合最好。上試代入y’掩宜,可得 M=sum((y-(ax+b))^2) 蔫骂,對它求導取極值。此時牺汤,x,y是已知的辽旋,未知的是a和b,所以分別求M對a和b的偏導檐迟,解出的a,b即回歸系數(shù)补胚,記作W。線性回歸就是計算參數(shù)W的過程追迟。有了W溶其,就能將Y表示成多屬性的加權線性組合。
?假設有兩個變量(多元回歸)y’=w0+w1x1+w2x2怔匣,就變成了一個三維的問題握联,同樣也用誤差平方最小的方法M=sum((y’-(w0+w1x1+w2x2))^2)桦沉,M對w0,w1,w2的偏導為0處是極值,然后解出w0,w1,w2金闽。更多元的情況見下面的公式推導纯露。
?預測時,用回歸系數(shù)乘以輸入值代芜,再將結果加在一起就得到了預測值埠褪,一般用矩陣乘法實現(xiàn)。
2) 公式推導
?通過矩陣運算求解回歸系數(shù)的W={w0,w1,w2…}
3. 線性回歸代碼實現(xiàn)
# -*- coding: utf-8 -*-
import numpy as np
import matplotlib.pyplot as plt
# 訓練
def standRegres(xArr,yArr):
m,n = np.shape(xArr)
xMat = np.mat(np.ones((m, n+1))) # 加第一列設為1挤庇,為計算截距
x = np.mat(xArr)
xMat[:,1:n+1] = x[:,0:n];
yMat = np.mat(yArr).T
xTx = xMat.T*xMat
if np.linalg.det(xTx) == 0.0:
print("This matrix is sigular, cannot do inverse") #行列式的值為0钞速,無逆矩陣
return
ws = xTx.I*(xMat.T*yMat)
return ws
# 預測
def predict(xArr, ws):
m,n = np.shape(xArr)
xMat = np.mat(np.ones((m, n+1))) # 加第一列設為1, 為計算截距
x = np.mat(xArr)
xMat[:,1:n+1] = x[:,0:n];
return xMat*ws
if __name__ == '__main__':
x = [[1], [2], [3], [4]]
y = [4.1, 5.9, 8.1, 10.1]
ws = standRegres(x,y)
print(ws)
print(predict([[5]], ws))
# 畫圖
plt.scatter(x, y, s=20)
yHat = predict(x, ws)
plt.plot(x, yHat, linewidth=2.0, color='red')
plt.show()
?注意:回歸系數(shù)的個數(shù)應該比屬性多一個,用于表示截距嫡秕,在sklearn中也是這樣渴语,只不過截距相關的放在intercept_中,其它放在coef_中昆咽。
4. 邏輯回歸
?邏輯回歸驾凶,也叫邏輯斯蒂回歸,logistic regression掷酗。
?有監(jiān)督學習常分成:分類和回歸调违,不要一聽xx回歸,以為就是預測具體值了泻轰,這里的“邏輯回歸”其實是個分類的方法技肩。之所以叫邏輯回歸,是因為最常見用它處理二分類問題浮声,即分類為0或1(邏輯值)虚婿。如圖所示,它是用一條直線泳挥,將實例分類雳锋。
?與線性回歸不同的只是這里的Y是分類0或1,而不是具體數(shù)值羡洁。所以它叫廣義線性模型。
?把具體數(shù)據(jù)對應成0,1的方法是sigmoid爽丹,sigmoid函數(shù)只能分兩類筑煮,而softmax能分多類,softmax是sigmoid的擴展粤蝎。
5. Sigmoid函數(shù)
?Sigmoid函數(shù)真仲,就是S型函數(shù),這就是一個數(shù)值和邏輯值間轉換的工具初澎,如下圖示秸应,它把X從負無窮到正無窮映射到Y的0-1之間虑凛。很多時候需要求極值,而0,1分類不是連續(xù)的软啼,不可導桑谍,所以用一個平滑的函數(shù)擬合邏輯值,因為用了它祸挪,所以這叫邏輯回歸锣披。