Linear Regression
線性回歸(Linear Regression)是一種線性模型(linear model),它將各個特征進行線性組合,實現(xiàn)對新輸入的預測
線性回歸可解釋性很強,因為特征對應的權(quán)值大小直接衡量了這個特征的重要性
表示形式
設(shè)每個輸入x_i都有m個特征,每個特征x_ij對應一個權(quán)值w_j
對于一個輸入
現(xiàn)有訓練集T={(x1,y1),(x2,y2),...,(xN,yN)},(xi和yi的取值范圍視具體情況決定),則線性回歸的形式為:
屬性值離散
像高度,質(zhì)量,速度這種屬性值連續(xù)的變量,直接把其數(shù)值賦給對應的x即可
對于屬性值是離散的情況
- 如果屬性的各個取值有某種順序,也就是存在序(order)關(guān)系,那么可以通過連續(xù)化將其轉(zhuǎn)化為連續(xù)值,例如高度不取連續(xù)值而是用低,中,高這三個離散值表示時,可以按低=1,中=2,高=3處理
- 如果屬性的各個取值見不存在序關(guān)系,則將其轉(zhuǎn)化為向量形式,比如one-hot形式,以花的顏色為例,取值為紅,黃,藍,可以將取值編碼為紅=(1,0,0),黃=(0,1,0),藍=(0,0,1)
目標函數(shù)
均方誤差有很好的幾何含義,它表示的是歐式距離(Euclidean distance),基于均方誤差最小化來進行模型求解的方差稱為"最小二乘法"(least square method).在線性回歸中,最小二乘法就是試圖找到一條直線,使所有樣本到直線上的歐氏距離之和最小
L(w,b)分別對w,b求偏導,并令偏導為0可得到w,b的解析解,關(guān)于求導細節(jié),可以看矩陣求導
參考:
周志華,機器學習