1.從數(shù)據(jù)反推公式
????????假設(shè)獲得下面一張表格冲粤,列舉了美國(guó)紐約若干程序員職位的年薪亮隙。
????????根據(jù)表格中的特征,我們把Experience與Salary抽取出來(lái)危纫,用x和y來(lái)分別指代它們。
????????我們可以先在二維坐標(biāo)系里通過(guò)畫圖來(lái)看一下x與y的關(guān)系:
????????把這6個(gè)點(diǎn)連起來(lái)乌庶,基本上就成了一條直線种蝶。那么假設(shè)存在,是合理的瞒大。
????????既然認(rèn)為和
滿足線性相關(guān)關(guān)系螃征,那么線性函數(shù):
,就是我們的模型函數(shù)透敌。其中
也可以用
來(lái)表示盯滚。
????????我們要做的是綜合利用所有的訓(xùn)練數(shù)據(jù)求出中常數(shù)
和常數(shù)
的值踢械。
2.線性回歸的目標(biāo)函數(shù)
????????綜合利用的原則就是我們要求的這個(gè)和
,在將訓(xùn)練樣本的x逐個(gè)帶入后魄藕,得出的預(yù)測(cè)年薪
與真實(shí)年薪
整體的差異最小内列。
????????具體的一個(gè)樣本的和
的差異用
來(lái)表示。
????????怎么衡量這個(gè)整體差距呢泼疑?我們用下面這個(gè)公式,我們把它叫做為Cost Function荷荤,形式如下(其中為樣本的個(gè)數(shù)退渗,在本例中
為6):
????????在這個(gè)模型函數(shù)中,
和
是常量參數(shù)蕴纳,
是自變量会油,而
是因變量。
????????但到了中古毛,
和
是常量參數(shù)(也就是
個(gè)樣本各自的
和
值)翻翩,而
和
成了自變量,
是因變量稻薇。能夠讓因變量
取值最小的自變量
和
嫂冻,就是最好的
和
。
????????我們要做的就是找到最好的和
塞椎。
3.線性的定義
????????線性回歸模型是:利用線性函數(shù)對(duì)一個(gè)活多個(gè)自變量(或
)和因變量(
)之間的關(guān)系進(jìn)行擬合的模型桨仿。
????????也就是說(shuō),線性回歸模型構(gòu)建成功后案狠,這個(gè)模型表現(xiàn)為線性函數(shù)的形式服傍。
????????線性函數(shù)的定義是:一階(或更低階)多項(xiàng)式,或零多項(xiàng)式骂铁。
????????當(dāng)線性函數(shù)只有一個(gè)自變量時(shí)吹零,。
的函數(shù)形式是:
——一階多項(xiàng)式
或者
——零階多項(xiàng)式
或者
——零多項(xiàng)式
????????但如果有多個(gè)獨(dú)立自變量钞支,的函數(shù)形式則是:
????????換言之阱扬,直角坐標(biāo)系中,除了平行于軸的那些直線之外伸辟,所有的直線都可以對(duì)應(yīng)一個(gè)一維特征(自變量)的線性回歸模型(一元多項(xiàng)式函數(shù))麻惶。
????????但如果樣本特征本身是多維的,則最終的線性模型函數(shù)是一個(gè)多維空間內(nèi)的[一階|零階|零]多項(xiàng)式信夫。
????????總結(jié):特征是一維的窃蹋,線性模型在二維空間構(gòu)成一條直線卡啰;特征是二維的,線性模型在三維空間中構(gòu)成一個(gè)平面警没;若特征是三維的匈辱,則最終模型在四維空間中構(gòu)成一個(gè)體,以此類推杀迹。
4.用線性回歸模型擬合非線性關(guān)系
????????在輸入特征只有一個(gè)的情況下亡脸,是不是只能在二維空間擬合直線呢?其實(shí)也不一定树酪。
????????線性模型并非完全不可能擬合自變量和因變量之間的非線性關(guān)系浅碾。
????????比如有一個(gè)樣本,只有一個(gè)特征续语,我們把特征和結(jié)果作圖以后發(fā)現(xiàn)垂谢,是下圖這樣的:
????????上圖樣本和結(jié)果的關(guān)系走勢(shì)根本不是直線,更像是二階曲線疮茄。
????????這個(gè)時(shí)候滥朱,我們完全可以把特征從一個(gè)“變成”兩個(gè):
設(shè)
,有:
????????
????????這就相當(dāng)于擬合了一條二階多項(xiàng)式對(duì)應(yīng)的曲線力试。
再設(shè)
徙邻,則:
????????
????????這樣一來(lái),我們只需要在二維向量空間里訓(xùn)練畸裳,就可以了鹃栽。
????????當(dāng)然,這種操作也不限于在一維到二維之間的轉(zhuǎn)換躯畴,一維也可以轉(zhuǎn)為三維民鼓、四維、n維蓬抄;或者原本的k維也可以每一維都求平方后作為新特征引入丰嘉,轉(zhuǎn)為2k維,如此種種......依需要而取就好嚷缭。