線性回歸算法

一酌毡、機(jī)器學(xué)習(xí)基本概念

1.有監(jiān)督&無監(jiān)督

\quad有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的主要區(qū)別體現(xiàn)在用于訓(xùn)練的數(shù)據(jù)集是否有反饋值辆脸,即用于糾偏的正確答案但校。
\quad有監(jiān)督學(xué)習(xí)通過學(xué)習(xí)輸入數(shù)據(jù)(X)和輸出數(shù)據(jù)(y)之間模式,建立模型進(jìn)行分類或預(yù)測啡氢。比如邏輯回歸状囱、決策樹等都是有監(jiān)督分類。訓(xùn)練時通過模型預(yù)測值與實際值的誤差進(jìn)行參數(shù)優(yōu)化求解倘是。
\quad無監(jiān)督學(xué)習(xí)直接輸入數(shù)據(jù)(X)進(jìn)行學(xué)習(xí)亭枷,通過數(shù)據(jù)之間的聯(lián)系進(jìn)行建模,比如聚類搀崭,通過距離衡量樣本的相似性進(jìn)行簇的劃分叨粘。

2.泛化能力

\quad泛化能力指的是訓(xùn)練好的模型在未知數(shù)據(jù)集上的預(yù)測能力。即在訓(xùn)練集上表現(xiàn)很好的模型對于新的數(shù)據(jù)是否依然能有很好的預(yù)測準(zhǔn)確率。

3.過擬合&欠擬合及解決方法

偏差:指預(yù)測輸出與真實標(biāo)記的差別升敲;度量學(xué)習(xí)算法的期望預(yù)測與真實結(jié)果的偏離程度袍镀。
方差:刻畫數(shù)據(jù)擾動所造成的影響;表示所有模型構(gòu)建的預(yù)測函數(shù)冻晤,與真實函數(shù)的差別有多大苇羡。(可聯(lián)想統(tǒng)計學(xué)中方差刻畫的是數(shù)據(jù)集的離散程度。)


過擬合&欠擬合及解決方法.png

訓(xùn)練和測試的準(zhǔn)確率都很差時鼻弧,可能是因為數(shù)據(jù)量不夠设江,可以嘗試
增加樣本量或交叉驗證。
注:數(shù)據(jù)量是個相對的概念攘轩,需要結(jié)合特征維度去考量叉存,當(dāng)維度很高時,訓(xùn)練所需要的數(shù)據(jù)量呈指數(shù)級增加度帮。

4.交叉驗證

\quad一般情況下需要將數(shù)據(jù)集劃分為訓(xùn)練集和測試集歼捏,在訓(xùn)練集上進(jìn)行模型訓(xùn)練,在測試集上進(jìn)行驗證調(diào)優(yōu)笨篷。但數(shù)據(jù)集劃分具有隨機(jī)性瞳秽,模型偏誤會依賴數(shù)據(jù)集的劃分,不同的劃分方法會產(chǎn)生不同的模型預(yù)測誤差率翅,參數(shù)選擇也不同练俐。因此提出了交叉驗證的方法。
\quadk折交叉驗證將數(shù)據(jù)集平均分為k份冕臭,每次選擇其中一份作為測試集腺晾,用剩下的k-1份數(shù)據(jù)進(jìn)行模型訓(xùn)練,共進(jìn)行k次訓(xùn)練辜贵,最后使用平均誤差衡量模型的性能悯蝉。

二、損失函數(shù)vs代價函數(shù)vs目標(biāo)函數(shù)

損失函數(shù)是針對單個樣本來說的托慨;
風(fēng)險函數(shù)是損失函數(shù)的期望(經(jīng)驗風(fēng)險)鼻由;
目標(biāo)函數(shù):代價函數(shù)(經(jīng)驗風(fēng)險)+正則化項(結(jié)構(gòu)風(fēng)險,衡量模型復(fù)雜度)

三榴芳、線性回歸原理

1.簡單線性回歸

假設(shè)輸入數(shù)據(jù)集D有n個樣本嗡靡,d個特征,則:
D=\lgroup{ (x^{(1)},y_1) , (x^{(2)},y_2) ...(x^{(n)},y_n) } \rgroup
其中第i個樣本表示為:
(x^{(i)},y_i)=(x_1^{(i)},x_2^{(i)},...x_d^{(i)},y_i)
線性模型通過建立線性組合進(jìn)行預(yù)測窟感。我們的假設(shè)函數(shù)為:
h_\theta(x_1,x_2,...x_d)=\theta_0+\theta_1x_1+\theta_2x_2+...+\theta_dx_d \qquad(1)
其中\theta_0,\theta_1...\theta_d為模型參數(shù)讨彼。
x_0=1x^{(i)}=(x_1^{(i)},x_2^{(i)},...x_d^{(i)})為行向量柿祈,令
X=\begin{bmatrix} x^{(0)}\\ x^{(1)}\\ \vdots\\ x^{(n)} \end{bmatrix}_{n \times d}哈误, \theta=\begin{bmatrix} \theta_0\\ \theta_1\\ \vdots\\ \theta_d \end{bmatrix}_{d \times 1} 哩至, Y=\begin{bmatrix} y_1\\ y_2\\ \vdots\\ y_n \end{bmatrix}_{n \times 1}
Xn \times d維矩陣,\thetad \times 1維向量,則假設(shè)函數(shù)(1)式可表示為:
h_\theta(X)=X\theta
損失函數(shù)為均方誤差蜜自,即
J(\theta)=\frac{1}{2} (X\theta - Y)^T (X\theta - Y)
最小二乘法求解參數(shù)菩貌,損失函數(shù)J(\theta)\theta求導(dǎo):
\nabla J(\theta)=2X^T(X\theta-Y)
\nabla J(\theta)=0,得\theta=(X^TX)^{-1}X^TY

2.線性回歸的正則化

為防止模型的過擬合重荠,通常選擇在損失函數(shù)加上正則化項箭阶。
線性回歸的L1正則化為lasso,損失函數(shù)為:
J(\theta)=\frac{1}{2} (X\theta - Y)^T (X\theta - Y)+\alpha||\theta||_1
線性回歸的L2正則化為嶺回歸戈鲁,損失函數(shù)為:
J(\theta)=\frac{1}{2} (X\theta - Y)^T (X\theta - Y)+\frac{1}{2}\alpha||\theta||_2^2
其中\alpha為常數(shù)系數(shù)仇参,需要調(diào)優(yōu)。
L1范數(shù)不可導(dǎo)婆殿,因此不能用最小二乘或梯度下降法求解參數(shù)诈乒,一般用坐標(biāo)軸下降法等求解。

四婆芦、 優(yōu)化方法

1.梯度下降法

\quad梯度下降法常用來求解無約束最優(yōu)化問題怕磨,是一種迭代方法:損失函數(shù)J(\theta)\theta為需要求解的參數(shù)消约;選取初值\theta_0肠鲫,不斷迭代更新\theta的值,進(jìn)行損失函數(shù)的極小化荆陆。
將第t次迭代后的損失函數(shù)J(\theta^t)\theta^{t-1}處進(jìn)行一階泰勒展開:
J(\theta^t)=J(\theta^{t-1})+\nabla J(\theta^{t-1}) \Delta \theta
要想使J(\theta^t) < J(\theta^{t-1})滩届,可取\Delta \theta=-\alpha \nabla J(\theta^{t-1})

則迭代公式為:
\theta^t=\theta^{t-1}+\Delta \theta =\theta^{t-1} - \alpha \nabla J(\theta^{t-1})
其中\alpha為步長。

2.牛頓法

將第t次迭代后的損失函數(shù)J(\theta^t)\theta^{t-1}處進(jìn)行二階泰勒展開:
J(\theta^t)=J(\theta^{t-1})+\nabla J(\theta^{t-1})\Delta \theta + \nabla ^2 J(\theta^{t-1}) \frac{\Delta \theta^2}{2}
為了簡化問題被啼,先假設(shè)參數(shù)是標(biāo)量,將一階導(dǎo)數(shù)和二階導(dǎo)數(shù)分別記為gh棠枉,則有:
J(\theta^t)=J(\theta^{t-1})+g \Delta \theta + h \frac{\Delta \theta ^2}{2}
要使J(\theta ^t)最小化浓体,即讓g \Delta \theta + h \frac{\Delta \theta ^2}{2} 最小,對\Delta \theta求導(dǎo)辈讶,令其等于0命浴,可得\Delta \theta=-\frac{g}{h},故:
\theta ^t = \theta ^{t-1} +\Delta \theta =\theta ^{t-1} - \frac{g}{h}
推廣到向量形式贱除,則迭代公式為:
\theta ^t=\theta ^{t-1} - H^{-1}g
其中H為海森矩陣生闲。

3.擬牛頓法

\quad梯度下降法和牛頓法都需要計算梯度,如果存在不可導(dǎo)的情況則無法求解月幌,因此擬牛頓法構(gòu)造出了近似海森矩陣的正定對稱陣碍讯,進(jìn)行目標(biāo)函數(shù)的優(yōu)化。

五扯躺、評估指標(biāo)

R-Square:R^2=\frac{回歸平方和}{總平方和}捉兴,
度量回歸模型擬合程度蝎困,反應(yīng)了因變量y的變差中被模型所解釋的比例。
MSE:均方誤差倍啥,即預(yù)測值與真實值之間誤差平方和的均值禾乘。
RMSE:均方根誤差。
MAE:平均絕對誤差虽缕。

六始藕、簡單線性回歸sklearn參數(shù)詳解

                 from sklearn.linear_model import LinearRegression
簡單線性回歸參數(shù).png

參考
https://blog.csdn.net/qq_28448117/article/details/79199835?from=singlemessage
https://www.cnblogs.com/pinard/p/6004041.html
https://zhuanlan.zhihu.com/p/24709748
https://blog.csdn.net/garfielder007/article/details/51646604
https://blog.csdn.net/u013704227/article/details/77604500
https://blog.csdn.net/hurry0808/article/details/78148756

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市氮趋,隨后出現(xiàn)的幾起案子鳄虱,更是在濱河造成了極大的恐慌,老刑警劉巖凭峡,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件拙已,死亡現(xiàn)場離奇詭異,居然都是意外死亡摧冀,警方通過查閱死者的電腦和手機(jī)倍踪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來索昂,“玉大人建车,你說我怎么就攤上這事〗凡遥” “怎么了缤至?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長康谆。 經(jīng)常有香客問我领斥,道長,這世上最難降的妖魔是什么沃暗? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任月洛,我火速辦了婚禮,結(jié)果婚禮上孽锥,老公的妹妹穿的比我還像新娘嚼黔。我一直安慰自己,他們只是感情好惜辑,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布唬涧。 她就那樣靜靜地躺著,像睡著了一般盛撑。 火紅的嫁衣襯著肌膚如雪碎节。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天撵彻,我揣著相機(jī)與錄音钓株,去河邊找鬼实牡。 笑死,一個胖子當(dāng)著我的面吹牛轴合,可吹牛的內(nèi)容都是我干的创坞。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼受葛,長吁一口氣:“原來是場噩夢啊……” “哼题涨!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起总滩,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤纲堵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后闰渔,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體席函,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年冈涧,在試婚紗的時候發(fā)現(xiàn)自己被綠了茂附。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡督弓,死狀恐怖营曼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情愚隧,我是刑警寧澤蒂阱,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站狂塘,受9級特大地震影響录煤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜睹耐,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一辐赞、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧硝训,春花似錦、人聲如沸新思。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽夹囚。三九已至纵刘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間荸哟,已是汗流浹背假哎。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工瞬捕, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人舵抹。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓肪虎,卻偏偏與公主長得像,于是被迫代替她去往敵國和親惧蛹。 傳聞我的和親對象是個殘疾皇子扇救,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353