CS229學(xué)習(xí)筆記(一)——線性回歸(Linear Regression)

? ? 我們加入房屋的臥室數(shù)量作為該例的另一特征量:

? ? 這樣缨睡,x是一個(gè)二維矢量,例如x^{(i)}_1代表該訓(xùn)練集中第i個(gè)房屋的住房面積陈辱,而x^{(i)}_2代表其臥室數(shù)量奖年。

? ? 我們使用關(guān)于x的線性函數(shù)去估計(jì)y

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? h_\theta (x)=\theta _0+\theta _1x_1+\theta _2x_2

為了簡(jiǎn)化公式,我們約定?x_0=1intercept term)沛贪,因此有:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? h(x)=\sum_{i=0}^n \theta _ix_i=\theta ^Tx

等式最右部分我們將\theta x均視為矢量陋守,n表示輸入變量的數(shù)量(不包含x_0)。

? ? 為了衡量對(duì)每一\theta利赋,h(x^{(i)})與相應(yīng)的y^{(i)}的逼近程度水评,我們定義代價(jià)函數(shù)(cost function):

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? J(\theta)=\frac{1}{2}\sum_{i=1}^m (h_\theta(x^{(i)})-y^{(i)})^2

(一)概率解釋

? ? 當(dāng)我們面對(duì)一個(gè)回歸問(wèn)題,為什么線性回歸媚送,特別地中燥,最小均方代價(jià)函數(shù)J是合理的選擇?

? ? 我們假定目標(biāo)變量與其輸入有如下等式關(guān)系:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? y^{(i)}=\theta^Tx^{(i)}+\epsilon ^{(i)},

這里塘偎,\epsilon ^{(i)}是誤差項(xiàng)(error term)疗涉,捕捉未建模效應(yīng)(例如拿霉,有許多特征量與房?jī)r(jià)相關(guān),但我們未在線性回歸中考慮他們)咱扣,或隨機(jī)噪聲绽淘。讓我們進(jìn)一步假設(shè)\epsilon ^{(i)}是服從均值為0,方差為\sigma ^2的高斯分布的獨(dú)立同分布變量偏窝。即\epsilon ^{(i)} ~~N(0收恢,\sigma^2),則\epsilon ^{(i)}的概率分布為:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? p(\epsilon ^2)=\frac{1}{\sqrt{2\pi }\sigma } exp(-\frac{(\epsilon^{(i)})^2}{2\sigma^2} ),

故 ? ? ? ? ? ? ? ? ? ? ? ? ?? p(y^{(i)}|x^{(i)}; \theta)=\frac{1}{\sqrt{2\pi }\sigma } exp(-\frac{(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2} )祭往。?

似然函數(shù): ? ? ? ? ? ? ? ? ? ? ? ? ? L(\theta)=L(\theta;X,\vec{y} )=p(\vec{y}|x; \theta).

根據(jù)之前對(duì)\epsilon ^{(i)}的獨(dú)立性假設(shè),

? ? ? ? ? ? ? ? ? L(\theta)=\prod_{i=1}^m p(y^{(i)}|x^{(i)}; \theta)=\prod_{i=1}^m \frac{1}{\sqrt{2\pi }\sigma } exp(-\frac{(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2} )

? ? 現(xiàn)在伦意,給定這個(gè)關(guān)于y^{(i)}x^{(i)}的概率模型,如何去獲得參數(shù)\theta的值硼补?根據(jù)最大似然估計(jì)法驮肉,通過(guò)選擇參數(shù)\theta使得樣本數(shù)據(jù)有最大概率。因此已骇,我們應(yīng)選擇參數(shù)\theta去最大化L(\theta)离钝。

? ? 為了簡(jiǎn)化推導(dǎo),我們選擇最大化對(duì)數(shù)似然函數(shù)(log likelihood functionl(\theta): l(\theta) = log L(\theta) = log \prod_{i=1}^m \frac{1}{\sqrt{2\pi }\sigma } exp(-\frac{(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2} ) =\sum_{ i=1}^m log \frac{1}{\sqrt{2\pi }\sigma } exp(-\frac{(y^{(i)}-\theta^T x^{(i)})^2}{2\sigma^2} ) =m log \frac{1}{\sqrt{2\pi}} - \frac{1} {\sigma^{2}} \frac{1}{2}\sum_{i=1}^m   ( y^{(i) } - \theta^T x^{(i)}  )  ^2

因此褪储,最大化l(\theta)即最小化

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? \frac{1}{2}\sum_{i=1}^m   ( y^{(i) } - \theta^T x^{(i)}  )  ^2卵渴,

即為我們最初的最小均方代價(jià)函數(shù)J(\theta)

結(jié)論:基于之前的概率假設(shè)鲤竹,線性回歸法即是找到\theta的最大似然估計(jì)值浪读。

(二)最小均方算法(LMS algorithm)

? ? 我們想要通過(guò)選取\theta 去最小化J(\theta),所以辛藻,讓我們使用一個(gè)搜索算法碘橘,從\theta的“初始猜測(cè)值”開(kāi)始,不斷改變\theta的值去減少J(\theta)吱肌,直到得到收斂值\theta痘拆,使得J(\theta)最小。我們考慮梯度下降算法(gradient descent algorithm):

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? \theta_j := \theta_j - \alpha \frac3v62wy1{d\theta_j} J(\theta)

(更新對(duì)所有j = 0,...,n同時(shí)進(jìn)行氮墨。)這里纺蛆,\alpha 稱(chēng)為學(xué)習(xí)率(learning rate)。

? ? 為了完成這個(gè)算法规揪,我們需要計(jì)算出等式右邊的偏導(dǎo)數(shù)犹撒,當(dāng)只有一個(gè)訓(xùn)練例子(x,y)時(shí),有:

? ? ? ? ? \fracaqstzpe{d\theta_j}  = \frackxrzr0x{d\theta_j} \frac{1}{2} (h_\theta (x) - y)^2 = 2 *\frac{1}{2}(h_\theta - y)*\fracan2c0xd{d\theta_j}( h_\theta(x) -y)

? ? ? ? ? ? ? ? ? =(h_\theta(x) - y)*\frac105ry7q{d\theta_j}(\sum_{i=0}^n \theta_i x_i - y) =( h_\theta(x) - y)x_j粒褒。

? ? 對(duì)一個(gè)訓(xùn)練例子识颊,我們給定以下更新規(guī)律:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? \theta_j := \theta_j - \alpha (y^{(i)}-h_\theta(x^{(i)}))x^{(i)}_j

該規(guī)律被稱(chēng)為LMS更新規(guī)則(LMS代表“l(fā)east mean squares”最小均方根)。

? ? 當(dāng)訓(xùn)練集中不止一個(gè)例子時(shí)祥款,有兩種方法修改LMS更新規(guī)則清笨,

? ? (1)批處理梯度下降算法(Batch Gradient Descent

Repeat until convergence\{

? ? ? ? ? ? ? ? ??  \theta_j := \theta_j - \alpha \sum_{i=1}^m (y^{(i)}-h_\theta(x^{(i)}))x^{(i)}_j ? ?? (for every j)

\}


? ? 隨著迭代次數(shù)的增加,每次的迭代變化會(huì)很小刃跛,可以設(shè)定一閾值抠艾,當(dāng)兩次迭代小于該閾值時(shí),就停止迭代桨昙,得到的結(jié)果也近似最優(yōu)解检号。

(2)隨機(jī)梯度下降(stochastic gradient descent also incremental gradient descent

? ? Loop\{

? ? ? ? ?? for?i=1 to?m,\{

? ? ? ? ? ? ? ? ? ? ? ? ?? \theta_j := \theta_j - \alpha (y^{(i)}-h_\theta(x^{(i)}))x^{(i)}_j ? ? ?? (for every j).

? ? ? ? ?? \}

\}

?? 批處理梯度下降在執(zhí)行每一次迭代時(shí),都需要遍歷整個(gè)訓(xùn)練集蛙酪,當(dāng)m較大時(shí)齐苛,算法會(huì)非常耗時(shí),而隨機(jī)梯度下降算法只需對(duì)當(dāng)前傳入的例子進(jìn)行更新桂塞。值得注意的是凹蜂,隨機(jī)梯度下降算法永遠(yuǎn)不會(huì)在最優(yōu)值收斂,參數(shù)\theta的值會(huì)在J(\theta)的最小值附近持續(xù)震蕩阁危,但是實(shí)際上玛痊,在最優(yōu)值附近的值都是對(duì)最優(yōu)值的合理估計(jì)。當(dāng)訓(xùn)練集較大時(shí)狂打,我們一般都會(huì)優(yōu)先選擇隨機(jī)梯度算法擂煞。

(三)正規(guī)方程組(the normal equations)

? ? 定義設(shè)計(jì)矩陣(design matrix)X是一個(gè)m * n的矩陣(如果我們包含截距項(xiàng),則為m * n+1矩陣)趴乡,在其行中包含訓(xùn)練例子的輸入值:

\vec{y} 為包含所有訓(xùn)練集的目標(biāo)值的n維向量:

因?yàn)?img class="math-inline" alt="h_\theta(x^{(i)})=(x^{(i)})^T \theta" src="https://math.jianshu.com/math?formula=h_%5Ctheta(x%5E%7B(i)%7D)%3D(x%5E%7B(i)%7D)%5ET%20%5Ctheta" mathimg="1">对省,我們可以很容易的得到:


由于z^Tz=\sum\nolimits_{i} z^2_i,則有

? ? ? ? ? ? ? ? ? ? ? ? ? ? \frac{1}{2} (X\theta - \vec{y} )^T (X\theta - \vec{y} )=\frac{1}{2}\sum_{i=1}^m   ( y^{(i) } - \theta^T x^{(i)}  )  ^2 = J(\theta)

因此:


為了最小化J浙宜,我們要使得其導(dǎo)數(shù)為0,所以我們得到正規(guī)方程組(normal equations):

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? X^TX\theta =X^T\vec{y}

因此蛹磺,使得J(\theta)最小的\theta值為:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? \theta = (X^TX)^{-1}X^T\vec{y}粟瞬。

(四)牛頓法(Newton's method)

? ? 假設(shè)我們有一函數(shù)f:R\rightarrow R,我們希望找到\theta使得f(\theta) = 0\theta為實(shí)數(shù))萤捆,牛頓法的更新方法如下:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? \theta := \theta - \frac {f(\theta)}{f^{’}(\theta)}

? ? 牛頓法為我們提供了讓f(\theta) = 0的方法裙品,如何利用這種方法去得到函數(shù)l的最大值呢?當(dāng)l取得最大值時(shí)俗或,有l’(\theta) = 0,所以令f(\theta) = l’(\theta)市怎,所以:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? \theta := \theta - \frac{l’(\theta)}{l’’(\theta)}

推廣到\theta為高維次的情況有:


其中H稱(chēng)為Hessian矩陣,H_{ij}=\frac{d^2l(\theta)}{d\theta_id\theta_j}辛慰。

通常而言区匠,牛頓法比批處理梯度下降法需要更少的迭代次數(shù),但由于牛頓法都需要計(jì)算n*n階Hessian矩陣及其逆矩陣,牛頓法的每一次迭代會(huì)比梯度下降更加費(fèi)時(shí)驰弄。當(dāng)m不是太大時(shí)麻汰,一般而言使用牛頓法會(huì)更快。

(五)局部加權(quán)線性回歸(Locally weighted linear regression)

? ? 讓我們考慮用x預(yù)測(cè)y戚篙,最左圖是使用y=\theta_0+\theta_1x去匹配訓(xùn)練集五鲫,可以發(fā)現(xiàn)匹配效果不是太好。

? ? 我們額外再加入一個(gè)特征量x^2岔擂,令y=\theta_0+\theta_1x+\theta_2x^2位喂,如中間那幅圖所見(jiàn),似乎參數(shù)越多乱灵,匹配的效果越好塑崖。當(dāng)使用5個(gè)參數(shù),y=\sum\nolimits_{j=0}^5 \theta_jx^j ,進(jìn)行匹配時(shí)阔蛉,結(jié)果如最右圖所示弃舒,雖然曲線完美的通過(guò)了每一個(gè)數(shù)據(jù)點(diǎn),我們依然不能說(shuō)它是在不同住房面積(x)下状原,對(duì)房屋價(jià)格(y)的合理預(yù)測(cè)器聋呢。我們稱(chēng)左圖的情況為欠擬合(underfitting),右圖的情況為過(guò)擬合(overfitting)颠区。

? ? 上述例子說(shuō)明削锰,特征量的選擇很大程度上決定了學(xué)習(xí)算法的表現(xiàn)。本部分將討論局部線性加權(quán)回歸算法(locally weighted linear regression, LWR)毕莱,使得特征量的選擇不那么重要器贩。

? ? 在原始的線性回歸算法中,為了得到在查詢點(diǎn)x預(yù)測(cè)值朋截,我們會(huì):

? ? 1蛹稍、選取使得\sum\nolimits_{i}(y^{(i)}-\theta^T x^{(i)})^2 最小的\theta值。

? ? 2部服、輸出\theta^Tx唆姐。

? ? 而在局部加權(quán)線性回歸中:

? ? 1、選取使得\sum\nolimits_{i}\omega ^{(i)}(y^{(i)}-\theta^T x^{(i)})^2 最小的\theta值廓八。

? ? 2奉芦、輸出\theta^Tx

這里剧蹂,\omega ^{(i)}是非負(fù)權(quán)值(weights)声功。顯然,當(dāng)i對(duì)應(yīng)的\omega^{(i)}很大時(shí)宠叼,在選擇\theta時(shí)會(huì)很難使得(y^{(i)}-\theta^T x^{(i)})^2 很小先巴,如果\omega^{(i)}很小,(y^{(i)}-\theta^T x^{(i)})^2 將可以忽略不計(jì)。

? ? 權(quán)值的表達(dá)式為:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?? \omega^{(i)} = exp(-\frac{(x^{(i)}-x)^2}{2\tau ^2})

如果|x^{(i)}-x|很小筹裕,那么\omega ^{(i)}會(huì)非常接近1醋闭,如果|x^{(i)}-x|很大,那么\omega ^{(i)}會(huì)很小朝卒。因此证逻,可以這樣說(shuō),在局部構(gòu)成了線性回歸算法抗斤,對(duì)于的學(xué)習(xí)囚企,主要依靠于查詢點(diǎn)x附近的值。

雖然\omega ^{(i)}的形式與高斯分布十分相似瑞眼,但與高斯分布并無(wú)關(guān)系龙宏,因?yàn)?img class="math-inline" alt="\omega^{(i)}" src="https://math.jianshu.com/math?formula=%5Comega%5E%7B(i)%7D" mathimg="1">中并無(wú)隨機(jī)變量。

? ? 局部線性加權(quán)回歸是一種非參數(shù)(non-parametric)學(xué)習(xí)算法伤疙,而之前的未加權(quán)線性回歸算法是一種參數(shù)(parametric)學(xué)習(xí)算法银酗,所謂參數(shù)學(xué)習(xí)算法,它有固定明確的參數(shù)去匹配訓(xùn)練集徒像。一旦參數(shù)確定黍特,我們就不需要保留訓(xùn)練集中的數(shù)據(jù)。相反锯蛀,當(dāng)使用局部線性加權(quán)回歸進(jìn)行·預(yù)測(cè)時(shí)灭衷,每進(jìn)行一次預(yù)測(cè),就要重新學(xué)習(xí)一次旁涤,我們需要一直保留整個(gè)訓(xùn)練集翔曲。“非參數(shù)”(non-parametric)大概指的是為了學(xué)習(xí)h所需要的保存的數(shù)據(jù)隨著訓(xùn)練集的大小線性增長(zhǎng)劈愚。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末瞳遍,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子菌羽,更是在濱河造成了極大的恐慌掠械,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,470評(píng)論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件算凿,死亡現(xiàn)場(chǎng)離奇詭異份蝴,居然都是意外死亡犁功,警方通過(guò)查閱死者的電腦和手機(jī)氓轰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)浸卦,“玉大人署鸡,你說(shuō)我怎么就攤上這事。” “怎么了靴庆?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,577評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵时捌,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我炉抒,道長(zhǎng)奢讨,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,176評(píng)論 1 292
  • 正文 為了忘掉前任焰薄,我火速辦了婚禮拿诸,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘塞茅。我一直安慰自己亩码,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布野瘦。 她就那樣靜靜地躺著描沟,像睡著了一般。 火紅的嫁衣襯著肌膚如雪鞭光。 梳的紋絲不亂的頭發(fā)上吏廉,一...
    開(kāi)封第一講書(shū)人閱讀 51,155評(píng)論 1 299
  • 那天垒拢,我揣著相機(jī)與錄音灵再,去河邊找鬼抹恳。 笑死各淀,一個(gè)胖子當(dāng)著我的面吹牛发笔,可吹牛的內(nèi)容都是我干的的圆。 我是一名探鬼主播榄攀,決...
    沈念sama閱讀 40,041評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼掘托,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼卦睹!你這毒婦竟也來(lái)了畦戒?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 38,903評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤结序,失蹤者是張志新(化名)和其女友劉穎障斋,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體徐鹤,經(jīng)...
    沈念sama閱讀 45,319評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡垃环,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了返敬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片遂庄。...
    茶點(diǎn)故事閱讀 39,703評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖劲赠,靈堂內(nèi)的尸體忽然破棺而出涛目,到底是詐尸還是另有隱情秸谢,我是刑警寧澤,帶...
    沈念sama閱讀 35,417評(píng)論 5 343
  • 正文 年R本政府宣布霹肝,位于F島的核電站估蹄,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏沫换。R本人自食惡果不足惜臭蚁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望讯赏。 院中可真熱鬧刊棕,春花似錦、人聲如沸待逞。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,664評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)识樱。三九已至嗤无,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間怜庸,已是汗流浹背当犯。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,818評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留割疾,地道東北人嚎卫。 一個(gè)月前我還...
    沈念sama閱讀 47,711評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像宏榕,于是被迫代替她去往敵國(guó)和親拓诸。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • AI人工智能時(shí)代麻昼,機(jī)器學(xué)習(xí)奠支,深度學(xué)習(xí)作為其核心,本文主要介紹機(jī)器學(xué)習(xí)的基礎(chǔ)算法抚芦,以詳細(xì)線介紹 線性回歸算法 及其 ...
    erixhao閱讀 13,854評(píng)論 0 36
  • 背景 學(xué)習(xí)深度學(xué)習(xí)已經(jīng)一段時(shí)間了倍谜,但是學(xué)習(xí)過(guò)程中總覺(jué)得缺了點(diǎn)什么,無(wú)從動(dòng)手編程叉抡。因此尔崔,我還是希望使用寫(xiě)文章的方式來(lái)...
    yjy239閱讀 2,218評(píng)論 0 7
  • https://www.cnblogs.com/hlongch/p/5734105.html https://bl...
    dopami閱讀 1,945評(píng)論 0 0
  • 佛說(shuō):無(wú)他相,無(wú)我相褥民,無(wú)眾生相季春。大千世界擾擾人,修得正果即無(wú)我轴捎。無(wú)我即快樂(lè)鹤盒。 渺渺一水間 脈脈琴中吟 柳短情思長(zhǎng) ...
    吉祥天的夏天閱讀 609評(píng)論 2 5
  • 經(jīng)常操作網(wǎng)站后臺(tái)的人都知道,現(xiàn)在大多數(shù)的網(wǎng)站系統(tǒng)侦副,如dedecms侦锯、phpcms、帝國(guó)等知名內(nèi)容管理系統(tǒng)都提供生成...
    我愛(ài)一碗香閱讀 2,406評(píng)論 0 31