機(jī)器學(xué)習(xí)筆記——線性回歸

在寫(xiě)線性回歸的筆記前班眯，我覺(jué)得有必要介紹一下機(jī)器學(xué)習(xí)的概念和現(xiàn)在機(jī)器學(xué)習(xí)的大體的一些架構(gòu)和概念希停。

機(jī)器學(xué)習(xí)的定義

套用coursera上的說(shuō)法烁巫。對(duì)于機(jī)器學(xué)習(xí)，并沒(méi)有一個(gè)一致認(rèn)同的定義宠能，一個(gè)比較古老的定義是由Arthur Samuel在1959
年給出的：
“機(jī)器學(xué)習(xí)研究的是如何賦予計(jì)算機(jī)在沒(méi)有被明確編程的情況下仍能夠?qū)W習(xí)的能力亚隙。
(Field of study that fives computers the ability to learn without being explicitly
programmed.)”
Samuel 編寫(xiě)了一個(gè)跳棋游戲的程序，并且讓這個(gè)程序和程序自身玩了幾萬(wàn)局跳棋游戲违崇，并且
記錄下來(lái)棋盤(pán)上的什么位置可能會(huì)導(dǎo)致怎樣的結(jié)果阿弃，隨著時(shí)間的推移，計(jì)算機(jī)學(xué)會(huì)了棋盤(pán)上的
哪些位置可能會(huì)導(dǎo)致勝利羞延，并且最終戰(zhàn)勝了設(shè)計(jì)程序的 Samuel.
另一個(gè)比較現(xiàn)代且形式化的定義是由 Tom Mitchell 在 1998 年給出的：
“對(duì)于某個(gè)任務(wù) T 和表現(xiàn)的衡量 P渣淳，當(dāng)計(jì)算機(jī)程序在該任務(wù) T 的表現(xiàn)上，經(jīng)過(guò) P 的衡量伴箩，
隨著經(jīng)驗(yàn) E 而增長(zhǎng)入愧，我們便稱計(jì)算機(jī)程序能夠通過(guò)經(jīng)驗(yàn) E 來(lái)學(xué)習(xí)該任務(wù)。( computer program
is said to learn from experience E with respect to some task T and some performance
measure P, if its performance on T, as measured by P, improves with experience E.)”
在跳棋游戲的例子中嗤谚，任務(wù) T 是玩跳棋游戲棺蛛，P 是游戲的輸贏，E 則是一局又一局的游戲巩步。
一些機(jī)器學(xué)習(xí)的應(yīng)用舉例：

數(shù)據(jù)庫(kù)挖掘
一些無(wú)法通過(guò)手動(dòng)編程來(lái)編寫(xiě)的應(yīng)用：如自然語(yǔ)言處理鞠值，計(jì)算機(jī)視覺(jué)
一些自助式的程序：如推薦系統(tǒng)
理解人類是如何學(xué)習(xí)的

機(jī)器學(xué)習(xí)的架構(gòu)

這里寫(xiě)圖片描述

　　我覺(jué)得關(guān)于這方面李弘毅教授的機(jī)器學(xué)習(xí)的課中講的非常的好，這是課程的主頁(yè)感興趣的可以去看一下http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML16.html渗钉。我們時(shí)常聽(tīng)到Supervise Learning,Unsupervised Learning.....等等之類的名詞，并且也理解其中的意思钞钙。但是在沒(méi)看到這張圖之前我對(duì)于這些概念其實(shí)還是不是特別的清楚鳄橘。
　　1. 在這個(gè)圖中藍(lán)色的部分和其中的名詞代表的是我們已知的數(shù)據(jù)。舉個(gè)例子說(shuō)芒炼，Supervised Learning代表我們擁有數(shù)據(jù)以及以及這些數(shù)據(jù)的標(biāo)簽瘫怜，而Reinforcenment Learning是有部分有限的帶有標(biāo)簽的數(shù)據(jù)，和一個(gè)判別模型本刽，Reinforcement Learning一個(gè)出門(mén)的例子是alpha Go鲸湃。工程師們先用人類以前下過(guò)的棋譜來(lái)訓(xùn)練它，這個(gè)寫(xiě)棋譜就是帶標(biāo)簽的數(shù)據(jù)子寓，但是棋譜的數(shù)量是有限的所以為了更一步提高暗挑，就讓不同的alpha Go的副本自我博弈，然后根據(jù)勝負(fù)這個(gè)結(jié)果來(lái)判別斜友，讓機(jī)器內(nèi)部自我調(diào)整炸裆。在這里難道工程師不想用Supervised Learning嗎？但是由于棋譜的數(shù)量限制所以根據(jù)實(shí)際的情況選擇了Reinforcement Learning鲜屏。
　　2. 在這個(gè)圖中紅色的部分代表我們想要得到的輸出烹看，Regression表示我們希望得到是一些數(shù)值国拇，比如說(shuō)是對(duì)于房產(chǎn)價(jià)格的預(yù)測(cè)，或者是找出RTT惯殊，初始緩沖峰值速率和初始緩沖時(shí)延之間的關(guān)系.... Classification表示我們想要對(duì)已知的信息進(jìn)行分類酱吝，例如我們想要區(qū)分一個(gè)郵件是不是一個(gè)垃圾郵件，或者是給海量的新聞打上類別的標(biāo)簽土思。而Structured Learning希望得到的則是更加復(fù)雜的輸出务热，比如說(shuō)人臉識(shí)別中人臉的位置，這里希望得到的輸出顯然不是一個(gè)數(shù)字浪漠，也不是一個(gè)離散的類別陕习。（對(duì)于Structured Learning我的理解還不是很清楚，就不多寫(xiě)了址愿。等到學(xué)習(xí)了實(shí)際的例子有了更加深入的了解之后再來(lái)更新）该镣。
　　3.圖中綠色的部分是我們解決問(wèn)題使用的方法,有線性模型，深度學(xué)習(xí).....之類的方法响谓。我們根據(jù)需要去選擇不同的方法也就是模型來(lái)解決我們的問(wèn)題损合。

特征縮放

在對(duì)較多的參數(shù)進(jìn)行梯度下降求最優(yōu)參數(shù)的時(shí)候，我們一般會(huì)對(duì)數(shù)據(jù)進(jìn)行特征縮放娘纷，將所有數(shù)據(jù)的范圍映射到一個(gè)相同的范圍內(nèi)嫁审。視頻和書(shū)告訴我們這樣做有利與梯度下降時(shí)尋找最有的參數(shù)，但是這是為什么呢赖晶？假設(shè)我們現(xiàn)在有兩個(gè)參數(shù)x1,x2律适，他們可能的假設(shè)函數(shù)是這樣的$$y=b+w_1x_1+w_2x_2$$如果$x_1$和$x_2$的大小差距很大，$x_2$的取值遠(yuǎn)大于$x_1$遏插，如圖所示

圖片

因?yàn)?x_2$的取值特別大所以只需要$w_2$有很小的變化就會(huì)引起$y$有很大的變化捂贿，$w_1$正好相反。同理根據(jù)loss function的公式可以知道$w_2$很小的變化會(huì)引起loss function較大的變化胳嘲。所以畫(huà)出來(lái)$w_1,w_2$和loss function的等高圖就如下圖所示厂僧，$w_2$這條軸上的變化比$w_1$這條軸上的變化劇烈的多，整個(gè)圖形呈現(xiàn)出橢圓形了牛。而經(jīng)過(guò)特征縮放后的等高圖則更像一個(gè)個(gè)同心圓颜屠。那么為什么同心圓比橢圓要好一些呢？其實(shí)從梯度下降的路徑我們就可以看出一些東西鹰祸。上面這個(gè)圖的路徑是彎曲的走向最優(yōu)解甫窟，而下面這個(gè)是直接走向最優(yōu)解。這是因?yàn)樘荻认陆档拿恳徊蕉际窍虍?dāng)前位置下降最快的地方進(jìn)行的蛙婴，也就是沿著等高線的法線方向進(jìn)行蕴坪。

無(wú)

誤差的來(lái)源

在我們進(jìn)行使用模型進(jìn)行預(yù)測(cè)的時(shí)候會(huì)有誤差的存在，那么誤差的來(lái)源是什么呢？誤差主要由兩個(gè)部分組成：bias+variance背传。關(guān)于bais和variance的解釋呆瞻，感覺(jué)知乎上的一位答主寫(xiě)的比較好。大家可以去看一下這里是原文的鏈接：https://www.zhihu.com/question/27068705径玖。下面是原文中的一張圖痴脾，感覺(jué)比較形象的描述了這個(gè)問(wèn)題。

圖片

　　總的來(lái)說(shuō)感覺(jué)是這樣的：

bias反映的是模型和樣本數(shù)據(jù)的擬合程度梳星。bais越小說(shuō)明模型和樣本數(shù)據(jù)的擬合程度越高赞赖。
variance反映就是用樣本數(shù)據(jù)訓(xùn)練好的模型在測(cè)試數(shù)據(jù)中的表現(xiàn)。而variance越小說(shuō)明模型的泛化能力越強(qiáng)更具有通用性冤灾，測(cè)試數(shù)據(jù)會(huì)和樣本數(shù)據(jù)得到類似的結(jié)果偏差不會(huì)太大前域。

這個(gè)理解的方式和李宏毅的視頻中的解釋有點(diǎn)點(diǎn)不一樣，在李宏毅的視頻中韵吨。

bias指的是訓(xùn)練得到的模型的期望值和理想的模型之間的差距匿垄。也就是圖中藍(lán)色的線條和黑色的線條之間的差距。一般而言復(fù)雜的模型bias易班比較小归粉，如圖5次的黑線明顯和理想的藍(lán)線比較貼近椿疗。

圖片
variance是模型對(duì)數(shù)據(jù)的敏感程度，variance越低的模型對(duì)模型的敏感程度就越低糠悼。這樣模型的通用性就好一些届榄。一般而言簡(jiǎn)單的模型的variance要小一些，復(fù)雜的要大一些倔喂。如下圖所示5次的模型的variance明顯比1次的要大铝条。

這里寫(xiě)圖片描述

　　那么為什么復(fù)雜模型的bias要小一些而簡(jiǎn)單模型的要大一些呢？因?yàn)槟Ｐ驮綇?fù)雜那么它所能夠表現(xiàn)的形式就越多就可以更貼近那個(gè)理想的模型席噩，顯然5次的多項(xiàng)式是可以表示一條直線的攻晒。
　　為什么簡(jiǎn)單模型的variance要小一些而復(fù)雜模型的要大一些呢？因?yàn)楹?jiǎn)單模型對(duì)數(shù)據(jù)沒(méi)有復(fù)雜模型那么敏感班挖，可以看到在上圖中的很多次實(shí)驗(yàn)中，1次的直線長(zhǎng)的都差不多都是那個(gè)樣子芯砸，而5次的就各種各樣了萧芙。視頻中舉了一個(gè)極端的例子，就是常函數(shù)假丧，如果是一個(gè)常函數(shù)的話双揪。那么模型就對(duì)數(shù)據(jù)完全不敏感包帚，variance就是0了。
　　那么如何判斷自己模型出錯(cuò)是受那種誤差的影響呢？其實(shí)這個(gè)應(yīng)該是比較簡(jiǎn)單的疯趟，如果出現(xiàn)了unfitting那么就是bias太大了，也就是模型連訓(xùn)練數(shù)據(jù)都擬合不好信峻。如果出現(xiàn)了overfitting那么就是variance太大了，也就是在訓(xùn)練數(shù)據(jù)中擬合的特別好盹舞，在測(cè)試數(shù)據(jù)中結(jié)果比較差。
那么如何降低bias呢踢步？

正如上面提到的可以通過(guò)提高模型的復(fù)雜度可以有效的增加bias。比如在多項(xiàng)式擬合中選用更高的次數(shù)获印。
在視頻中還提到一個(gè)方法就是 Add more features as input述雾，增加特征輸入的種類。因?yàn)檫@個(gè)結(jié)果可能不止和你選擇的特征有關(guān)蓬豁，增加輸入的特征的種類當(dāng)然可以減小bias绰咽。
那么如何如何降低variance呢？
最好的方法應(yīng)該就是增加數(shù)據(jù)的輸入量了（這應(yīng)該也就是大數(shù)據(jù)的魅力所在吧）地粪。通過(guò)增加數(shù)據(jù)量取募，那些大量的正確的數(shù)據(jù)就會(huì)降低錯(cuò)誤的數(shù)據(jù)對(duì)復(fù)雜模型的影響，模型也就越接近理想的模型了蟆技。
但是現(xiàn)實(shí)生活中我們往往找不到那么多數(shù)據(jù)玩敏，這個(gè)時(shí)候就需要正則化的幫助了。（這里我理解的還不是很好质礼，以后再來(lái)補(bǔ)充吧）旺聚。

最后編輯于：2017.12.07 17:07:41

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市眶蕉，隨后出現(xiàn)的幾起案子砰粹，更是在濱河造成了極大的恐慌，老刑警劉巖造挽，帶你破解...
沈念sama閱讀 211,042評(píng)論 6贊 490
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件碱璃，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡饭入，警方通過(guò)查閱死者的電腦和手機(jī)嵌器，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 89,996評(píng)論 2贊 384
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)谐丢，“玉大人爽航，你說(shuō)我怎么就攤上這事蚓让。” “怎么了讥珍？”我有些...
開(kāi)封第一講書(shū)人閱讀 156,674評(píng)論 0贊 345
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵历极，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我串述，道長(zhǎng)执解，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 56,340評(píng)論 1贊 283
?港島之戀（遺憾婚禮）
正文為了忘掉前任纲酗，我火速辦了婚禮衰腌，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘觅赊。我一直安慰自己右蕊，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 65,404評(píng)論 5贊 384
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布吮螺。她就那樣靜靜地躺著饶囚，像睡著了一般。火紅的嫁衣襯著肌膚如雪萝风。梳的紋絲不亂的頭發(fā)上紫岩，一...
開(kāi)封第一講書(shū)人閱讀 49,749評(píng)論 1贊 289
城市分裂傳說(shuō)
那天泉蝌，我揣著相機(jī)與錄音，去河邊找鬼贪磺。笑死诅愚，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的刹前。我是一名探鬼主播，決...
沈念sama閱讀 38,902評(píng)論 3贊 405
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼摹蘑！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起撒踪，我...
開(kāi)封第一講書(shū)人閱讀 37,662評(píng)論 0贊 266
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤制妄，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后衔掸，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體俺抽，經(jīng)...
沈念sama閱讀 44,110評(píng)論 1贊 303
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 36,451評(píng)論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年振愿，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了冕末。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片侣颂。...
茶點(diǎn)故事閱讀 38,577評(píng)論 1贊 340
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡横蜒，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出丛晌，到底是詐尸還是另有隱情，我是刑警寧澤抚垄，帶...
沈念sama閱讀 34,258評(píng)論 4贊 328
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布呆馁，位于F島的核電站毁兆，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏气堕。R本人自食惡果不足惜畔咧，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,848評(píng)論 3贊 312
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一誓沸、第九天我趴在偏房一處隱蔽的房頂上張望拜隧。院中可真熱鬧，春花似錦洪添、人聲如沸幸撕。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 30,726評(píng)論 0贊 21
一樁弒父案律胀，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)貌矿。三九已至，卻和暖如春黑低，著一層夾襖步出監(jiān)牢的瞬間酌毡，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 31,952評(píng)論 1贊 264
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工菩暗，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留旭蠕，地道東北人。一個(gè)月前我還...
沈念sama閱讀 46,271評(píng)論 2贊 360
代替公主和親
正文我出身青樓佑稠，卻偏偏與公主長(zhǎng)得像旗芬，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子幔嫂，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 43,452評(píng)論 2贊 348

機(jī)器學(xué)習(xí)筆記——線性回歸

機(jī)器學(xué)習(xí)的定義

機(jī)器學(xué)習(xí)的架構(gòu)

特征縮放

誤差的來(lái)源

推薦閱讀更多精彩內(nèi)容