連載 | 機器學習基石 Lec 9: 線性回歸

Tips：未進行解釋的符號主要參照lec1睦裳，部分需要參照其他lec～

前面幾個Lecture介紹了why can ML赫悄？并介紹了一個簡單的model：PLA 披坏。有了理論保障态坦，如何設計algorithm？下面進入How can ML 階段 ^ - ^

Lec 9 ：Linear Regression

前面提到的基本是binary classification棒拂，如銀行根據(jù)顧客信息決定是否發(fā)放信用卡……如果換成銀行想得到的是顧客的信用額度伞梯，這時就是regression問題了～

這章介紹一個新的model：Linear Regression～

1、Hypothesis & Error Measure

regression 的輸出空間y = R帚屉，什么樣的H可以輸出實數(shù)谜诫？

已有顧客的data：x = （x0，x1攻旦，x2喻旷，……，xd）牢屋，每一維的數(shù)據(jù)有不同的含義且预，如收入、年齡烙无、性別锋谐、工作等等。自然地截酷，顧客的信用額度可以用一個加權分數(shù)來衡量：

所以線性回歸模型的Hypothesis可以表示為：

嗯……你會發(fā)現(xiàn)這個h（x）和perceptron的h（x）很像涮拗，只是少了取sigh。

那linear regression的H長什么樣子呢？x是一維向量和二維向量時如圖

這時的關注點不再是正負三热，而是距離鼓择。g（x）和f（x）的距離，即紅線部分就漾。一般把紅線叫做誤差或 residuals（余數(shù)呐能，在技法課程中還會看到這個概念）。

這個H的衡量標準是什么从藤？regression通常都會使用squared error 催跪，err（y^,y）= (y^ - y)的平方锁蠕，則Ein和Eout表示為：

wx 替換 h（x）

注：經(jīng)過上一節(jié)討論夷野，現(xiàn)在的setting是有noise的，x服從一個分布P（x）荣倾，y也會服從一個分布P（y|x）悯搔，x、y是聯(lián)合分布舌仍。

所以接下來的問題就是 minimize Ein（w）妒貌，求的w也就求得g。

2铸豁、minimize Ein（w）

已經(jīng)有了Ein（w）的表達式灌曙，將其轉化為矩陣形式，方便后續(xù)計算：

現(xiàn)在優(yōu)化目標是：

這個式子更簡潔节芥，w是唯一變量在刺。Ein（w）是連續(xù)函數(shù)continuous，且可微differentiable头镊，凸函數(shù)convex 蚣驼。形象點兒就是下圖這樣的：

學過微積分的應該知道，這時候存在最低點相艇，且最低點梯度為0.所以找到使梯度為0的w就是結果颖杏。（這個思路很重要）

LIN是線形回歸的意思

那就算算梯度咯……

展開Ein（w）：

用A、b坛芽、c替換已知項：

得到：

令梯度等于0留储，可以求得w。

大部分情況下（XTX）都是可逆的（因為N>>d+1咙轩，本人并沒有理解）欲鹏。如上圖所示，將一部分定義為pseudo-inverse X+,虛假的逆矩陣臭墨。在（XTX）不可逆時赔嚎，線代里面有很多求 pseudo-inverse 的方法，實際應用中，也會有很多實現(xiàn)好的工具可以用來求X+尤误，建議直接計算X+求得w侠畔。

至此，我們就得到一個完整的Linear Regression 模型损晤，完整的algorithm：

這是一個simple & efficient的算法软棺，我們只需要計算X+。

3尤勋、LR真是一個學習算法嗎喘落？？最冰？瘦棋！

似乎我們只是計算了一個X+就得到了結果，既沒有通過迭代優(yōu)化Ein也沒有優(yōu)化Eout暖哨，這真的是一個學習算法嗎赌朋？其實答案必然是，why篇裁？我們已經(jīng)使得Ein最小沛慢，dvc有限時則Eout接近Ein。實際上达布，迭代優(yōu)化的過程隱藏在X+的計算過程中了………只要最后Eout是good团甲，也就可以說 learning happened！

VC理論可以保障Eout會很小黍聂，對于LR還有另外一種解釋躺苦，這種解釋得益于analytic solution（就是可以輕易分析出結果的意思）：

先從Ein 的平均出發(fā)，Eout推導與之類似分冈。Ein的平均與VC關注的不一樣圾另，VC關注的是個別的Ein。這里的平均是指多次抽取雕沉，計算多個Ein集乔，再取平均。最終得到的結果是Ein的平均與“noise level”坡椒、“d + 1”扰路、“N”有關……

計算Ein時，Ein表示形式轉化為上圖倔叼，稱XX+為 hat matrix H汗唱，為什么？因為y乘上這個矩陣后被戴上了一個帽子 ^……哈哈哈哈哈哈哈哈丈攒，這是千真萬確哩罪。

hat matrix做了什么事情授霸？用圖解釋。

粉色部分可以看成是各個x組成的一個空間际插，span of X碘耳，X散在一個空間里面。y^ = X W框弛，其實y^就是各個x的線性組合辛辨，所以y^會在這個X 的span里面（這里就理解為一個平面就好了，輸入的x都在這個平面上瑟枫，所以線性組合出的y^也會在這個平面上）斗搞。

紫色部分是Y向量，n維慷妙。綠色部分則是y-y^的值僻焚，我們希望y - y^越小越好，最小的情況就是垂直的時候景殷，即圖中綠色的線溅呢。所以其實hat matrix就是把y投影到span of X澡屡，得到y(tǒng)^猿挚。（I - H）y就是y - y^，算得residual驶鹉。

直接給出一個結論：trace（I - H） = N - （d + 1）绩蜻，trace是對角線和。why室埋？沒給出办绝。但是其哲學含義為：原本自由度為N，投影到一個 d+1維的平面姚淆，自由度減少d + 1.

下面再看一張圖孕蝉，理解noise做了什么事情？

紅色f（X）是理想中的那個遙不可及的夢腌逢，紫色y是加入了noise 的f（X）降淮，y = noise + f(X) 。從圖上可以看出搏讶，對noise做（I - H）投影同樣是得到 y - y^這條綠色的線＜驯睢！媒惕！沒錯系吩，residual都是noise惹得禍啊……

至此，我們就可以重寫Ein這個式子：

恩妒蔚，這樣我們就得到了這節(jié)開始給出的結論：

Eout與Ein類似穿挨，只是Eout是“加上”月弛。如何理解呢？哲學上科盛，Ein是我們拿在手上的data尊搬，得到的結果自然會偏心使得Ein小一些，而Eout如果也偏向于小一些土涝，就會偏兩次佛寿！所以，Eout加但壮，再偏回來……哈哈哈哈哈哈冀泻，這節(jié)的哲學都很有趣！

Ein和Eout的平均作圖蜡饵，稱為 Learning Curve （后續(xù)章節(jié)會再提到這里）：

σ平方就是 noise level 弹渔。

這里Ein和Eout的平均差異是 2（d+1）/N 。而之前VC是考慮的最壞情況下差多少……

到這里溯祸，應該不得不相信LinReg真的是一個學習算法……

（個人小結一下：

前面的PLA已經(jīng)感受到即便很直觀很直接的簡單模型也都有著豐富的數(shù)學理論在里面肢专，后面會提到更多更復雜的模型，每一個都有數(shù)學的哲思在里面焦辅，但是至于是先有蛋還是先有雞這件事博杖，我也搞不清楚。不得不感慨筷登，數(shù)學萬歲剃根！

另外，這章的整體思路其實和后面介紹model的章節(jié)的思路都是類似的前方，大概就是先有一個Hypothesis狈醉，然后找到一個error measure，然后你就通過各種數(shù)學手段去最優(yōu)化惠险，就得到了一個學習算法……恩苗傅，基本都是這樣的。當然都是說起來容易做起來難啊……

哭）

4班巩、LinReg VS LinClassification

線性回歸和線性分類比較下吧……

直接上圖渣慕，不解釋：

上面說明了它們之間的區(qū)別，但這不是重點趣竣，重點是它們之間微妙的聯(lián)系摇庙！

其實{-1，+1} ∈ R遥缕，而線性回歸又很好解卫袒，那么是不是可以用線性回歸來做分類呢？单匣！可以夕凝！

算出regression的分數(shù)后取sign就好了……嘿嘿嘿宝穗，理論上怎么解釋呢？上圖码秉！

這個圖是什么意思呢逮矛？線性回歸和線性分類的主要區(qū)別就是錯誤衡量標準，這張圖顯示了 err（sqr）是err（0/1）的上限转砖，所以须鼎，如果err（sqr）在我們接受的范圍內，那err（0/1）必然也可以接受府蔗。（這個思路很重要）晋控。嗯哼~我們又找到了一個err（0/1）的上限，比VC bound更loose的上限姓赤。做回歸效率更高赡译，把err（0/1）換成err（sqr），相當于用上限的loose換取了efficiency不铆！

通常用回歸進行分類表現(xiàn)不會太差蝌焚，但是一般情況下，是用線性回歸算得的w作為線性分類（PLA or Pocket）的w0 誓斥，這樣可以加速分類的速度只洒。（這個思路很重要）

最后編輯于：2017.12.04 07:44:49

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市岖食，隨后出現(xiàn)的幾起案子红碑，更是在濱河造成了極大的恐慌舞吭，老刑警劉巖泡垃，帶你破解...
沈念sama閱讀 217,907評論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異羡鸥，居然都是意外死亡蔑穴，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門惧浴，熙熙樓的掌柜王于貴愁眉苦臉地迎上來存和，“玉大人，你說我怎么就攤上這事衷旅【柰龋” “怎么了？”我有些...
開封第一講書人閱讀 164,298評論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵柿顶，是天一觀的道長茄袖。經(jīng)常有香客問我，道長嘁锯，這世上最難降的妖魔是什么宪祥？我笑而不...
開封第一講書人閱讀 58,586評論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任聂薪，我火速辦了婚禮，結果婚禮上蝗羊，老公的妹妹穿的比我還像新娘藏澳。我一直安慰自己，他們只是感情好耀找，可當我...
茶點故事閱讀 67,633評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布翔悠。她就那樣靜靜地躺著，像睡著了一般野芒。火紅的嫁衣襯著肌膚如雪凉驻。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,488評論 1贊 302
城市分裂傳說
那天复罐，我揣著相機與錄音涝登，去河邊找鬼。笑死效诅，一個胖子當著我的面吹牛胀滚，可吹牛的內容都是我干的。我是一名探鬼主播乱投，決...
沈念sama閱讀 40,275評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼咽笼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了戚炫？” 一聲冷哼從身側響起剑刑，我...
開封第一講書人閱讀 39,176評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎双肤，沒想到半個月后施掏，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,619評論 1贊 314
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡茅糜，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 37,819評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年七芭，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蔑赘。...
茶點故事閱讀 39,932評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡狸驳，死狀恐怖，靈堂內的尸體忽然破棺而出缩赛，到底是詐尸還是另有隱情耙箍，我是刑警寧澤，帶...
沈念sama閱讀 35,655評論 5贊 346
?日本核電站爆炸內幕
正文年R本政府宣布酥馍，位于F島的核電站辩昆，受9級特大地震影響，放射性物質發(fā)生泄漏物喷。R本人自食惡果不足惜卤材，卻給世界環(huán)境...
茶點故事閱讀 41,265評論 3贊 329
男人毒藥：我在死后第九天來索命
文/蒙蒙一遮斥、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧扇丛，春花似錦术吗、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評論 0贊 22
一樁弒父案较屿，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至卓练，卻和暖如春隘蝎，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背襟企。一陣腳步聲響...
開封第一講書人閱讀 32,994評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工嘱么，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人顽悼。一個月前我還...
沈念sama閱讀 48,095評論 3贊 370
代替公主和親
正文我出身青樓曼振，卻偏偏與公主長得像，于是被迫代替她去往敵國和親蔚龙。傳聞我的和親對象是個殘疾皇子冰评，可洞房花燭夜當晚...
茶點故事閱讀 44,884評論 2贊 354