連載 | 機器學習基石 Lec 2: PLA & Pocket

Lec 2: Learning to Answer Yes/No

上一節(jié)中介紹了機器學習的概念和符號表示剧蹂，這節(jié)主要介紹一個簡單的模型PLA渗柿，這將是學習其他模型的基礎與出發(fā)點。本章符號含義參照上一章肛走。

1焚志、Perceptron Hypothesis Set

在進行“yes／no”分類時，對輸入 x＝(x1,x2,...,xd) 胆筒，計算weighted score邮破，當score>閾值，我們就得出yes（＋1）結果腐泻，score<閾值時决乎，我們得出no（－1）結果。這就是簡單的Perceptron派桩。所以它的output ?y ＝｛＋1构诚，－1｝，h可以寫作：

感知機的向量形式：

那這個h（x）長什么樣子铆惑？以最直觀的二維平面為例范嘱，它就是一條直線送膳，將平面分為yes／no兩個部分。

Perceptron是線性分類器 linear（binary）classifiers丑蛤，更高維度時與二維類似叠聋，例如三維時是平面分割空間等等。

2受裹、PLA（perceptron learning algorithm）

（可以在直觀的二維空間進行想象）

H是平面上所有的線碌补，我們需要選擇出 g .那什么樣子的線是理想的線？當然是能正確劃分所有data的線棉饶。但是我們無法得到f厦章，不過我們可以在已有的data上找出像是f的g，即g正確劃分全部已有的data照藻。由于H是無限大的袜啃，找出這樣的g似乎也不太容易，那應該怎么做呢幸缕？PLA群发！先找出一條線g0，然后再去correct它在data上的mistakes发乔，讓線變的越來越好熟妓。如何實現(xiàn)這個idea？

給出一些解釋：

先找一個w0初始化栏尚，然后逐步糾錯滑蚯。

“Cyclic”表示：如果有N個點，就從1到N順序循環(huán)看是否有出錯的點抵栈。當然也可以用其他方式進行循環(huán)告材。

（1）找出一個錯誤的點，即目前得到的“線”給出的結果與yn不等（符號不同）古劲。

（2）更新w向量斥赋。為什么要用這種更新方式？下面介紹

一直到?jīng)]有錯誤产艾。

關于更新w向量：

mistakes有兩種情況：

1）y為＋1疤剑，g(x)為－1

幾何含義為w（紅色）和x的夾角太大了，如何變忻票ぁ隘膘？w和x相加，紫色為糾正后的w杠览。

如下面這個栗子中弯菊，此時在x9上產(chǎn)生了錯誤，x9和w（紅色）夾角是鈍角踱阿，更新w（紫色）后管钳，新的線是下一張圖2钦铁。（注意：幾何代數(shù)知識可知w是線的法向量，即w與線垂直才漆。）

圖1

2）y為－1牛曹，g(x)為＋1

幾何含義為w和x的夾角小了，如何變大醇滥？w和x相減黎比。

接上圖1，此時是銳角情況鸳玩。

圖2

經(jīng)過不斷的更新糾錯調整焰手，最終可以得到滿意的g。

現(xiàn)在考慮一個問題：PLA一定可以停下來嗎怀喉？即一定可以完美劃分現(xiàn)有data嗎？如果可以停下來（halt）船响，在未來data上g會等于f嗎躬拢？如果不能halt，情況會怎么樣见间？

3聊闯、PLA的理論保障

這節(jié)將會證明在一些情況下，PLA可以停下來米诉。至于在未來data上的表現(xiàn)菱蔬，之后的課會涉及。

沒有錯的時候PLA終止史侣，所以首先拴泌，我們手上的data要可以被一條“線”分開，這樣的D叫做linear separable 惊橱。相反情況叫做not linear separable蚪腐，如圖：

那有了線性可分的D之后PLA是不是就能找到這樣的線了呢？

我們可以看下Wf（理想的w）和Wt＋1（更新后的w）是否在逐漸接近税朴？作內積回季，內積越大越接近。

最后一步中正林，為什么min項>0泡一？很簡單，Wf對應的線是理想中的線觅廓，一定可以正確劃分xn鼻忠，所以y和score相乘一定>=0。不等于0表示所有data離線都有一定的距離杈绸。

這樣我們就得到Wf和Wt+1的內積越來越大粥烁。但是你是否有一個疑惑贤笆？兩個向量內積越來越大也有可能是向量長度在作祟。確實讨阻，那如何證明Wf和Wt+1是在接近呢芥永？這就會用到PLA一個關鍵點：mistake的時候更新w《鬯保可以證明mistake會限制||Wt||平方的增長埋涧，最多增長最長的Xn的平方大小。

其實可以證明經(jīng)過T次糾錯后奇瘦，Wf和WT的單位向量內積會大于根號T乘一個常量棘催，這就表示wf和wt是在靠近（角度越來越小）耳标。并且T有上限醇坝，即有限次更新后可以得到g。具體證明略次坡。

到這可以感受到呼猪，雖然PLA很簡單，其實也蘊含了數(shù)學理論保障砸琅。有沒有覺得很奇妙宋距？后面的model會更奇妙。

4症脂、Pocket

通過上一節(jié)知道谚赎，D線性可分的時候，PLA可以halt诱篷，但是其實我們并不能提前知道D是否可分壶唤。如果D不是線性可分的，該怎么辦棕所？

在機器學習中视粮，事實上我們取得的Data一般都有noise（Noisy Data）。這時橙凳，就算理想的f是一條完美的線蕾殴，我們取得的data也不見得就是線性可分的。在不確定D是否線性可分的情況下岛啸，我們如何得到一條較好的線钓觉？很自然的想法就是，可以試著找到一條犯錯最少的線:

可惜坚踩，這個問題是個NP－h(huán)ard問題荡灾。不過，可以試著去接近這個“good” g，即Pocket算法：

第三步和PLA不一樣批幌，當新的w比手中的wt犯錯少的時候才更新础锐，可以看做是modify PLA，循環(huán)足夠多輪后停止荧缘。其思想很簡單皆警，一直keep得到的最好的w。

最后編輯于：2017.12.04 05:29:47

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末截粗，一起剝皮案震驚了整個濱河市信姓，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌绸罗，老刑警劉巖意推，帶你破解...
沈念sama閱讀 212,718評論 6贊 492
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異珊蟀，居然都是意外死亡菊值，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,683評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門育灸，熙熙樓的掌柜王于貴愁眉苦臉地迎上來腻窒，“玉大人，你說我怎么就攤上這事描扯。” “怎么了趟薄？”我有些...
開封第一講書人閱讀 158,207評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵绽诚，是天一觀的道長。經(jīng)常有香客問我杭煎，道長恩够，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 56,755評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任羡铲，我火速辦了婚禮蜂桶，結果婚禮上，老公的妹妹穿的比我還像新娘也切。我一直安慰自己扑媚，他們只是感情好，可當我...
茶點故事閱讀 65,862評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布雷恃。她就那樣靜靜地躺著疆股，像睡著了一般。火紅的嫁衣襯著肌膚如雪倒槐。梳的紋絲不亂的頭發(fā)上旬痹，一...
開封第一講書人閱讀 50,050評論 1贊 291
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼两残。笑死永毅，一個胖子當著我的面吹牛，可吹牛的內容都是我干的人弓。我是一名探鬼主播沼死，決...
沈念sama閱讀 39,136評論 3贊 410
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼票从！你這毒婦竟也來了漫雕？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 37,882評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤峰鄙，失蹤者是張志新（化名）和其女友劉穎浸间，沒想到半個月后，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吟榴，經(jīng)...
沈念sama閱讀 44,330評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡魁蒜，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 36,651評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了吩翻。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兜看。...
茶點故事閱讀 38,789評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖狭瞎，靈堂內的尸體忽然破棺而出细移，到底是詐尸還是另有隱情，我是刑警寧澤熊锭，帶...
沈念sama閱讀 34,477評論 4贊 333
?日本核電站爆炸內幕
正文年R本政府宣布弧轧，位于F島的核電站，受9級特大地震影響碗殷，放射性物質發(fā)生泄漏精绎。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 40,135評論 3贊 317
男人毒藥：我在死后第九天來索命
文/蒙蒙一锌妻、第九天我趴在偏房一處隱蔽的房頂上張望代乃。院中可真熱鬧，春花似錦仿粹、人聲如沸搁吓。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,864評論 0贊 21
一樁弒父案吭历，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽擎浴。三九已至，卻和暖如春毒涧，著一層夾襖步出監(jiān)牢的瞬間贮预，已是汗流浹背贝室。一陣腳步聲響...
開封第一講書人閱讀 32,099評論 1贊 267
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留仿吞，地道東北人滑频。一個月前我還...
沈念sama閱讀 46,598評論 2贊 362
代替公主和親
正文我出身青樓，卻偏偏與公主長得像唤冈，于是被迫代替她去往敵國和親峡迷。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 43,697評論 2贊 351

連載 | 機器學習基石 Lec 2: PLA & Pocket

Lec 2: Learning to Answer Yes/No

推薦閱讀更多精彩內容