連載 | 機器學習基石 Lec 2: PLA & Pocket

Lec 2: Learning to Answer Yes/No

上一節(jié)中介紹了機器學習的概念和符號表示剧蹂,這節(jié)主要介紹一個簡單的模型PLA渗柿,這將是學習其他模型的基礎與出發(fā)點。本章符號含義參照上一章肛走。


1焚志、Perceptron Hypothesis Set

在進行“yes/no”分類時,對輸入 x=(x1,x2,...,xd) 胆筒,計算weighted score邮破,當score>閾值,我們就得出yes(+1)結果腐泻,score<閾值時决乎,我們得出no(-1)結果。這就是簡單的Perceptron派桩。所以它的output ?y = {+1构诚,-1},h可以寫作:

感知機的向量形式:

那這個h(x)長什么樣子铆惑?以最直觀的二維平面為例范嘱,它就是一條直線送膳,將平面分為yes/no兩個部分。

Perceptron是線性分類器 linear(binary)classifiers丑蛤,更高維度時與二維類似叠聋,例如三維時是平面分割空間等等。

2受裹、PLA(perceptron learning algorithm)

(可以在直觀的二維空間進行想象)

H是平面上所有的線碌补,我們需要選擇出 g .那什么樣子的線是理想的線?當然是能正確劃分所有data的線棉饶。但是我們無法得到f厦章,不過我們可以在已有的data上找出像是f的g,即g正確劃分全部已有的data照藻。由于H是無限大的袜啃,找出這樣的g似乎也不太容易,那應該怎么做呢幸缕?PLA群发!先找出一條線g0,然后再去correct它在data上的mistakes发乔,讓線變的越來越好熟妓。如何實現(xiàn)這個idea?

給出一些解釋:

先找一個w0初始化栏尚,然后逐步糾錯滑蚯。

“Cyclic”表示:如果有N個點,就從1到N順序循環(huán)看是否有出錯的點抵栈。當然也可以用其他方式進行循環(huán)告材。

(1)找出一個錯誤的點,即目前得到的“線”給出的結果與yn不等(符號不同)古劲。

(2)更新w向量斥赋。為什么要用這種更新方式?下面介紹

一直到?jīng)]有錯誤产艾。

關于更新w向量:

mistakes有兩種情況:

1)y為+1疤剑,g(x)為-1

幾何含義為w(紅色)和x的夾角太大了,如何變忻票ぁ隘膘?w和x相加,紫色為糾正后的w杠览。

如下面這個栗子中弯菊,此時在x9上產(chǎn)生了錯誤,x9和w(紅色)夾角是鈍角踱阿,更新w(紫色)后管钳,新的線是下一張圖2钦铁。(注意:幾何代數(shù)知識可知w是線的法向量,即w與線垂直才漆。)

圖1

2)y為-1牛曹,g(x)為+1

幾何含義為w和x的夾角小了,如何變大醇滥?w和x相減黎比。

接上圖1,此時是銳角情況鸳玩。

圖2

經(jīng)過不斷的更新糾錯調整焰手,最終可以得到滿意的g。

現(xiàn)在考慮一個問題:PLA一定可以停下來嗎怀喉?即一定可以完美劃分現(xiàn)有data嗎?如果可以停下來(halt)船响,在未來data上g會等于f嗎躬拢?如果不能halt,情況會怎么樣见间?

3聊闯、PLA的理論保障

這節(jié)將會證明在一些情況下,PLA可以停下來米诉。至于在未來data上的表現(xiàn)菱蔬,之后的課會涉及。


沒有錯的時候PLA終止史侣,所以首先拴泌,我們手上的data要可以被一條“線”分開,這樣的D叫做linear separable 惊橱。相反情況叫做not linear separable蚪腐,如圖:

那有了線性可分的D之后PLA是不是就能找到這樣的線了呢?

我們可以看下Wf(理想的w)和Wt+1(更新后的w)是否在逐漸接近税朴?作內積回季,內積越大越接近。

最后一步中正林,為什么min項>0泡一?很簡單,Wf對應的線是理想中的線觅廓,一定可以正確劃分xn鼻忠,所以y和score相乘一定>=0。不等于0表示所有data離線都有一定的距離杈绸。

這樣我們就得到Wf和Wt+1的內積越來越大粥烁。但是你是否有一個疑惑贤笆?兩個向量內積越來越大也有可能是向量長度在作祟。確實讨阻,那如何證明Wf和Wt+1是在接近呢芥永?這就會用到PLA一個關鍵點:mistake的時候更新w《鬯保可以證明mistake會限制||Wt||平方的增長埋涧,最多增長最長的Xn的平方大小。

其實可以證明經(jīng)過T次糾錯后奇瘦,Wf和WT的單位向量內積會大于根號T乘一個常量棘催,這就表示wf和wt是在靠近(角度越來越小)耳标。并且T有上限醇坝,即有限次更新后可以得到g。具體證明略次坡。

到這可以感受到呼猪,雖然PLA很簡單,其實也蘊含了數(shù)學理論保障砸琅。有沒有覺得很奇妙宋距?后面的model會更奇妙。

4症脂、Pocket

通過上一節(jié)知道谚赎,D線性可分的時候,PLA可以halt诱篷,但是其實我們并不能提前知道D是否可分壶唤。如果D不是線性可分的,該怎么辦棕所?

在機器學習中视粮,事實上我們取得的Data一般都有noise(Noisy Data)。這時橙凳,就算理想的f是一條完美的線蕾殴,我們取得的data也不見得就是線性可分的。在不確定D是否線性可分的情況下岛啸,我們如何得到一條較好的線钓觉?很自然的想法就是,可以試著找到一條犯錯最少的線:

可惜坚踩,這個問題是個NP-h(huán)ard問題荡灾。不過,可以試著去接近這個“good” g,即Pocket算法:

第三步和PLA不一樣批幌,當新的w比手中的wt犯錯少的時候才更新础锐,可以看做是modify PLA,循環(huán)足夠多輪后停止荧缘。其思想很簡單皆警,一直keep得到的最好的w。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末截粗,一起剝皮案震驚了整個濱河市信姓,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌绸罗,老刑警劉巖意推,帶你破解...
    沈念sama閱讀 212,718評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異珊蟀,居然都是意外死亡菊值,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,683評論 3 385
  • 文/潘曉璐 我一進店門育灸,熙熙樓的掌柜王于貴愁眉苦臉地迎上來腻窒,“玉大人,你說我怎么就攤上這事描扯。” “怎么了趟薄?”我有些...
    開封第一講書人閱讀 158,207評論 0 348
  • 文/不壞的土叔 我叫張陵绽诚,是天一觀的道長。 經(jīng)常有香客問我杭煎,道長恩够,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,755評論 1 284
  • 正文 為了忘掉前任羡铲,我火速辦了婚禮蜂桶,結果婚禮上,老公的妹妹穿的比我還像新娘也切。我一直安慰自己扑媚,他們只是感情好,可當我...
    茶點故事閱讀 65,862評論 6 386
  • 文/花漫 我一把揭開白布雷恃。 她就那樣靜靜地躺著疆股,像睡著了一般。 火紅的嫁衣襯著肌膚如雪倒槐。 梳的紋絲不亂的頭發(fā)上旬痹,一...
    開封第一講書人閱讀 50,050評論 1 291
  • 那天,我揣著相機與錄音,去河邊找鬼两残。 笑死永毅,一個胖子當著我的面吹牛,可吹牛的內容都是我干的人弓。 我是一名探鬼主播沼死,決...
    沈念sama閱讀 39,136評論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼票从!你這毒婦竟也來了漫雕?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,882評論 0 268
  • 序言:老撾萬榮一對情侶失蹤峰鄙,失蹤者是張志新(化名)和其女友劉穎浸间,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吟榴,經(jīng)...
    沈念sama閱讀 44,330評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡魁蒜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,651評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了吩翻。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片兜看。...
    茶點故事閱讀 38,789評論 1 341
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖狭瞎,靈堂內的尸體忽然破棺而出细移,到底是詐尸還是另有隱情,我是刑警寧澤熊锭,帶...
    沈念sama閱讀 34,477評論 4 333
  • 正文 年R本政府宣布弧轧,位于F島的核電站,受9級特大地震影響碗殷,放射性物質發(fā)生泄漏精绎。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 40,135評論 3 317
  • 文/蒙蒙 一锌妻、第九天 我趴在偏房一處隱蔽的房頂上張望代乃。 院中可真熱鬧,春花似錦仿粹、人聲如沸搁吓。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,864評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽擎浴。三九已至,卻和暖如春毒涧,著一層夾襖步出監(jiān)牢的瞬間贮预,已是汗流浹背贝室。 一陣腳步聲響...
    開封第一講書人閱讀 32,099評論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留仿吞,地道東北人滑频。 一個月前我還...
    沈念sama閱讀 46,598評論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像唤冈,于是被迫代替她去往敵國和親峡迷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,697評論 2 351

推薦閱讀更多精彩內容