機器學(xué)習(xí)基石(一)

《機器學(xué)習(xí)基石》是國立臺灣大學(xué)林軒田講授的一門課程熏矿,課程的續(xù)集是《機器學(xué)習(xí)技法》已骇。《機器學(xué)習(xí)基石》是網(wǎng)上熱薦的一門機器學(xué)習(xí)課程票编,相關(guān)資源可以在youtube找到褪储,也可在評論區(qū)索要云盤鏈接。本文主要是我學(xué)完一遍基石&技法后的筆記梳理慧域,如果存疑請以原課程講授內(nèi)容為準(zhǔn)鲤竹,歡迎討論~[注]本文僅適用于幫助復(fù)習(xí),不適用于代替視頻課程昔榴。

基石分為4個部分辛藻,分別為什么時候機器能夠?qū)W為什么機器能夠?qū)W習(xí),機器是如何學(xué)習(xí)的互订,怎樣讓機器學(xué)得更好吱肌,什么時候機器能夠?qū)W習(xí)?本文主要梳理前兩部分仰禽。

一氮墨、什么時候機器能夠?qū)W習(xí)?

1 關(guān)于機器學(xué)習(xí)

1.1 不嚴(yán)格定義

人通過觀察習(xí)得技能吐葵,機器模仿人规揪,通過觀察(數(shù)據(jù))來獲得技能(某種表現(xiàn)的增進),例如說温峭,機器通過觀察股票數(shù)據(jù)來提高投資的收益猛铅。

1.2 PK傳統(tǒng)方法

識別一棵樹,傳統(tǒng)方法是找到樹的定義诚镰,但沒人能講出它的具體定義奕坟。而機器學(xué)習(xí)方法則比較簡單祥款,只需喂給機器足量的樹,讓它自己找出其中的規(guī)律學(xué)會識別月杉,這個規(guī)律是抽象的難以描述的刃跛,否則直接用傳統(tǒng)方法就好了。

1.3 機器學(xué)習(xí)的必要條件

有規(guī)則(預(yù)測下一個嬰兒是否在奇數(shù)分鐘哭是沒有意義的)苛萎,但不明確(判斷一張圖里面是不是有一個圓直接用傳統(tǒng)方法來做就可以了)桨昙。有相關(guān)資料(預(yù)測地球會不會在核戰(zhàn)爭中毀滅是不可行的,因為我們沒有”核戰(zhàn)爭-地球是否毀滅”的資料)腌歉。

1.4 機器學(xué)習(xí)的應(yīng)用

食衣住行育樂蛙酪,生活中的方方面面。例如電影推薦系統(tǒng)(詳見技法)翘盖。

1.5 機器學(xué)習(xí)的符號化圖示(5個元素)


機器學(xué)習(xí)符號為數(shù)據(jù)集D桂塞,蘊含了未知的目標(biāo)函數(shù)f。演算法A從所有假說集H中選一個最好的假說函數(shù)g馍驯,希望g和f的表現(xiàn)能盡可能的相似阁危。(假說集長什么樣子馬上會見到)?

1.6?機器學(xué)習(xí)和人工智能、統(tǒng)計學(xué)的關(guān)系

人工智能如”下棋”汰瘫,可以用傳統(tǒng)方法(定義規(guī)則樹)也可以用機器學(xué)習(xí)讓機器自己從資料找到規(guī)律狂打,所以說機器學(xué)習(xí)是人工智能的一種實現(xiàn)方式。

統(tǒng)計學(xué)也是用資料推斷未知混弥,它更注重證明趴乡,為機器學(xué)習(xí)提供了非常多的工具,下面會見到的蝗拿。

2?二元分類

2.1?一種簡單的假說集:Perceptron感知器


可以看到這是一個輸出為+1或-1的二元分類函數(shù)

2.1.1 Perceptron的向量形式(更簡潔)


我們將閾值收入W向量從而使向量形式更加簡潔

2.1.2 Perceptron的圖形表達(dá)


這里取X只有2個維度(x,y)或(x1,x2)晾捏,這樣一來的假說函數(shù)剛好是條直線所以這樣的感知器又稱線性分類器。圖中的點是一個個數(shù)據(jù)點((x1,x2),z)蛹磺,其中y以o或×的形式畫出粟瞬。圖中的底色則表示感知器的預(yù)測(eg.將藍(lán)色區(qū)域的任意一個點代入感知器將得到+1的結(jié)果),可以看到左圖的分類是存在問題的(部分x在藍(lán)底區(qū)域萤捆,部分o在紅底區(qū)域)裙品,而右圖的感知器則正確。這兩個感知器的w不同俗或,構(gòu)成了假說集中的兩個假說市怎,顯然,我們的演算法應(yīng)該選擇第二個感知器當(dāng)作g辛慰,因為這個g與f長的最像区匠。

2.2 PLA算法(Perceptron Learning Algorithm)

上面我們提到最好的一條線g雏亚,事實上在這張圖上我們能做出無數(shù)條線出來聚凹,我們怎么找到這個最好的線出來呢蹂季?如果最好太難绣的,那我們就用迭代法,不斷地改善使它越來越好從而做到最好戚篙,這個思想產(chǎn)生的就是PLA算法(2步)五鲫。


從2.1我們已經(jīng)知道線的不同是w的不同造成的,PLA算法每次選一個錯誤點岔擂,然后往正確的方向更新w位喂。它的圖像表達(dá)如下所示:


上圖wx=|w||x|cosα,α>90°乱灵,故x的預(yù)測是-1與y=+1不符塑崖,故修正(將wx旋轉(zhuǎn)一半),下圖同理痛倚。

2.1 Cyclic PLA


顧名思義规婆,Cyclic PLA繞一圈把所有點都查一遍。[注]t=0時找的任意點都滿足錯誤點的定義

2.2 PLA真的有效嗎蝉稳?


2.3 PLA能停下來嗎聋呢,最后一定無錯嗎?

如果PLA能夠停下來颠区,那一定存在一個w在D不犯錯,我們稱這樣的D是線性可分的通铲。

那如果D線性可分毕莱,PLA就能夠停下來嗎?


這里設(shè)wf是完美直線的權(quán)重颅夺,即任何一個點都是正確的點(yn與wtxn同號朋截,乘積>0)而任何一個”錯誤”點都是正確點。第二個式子證明了wt在不斷逼近wf吧黄,PLA能夠停下來部服!不過還要排除向量變長的影響。


這里證明了wt的長度最多增長離遠(yuǎn)點最遠(yuǎn)的數(shù)據(jù)點的距離的平方拗慨,不會增長太快廓八。故wt真的在不斷逼近wf,PLA能夠停下來赵抢!事實上剧蹂,wt和wf的距離(兩個矢量之間的角度)的余弦如下所示,隨著T的增大不斷接近1:


關(guān)于constant的計算:


2.4 PLA的優(yōu)缺點

優(yōu)點是容易實現(xiàn)烦却,適用于任意維度宠叼。缺點是我們無法確定D是不是線性可分的,也不確定到底要多久才能停下來其爵,因為ρ的計算依賴于wf冒冬,wf是我們的目標(biāo)權(quán)重這在一開始是不知道多少的伸蚯。

2.5.帶雜訊的資料


左圖藍(lán)底中的x可以認(rèn)為是雜訊,解這類問題最直觀的想法是找一條犯錯最少的線简烤,但這是一個NP-hard問題剂邮,幾乎不可能解出來。

2.6.口袋演算法Pocket Algorithm


實際上是PLA+判斷是否接受更新(放入口袋)(這一步比較花時間)

3.機器學(xué)習(xí)的種類

二元分類乐埠,多元分類抗斤,回歸(邏輯回歸/線性回歸),結(jié)構(gòu)化學(xué)習(xí)(輸出句子結(jié)構(gòu)/蛋白質(zhì)結(jié)構(gòu)等)

監(jiān)督丈咐,無監(jiān)督(分群瑞眼,密度估計),半監(jiān)督(少量標(biāo)注)棵逊,增強式(隱式標(biāo)注,獎懲制,eg廣告系統(tǒng))

批學(xué)習(xí)伤疙,線上學(xué)習(xí)(eg.垃圾郵件分類器來一封學(xué)一封),主動學(xué)習(xí)(主動挑出最具價值的樣本)

具體特征辆影,生特征(簡單的物理意義eg.手寫數(shù)字需轉(zhuǎn)”對稱性-密度”圖)徒像,抽象特征(幾乎沒有物理意義,如”學(xué)號”,需提取出它的偏好等才有意義)

4.機器學(xué)習(xí)的可行性(訓(xùn)練出來的模型真的可以用于預(yù)測嗎?)

根據(jù)Hoeffding不等式蛙讥,隨機獨立大量抽樣的預(yù)測結(jié)果大概差不多是對的(PAC)


把橙球當(dāng)作Perceptron中的x锯蛀,綠球當(dāng)作o,得機器學(xué)習(xí)如果能對sample正確分類次慢,大概差不多也可以對整個bin正確分類


實際ML會評估多個假說函數(shù)h


然后從中選一個最好的旁涤。[注]抽樣只負(fù)責(zé)選球,顏色是h染上去的

如果抽樣不符合堅持獨立隨機原則迫像,就有可能人為選到”magic coin”劈愚,那樣無法保證大概差不多是對的(PAC),這種樣本稱為“BAD”樣本闻妓,可以證明抽到BAD樣本地概率很低菌羽。


5.所以什么時候機器能夠?qū)W習(xí)呢?

只要隨機獨立抽樣由缆,我們就可以選一個在sample犯錯最少的h當(dāng)作g

訓(xùn)練出來的模型真的可以用于預(yù)測注祖,機器學(xué)習(xí)是可行的。

二均唉、為什么機器能夠?qū)W習(xí)氓轰?

1.上式M能bound住嗎?

上述公式中浸卦,如果M是無限大就又不行了署鸡。

假設(shè)M是無限大的,那么,


式子右邊就是無限大靴庆,而左邊是個小于1的概率时捌。這說明右邊明顯過度估計了壞事情發(fā)生的概率,這是因為右邊把所有h都當(dāng)作獨立事件炉抒,而實際上h之間很可能是有交集的奢讨。所以更準(zhǔn)確的做法是用樣本量為N時h的種類數(shù)effective(N)代替h的個數(shù)M。


如上圖焰薄,3個點的二分類問題拿诸,effective(N)最大=8,當(dāng)3點共線的時候則=6塞茅。

記這個最大的數(shù)為成長函數(shù)值mH(N)亩码,即mH(3)=8。對于二維二分類問題mH(N)≤2N

當(dāng)上式不能取”=”時野瘦,我們稱這時的N為break point描沟,打破了mH(N)的指數(shù)增長

對于二維二分類問題,它的最小break point是4鞭光,H無法shatter N=4這種情況:


?N=4時吏廉,Dichotomy H的成長函數(shù)mH(N)=14<16)

對于其它H有以下結(jié)論:


對于1D perceptrons和positive intervals,它們的k都是3

對于相同k不同H惰许,記最大的mH(N)為界限函數(shù)B(N,K)席覆,則B(N,K)一定=2N-1

可以得到下表


其中B(4,3)是枚舉法列出來的

取其三維,則為


可見無法shatter任何三點汹买,故娜睛,橙區(qū)則無法shatter任何兩點,故卦睹,


化簡可得


可以證明其實是=,如B(5,4)=26=1+3+7+15方库。

所以2D perceptron可以進一步被bound住為B(N,4)结序,即


現(xiàn)在考慮用mH(N)去取代下式中的M


對于左邊,由于Eout有無限種可能纵潦,我們將Eout改寫成對于測試集的E’in徐鹤,


如圖,如果Ein很糟糕邀层,有大于1/2的概率抽到對于Ein很糟糕的E’in


(抽中離Eout很近的E’in并選中h使Eout隔ε的Ein)的概率≤(選中h使E’in隔ε/2的Ein)的概率

整理并用mH(N)進行放縮返敬,


2N=在D中的N個點+在D’中的N個點

進一步用hoeffding進行放縮則為:


綜上我們得到了VC bound


當(dāng)存在break point時,


可以進一步放縮為


說明M能夠被bound住寥院,只要數(shù)據(jù)量N夠大劲赠,存在break point,我們還是能機器學(xué)習(xí)

2. VC Dimension

將上式k-1定義為dvc,物理意義:整個D中能被H shatter的最大點數(shù)

則有


2.1高維perceptrons的dvc



故高維perceptrons的dvc=d+1

2.2 dvc的形象化解釋(機械學(xué)科中的自由度)



2.3 dvc對模型復(fù)雜度的懲罰



Ω稱為對模型復(fù)雜度的懲罰凛澎,dvc越大霹肝,模型越復(fù)雜,Eout上限越大


dvc應(yīng)該適可而止塑煎,使Eout做到最小

2.4 dvc對樣本(量)復(fù)雜度的影響


導(dǎo)致理論和實際采用的樣本量差距懸殊的原因時VC bound一路的推導(dǎo)都在放縮

dvc越大沫换,需要的樣本量就越大。

綜合2.3 2.4可以知道dvc不是越大越好最铁,不要一昧追求最強的H

3.雜訊與誤差

3.1雜訊


之前證明VC bound時讯赏,同理可證當(dāng)雜訊服從某分布的時候,VC bound仍然有效冷尉,即


所以即使存在某分布的雜訊漱挎,機器仍然能夠?qū)W習(xí),能夠保證Ein接近Eout

其中P(y|x)稱為”目標(biāo)分布”网严,區(qū)別于沒有雜訊時的f(x)目標(biāo)函數(shù)识樱,


圖中最理想的預(yù)測是o(0/1誤差),雜訊等級是0.3

3.2誤差

誤差函數(shù)的選擇對演算法A會選出一條怎樣的h作為g很重要


上圖采用0/1誤差時會選最大目標(biāo)分布作為最理想預(yù)測震束,

采用平方誤差則會計算出所有分布的加權(quán)平均值作為最理想預(yù)測

3.2.1誤差成本


對于CIA怜庸,如果錯誤的指紋被識別為正確則要付出1000的成本。

對于加權(quán)分類問題垢村,之前的PLA算法任然有效割疾,因為PLA跑完Ein=0,和成本無關(guān)

而口袋算法需要考慮成本對誤差的影響嘉栓,x的成本是1000=做錯1個x就認(rèn)為做錯1000個x宏榕,故只需將點x復(fù)制1000倍即可,

或者不復(fù)制侵佃,只需令口袋算法的第一步(查改錯)時以1000倍的概率檢查x點麻昼。

3.2.2不平衡樣本


上例樣本極其不平衡,x極少馋辈,o極多抚芦,導(dǎo)致h(x)≡+1被認(rèn)為是個不錯的結(jié)果

對于不平衡樣本,需要更加小心地設(shè)置誤差成本迈螟。

4 所以為什么機器能夠?qū)W習(xí)呢叉抡?

這是因為并不是任意數(shù)量的資料都能被shatter,M能夠被替換掉答毫。無論資料有沒有雜訊褥民,P(BAD)都能被VC bound住。即使資料有雜訊洗搂,我們也能夠用加權(quán)口袋演算法進行分類消返。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末载弄,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子侦副,更是在濱河造成了極大的恐慌侦锯,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,464評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件秦驯,死亡現(xiàn)場離奇詭異尺碰,居然都是意外死亡,警方通過查閱死者的電腦和手機译隘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評論 3 399
  • 文/潘曉璐 我一進店門亲桥,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人固耘,你說我怎么就攤上這事题篷。” “怎么了厅目?”我有些...
    開封第一講書人閱讀 169,078評論 0 362
  • 文/不壞的土叔 我叫張陵番枚,是天一觀的道長。 經(jīng)常有香客問我损敷,道長葫笼,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,979評論 1 299
  • 正文 為了忘掉前任拗馒,我火速辦了婚禮路星,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘诱桂。我一直安慰自己洋丐,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 69,001評論 6 398
  • 文/花漫 我一把揭開白布挥等。 她就那樣靜靜地躺著友绝,像睡著了一般。 火紅的嫁衣襯著肌膚如雪肝劲。 梳的紋絲不亂的頭發(fā)上迁客,一...
    開封第一講書人閱讀 52,584評論 1 312
  • 那天,我揣著相機與錄音涡相,去河邊找鬼。 笑死剩蟀,一個胖子當(dāng)著我的面吹牛催蝗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播育特,決...
    沈念sama閱讀 41,085評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼丙号,長吁一口氣:“原來是場噩夢啊……” “哼先朦!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起犬缨,我...
    開封第一講書人閱讀 40,023評論 0 277
  • 序言:老撾萬榮一對情侶失蹤喳魏,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后怀薛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刺彩,經(jīng)...
    沈念sama閱讀 46,555評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,626評論 3 342
  • 正文 我和宋清朗相戀三年枝恋,在試婚紗的時候發(fā)現(xiàn)自己被綠了创倔。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,769評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡焚碌,死狀恐怖畦攘,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情十电,我是刑警寧澤知押,帶...
    沈念sama閱讀 36,439評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站鹃骂,受9級特大地震影響台盯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜偎漫,卻給世界環(huán)境...
    茶點故事閱讀 42,115評論 3 335
  • 文/蒙蒙 一爷恳、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧象踊,春花似錦温亲、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至史隆,卻和暖如春魂务,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背泌射。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評論 1 274
  • 我被黑心中介騙來泰國打工粘姜, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人熔酷。 一個月前我還...
    沈念sama閱讀 49,191評論 3 378
  • 正文 我出身青樓孤紧,卻偏偏與公主長得像,于是被迫代替她去往敵國和親拒秘。 傳聞我的和親對象是個殘疾皇子号显,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,781評論 2 361

推薦閱讀更多精彩內(nèi)容