ML——計(jì)算學(xué)習(xí)理論
基礎(chǔ)知識(shí)
泛化誤差:訓(xùn)練出的模型在除訓(xùn)練樣本外的新樣本集上的誤差竞川;
? ? ? ? ? ? ? ? ? ? ? ??
經(jīng)驗(yàn)誤差:訓(xùn)練出的模型在訓(xùn)練集上的誤差。
? ? ? ? ? ? ? ? ?
本章后面部分將研究經(jīng)驗(yàn)誤差與泛化誤差間的逼近程度哪自,若h在數(shù)據(jù)集D上的經(jīng)驗(yàn)誤差為0茁帽,則稱h與D一致胆屿,否則稱其不一致腋逆。
Jensen不等式:對(duì)任意凸函數(shù)f(x),有监嗜;
Hoeffding不等式:若為m個(gè)獨(dú)立r.v.谐檀,且滿足,則對(duì)任意裁奇,有
McDiarmid不等式:若為m個(gè)獨(dú)立r.v.桐猬,且對(duì)任意,函數(shù)f滿足:
則對(duì)任意刽肠,有:
PAC學(xué)習(xí)
PAC:概率近似正確课幕,以比較大的把握學(xué)得比較好的模型厦坛,即以較大的概率學(xué)得誤差滿足預(yù)設(shè)上限的模型;
概念c:從樣本空間X到標(biāo)記空間Y的映射乍惊,決定示例x的真實(shí)標(biāo)記y杜秸;
目標(biāo)概念c:對(duì)任何樣例(x,y),有c(x)=y成立润绎;
概念類C:所學(xué)目標(biāo)概念構(gòu)成的集合撬碟;
假設(shè)空間H:給定學(xué)習(xí)算法L,考慮的所有可能概念的集合莉撇;
假設(shè)h:從樣本空間X到標(biāo)記空間Y的映射呢蛤,不確定的目標(biāo)概念;
可分(一致):若目標(biāo)概念棍郎,則H中存在假設(shè)能將所有示例按與真實(shí)標(biāo)記一致的方式完全分開(kāi)其障,稱該問(wèn)題對(duì)學(xué)習(xí)算法L是“可分的”。
不可分(不一致):若涂佃,則H中不存在假設(shè)能將所有示例完全正確分開(kāi)励翼,稱該問(wèn)題對(duì)學(xué)習(xí)算法L是“不可分的”。
PAC辨識(shí):學(xué)習(xí)算法L能以較大的概率(至少)學(xué)得目標(biāo)概念c的近似(誤差最多為)辜荠。
PAC可學(xué)習(xí):m為從分布D中獨(dú)立同分布采樣得到的樣例數(shù)汽抚,,對(duì)所有分布D伯病,若存在學(xué)習(xí)算法L和多項(xiàng)式函數(shù)poly()造烁,使得對(duì)任何,L能從假設(shè)空間H中PAC辨識(shí)概念類C午笛,則稱概念類C對(duì)假設(shè)空間H而言是PAC可學(xué)習(xí)的惭蟋。
PAC學(xué)習(xí)算法:若學(xué)習(xí)算法L使概念C為PAC可學(xué)習(xí)的,且L的運(yùn)行時(shí)間也是多項(xiàng)式函數(shù)药磺,則稱概念類C是高效PAC可學(xué)習(xí)的敞葛,稱L為概念類C的PAC學(xué)習(xí)算法。
假定學(xué)習(xí)算法L處理每個(gè)樣本的時(shí)間為常數(shù)与涡,則L的時(shí)間復(fù)雜度等價(jià)于樣本復(fù)雜度。對(duì)算法時(shí)間復(fù)雜度的關(guān)心轉(zhuǎn)化為對(duì)樣本復(fù)雜度的關(guān)心持偏。
樣本復(fù)雜度:滿足PAC學(xué)習(xí)算法L所需的中最小的m驼卖,稱為學(xué)習(xí)算法l的樣本復(fù)雜度。
若在PAC學(xué)習(xí)中假設(shè)空間和概念類完全相同H=C鸿秆,則稱為“恰PAC可學(xué)習(xí)”酌畜。但實(shí)際中研究的是假設(shè)空間與概念類不同的情形。一般而言卿叽,H越大桥胞,包含目標(biāo)概念的可能性越大恳守,但從中找出具體目標(biāo)概念的難度越大。有限時(shí)贩虾,稱H為“有限假設(shè)空間”催烘,否則為“無(wú)限假設(shè)空間”。
有限假設(shè)空間
可分情形
可分意味著目標(biāo)概念包含在算法的假設(shè)空間中缎罢,對(duì)于目標(biāo)概念伊群,在訓(xùn)練集D中的經(jīng)驗(yàn)誤差一定為0。一種簡(jiǎn)單的學(xué)習(xí)策略是:不斷剔除出現(xiàn)預(yù)測(cè)錯(cuò)誤的假設(shè)策精,保留經(jīng)驗(yàn)誤差為0的假設(shè)舰始。但由于訓(xùn)練規(guī)模有限,假設(shè)空間中可能有多個(gè)假設(shè)在D中經(jīng)驗(yàn)誤差為0咽袜,因此將問(wèn)題轉(zhuǎn)化為只要訓(xùn)練集D的規(guī)模能使學(xué)習(xí)算法L以概率找到目標(biāo)假設(shè)的近似即可丸卷。
D包含m個(gè)獨(dú)立同分布采樣得到的樣例,對(duì)某個(gè)輸出假設(shè)泛化誤差大于即询刹,且在訓(xùn)練集上表現(xiàn)完美的概率谜嫉,即h與D表現(xiàn)一致的概率為:
則所有這樣的假設(shè)出現(xiàn)的概率為:
即:? ? ? ? ??
可得:? ? ? ? ? ? ? ? ? ? ? ??
因此,有限假設(shè)空間H都是PAC可學(xué)習(xí)的范抓,所需樣例數(shù)如上式骄恶。
不可分情形
不可分指的是目標(biāo)概念不存在于假設(shè)空間中,此時(shí)學(xué)習(xí)算法L無(wú)法學(xué)得目標(biāo)概念c的近似匕垫。但當(dāng)假設(shè)空間H給定時(shí)僧鲁,必存在一個(gè)泛化誤差最小的假設(shè),找出此假設(shè)的近似亦可象泵。由此引申出“不可知學(xué)習(xí)”寞秃。
不可知PAC可學(xué)習(xí):令m表示從分布D中獨(dú)立同分布采樣得到的樣例數(shù),偶惠,對(duì)所有分布D春寿,若存在學(xué)習(xí)算法L和多項(xiàng)式函數(shù)poly(),使得對(duì)任何忽孽,L能從假設(shè)空間H中輸出滿足下式的假設(shè)h:
? ? ? ? ? ? ? ? ? ??
則稱假設(shè)空間H是不可知PAC可學(xué)習(xí)的绑改。
由Hoeffding不等式知單個(gè)假設(shè)誤差概率如下:
對(duì)于假設(shè)空間的所有假設(shè),出現(xiàn)泛化誤差與經(jīng)驗(yàn)誤差之差大于e的概率和為:
? ? ? ?
因此兄一,可令不等式右邊小于等于厘线,便可求出滿足泛化誤差與經(jīng)驗(yàn)誤差相差小于e所需最少樣本數(shù),同時(shí)也可求出泛化誤差界出革。
VC維
現(xiàn)實(shí)學(xué)習(xí)任務(wù)面臨的常是無(wú)限假設(shè)空間造壮,欲對(duì)此情形的可學(xué)習(xí)性進(jìn)行研究,需度量假設(shè)空間的復(fù)雜度骂束,此時(shí)可考慮假設(shè)空間的VC維耳璧。
給定假設(shè)空間H和示例集成箫,H中每個(gè)假設(shè)都可對(duì)示例賦予標(biāo)記,標(biāo)記結(jié)果為:
增長(zhǎng)函數(shù):對(duì)所有旨枯,假設(shè)空間的增長(zhǎng)函數(shù)為:
增長(zhǎng)函數(shù)描述假設(shè)空間對(duì)示例所能賦予標(biāo)記的最大可能結(jié)果數(shù)蹬昌,比如說(shuō)現(xiàn)在數(shù)據(jù)集有兩個(gè)數(shù)據(jù)點(diǎn),考慮一種二分類的情況召廷,可以將其分類成A或者B凳厢,則可能的值有:AA、AB竞慢、BA和BB先紫,所以這里增長(zhǎng)函數(shù)的值為4〕镏螅可能結(jié)果數(shù)越大遮精,該假設(shè)空間的表示能力越強(qiáng)“芰剩可利用增長(zhǎng)函數(shù)估計(jì)經(jīng)驗(yàn)函數(shù)與泛化誤差的關(guān)系:
對(duì)分:對(duì)二分類問(wèn)題本冲,H中的假設(shè)對(duì)示例賦予標(biāo)記的每種可能結(jié)果稱為對(duì)示例空間的一種對(duì)分(將示例集一分為二)。
打散:當(dāng)假設(shè)空間H作用于大小為m的樣本集D時(shí)劫扒,產(chǎn)生的對(duì)分?jǐn)?shù)量為檬洞,即,稱樣本集D被假設(shè)空間H打散沟饥。
上圖顯示添怔,二維空間中的三個(gè)點(diǎn)(不在一條直線上)可被平面上所有直線這個(gè)假設(shè)空間打散,此時(shí)贤旷,但如下圖的四個(gè)點(diǎn)就不能被這個(gè)假設(shè)空間打散了广料,此時(shí)
break point:對(duì)于假設(shè)空間?H 的增長(zhǎng)函數(shù)?,從 m=1 出發(fā)逐漸增大幼驶,當(dāng)增大到?k時(shí)艾杏,出現(xiàn)?的情形,則說(shuō)?k是該假設(shè)空間的break point盅藻。即對(duì)于任何大小為 m(m≥k) 的數(shù)據(jù)集购桑,?H都沒(méi)有辦法打散它。eg當(dāng)假設(shè)空間?H定義為平面上所有直線時(shí)氏淑,其break point就為4勃蜘。
VC維:假設(shè)空間H的VC維是能被H打散的最大示例集的大小,即:
? ? ? ? ? ? ??
根據(jù)此定義夸政,有?VC(H)=k?1,其中k是H的break point榴徐。VC維反映了函數(shù)集的學(xué)習(xí)能力守问,VC維越大匀归,能學(xué)到的模型越復(fù)雜。VC維的大小與學(xué)習(xí)算法無(wú)關(guān)耗帕,與數(shù)據(jù)集的具體分布無(wú)關(guān)穆端,與求解的目標(biāo)函數(shù)也無(wú)關(guān),只與模型和假設(shè)空間有關(guān)仿便。另外体啰,實(shí)踐中有這樣一個(gè)規(guī)律:一般情況下,假設(shè)空間的VC維約等于假設(shè)自由變量的數(shù)目嗽仪。
周志華《機(jī)器學(xué)習(xí)》
https://blog.csdn.net/u011826404/article/details/73351162
https://tangshusen.me/2018/12/09/vc-dimension/
http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/