在第二章里我們學(xué)到了有限假設(shè)集
回顧:
當(dāng)H是有限集的時(shí)候审轮,模型不會(huì)有過擬合的風(fēng)險(xiǎn),并且如果ERM是在這個(gè)有限集中被提供了大量數(shù)據(jù)的話辽俗,可以認(rèn)為最后得到的假設(shè)是一個(gè)概率近似準(zhǔn)確的假設(shè)(PAC(Probably Approximately Correct))
PAC learninability 的定義:
以及一個(gè)具有如下條件的學(xué)習(xí)算法:
如果訓(xùn)練過程滿足以上疾渣,即樣本采樣自分布
,真正的映射關(guān)系是
,那么最后預(yù)估出來的假設(shè)h以至少
的概率使得
這個(gè)定義中崖飘,衡量了最后學(xué)習(xí)出來的h有多接近f榴捡,即h的準(zhǔn)確度。
衡量了h接近
的置信度朱浴。實(shí)際上吊圾,因?yàn)楸M管訓(xùn)練集可以采樣再多來自真實(shí)分布的樣本,但畢竟不能用這些大量的數(shù)據(jù)去完全代表真實(shí)的分布翰蠢,那么采用這個(gè)訓(xùn)練集去訓(xùn)練或多或少會(huì)有一些偏差项乒,所以上面的兩個(gè)參數(shù),在實(shí)際訓(xùn)練中都是不可避免的會(huì)遇見的梁沧。而
可以讓看作學(xué)習(xí)過程中的少量偏差的接受程度檀何。
決定了學(xué)習(xí)過程中的采樣復(fù)雜度,換句話說廷支,這個(gè)方程可以看作是频鉴,為了保證PAC的話,至少需要采樣多少樣本恋拍。實(shí)際訓(xùn)練中垛孔,其實(shí)上m的方程有很多都是滿足條件的,一般選擇最小的m滿足
芝囤,
的PAC學(xué)習(xí)似炎。
一般情況下這個(gè)m可以被一個(gè)關(guān)于,悯姊,
的方程bound住
General Learning Model:
剛才描述的模型其實(shí)很容易推廣,可以通過以下兩個(gè)角度讓模型更加一般化
1悯许,刪除可實(shí)現(xiàn)性假設(shè):上面的PAC模型所需要的條件其實(shí)是非常強(qiáng)的仆嗦,不僅需要在真實(shí)分布中采樣,而且標(biāo)注的內(nèi)容也需要十分準(zhǔn)確先壕。下面會(huì)介紹Agnostic PAC模型
2瘩扼,之前介紹的基本都是二分類模型谆甜,模型其實(shí)可以被推廣到各類學(xué)習(xí)任務(wù)當(dāng)中
Agnostic PAC:
在第一章里面做了這樣的一個(gè)假設(shè),
這個(gè)假設(shè)在很多現(xiàn)實(shí)問題里面是不成立的集绰,那么更現(xiàn)實(shí)的假設(shè)是什么呢规辱?
現(xiàn)在設(shè)定為x,y的聯(lián)合分布(之前可以看作是訓(xùn)練數(shù)據(jù)的真實(shí)分布)
是
的邊緣分布,代表沒標(biāo)注的x的分布栽燕,D((x,y)|x)代表label y 的條件分布罕袋。這樣去設(shè)計(jì)模型實(shí)際上允許不同的數(shù)據(jù)具有相同的特征時(shí),屬于不同的預(yù)測(cè)結(jié)果碍岔。
這樣假設(shè)的情況下浴讯,誤差將會(huì)被寫成如下的形式:
同理蔼啦,經(jīng)驗(yàn)風(fēng)險(xiǎn)如下: