從數(shù)據(jù)中學(xué)到能應(yīng)用于數(shù)據(jù)外的經(jīng)驗(yàn)碗短,這一點(diǎn)是可行的嗎?這個問題看上去有些蠢题涨,如果不可行偎谁,整個機(jī)器學(xué)習(xí)不就不可行了嗎?實(shí)際上纲堵,這個問題的答案取決于我們所做出的假設(shè)巡雨。
首先我們來看一個例子:
如果我們手上的數(shù)據(jù)集D是前五個(x,y),我們在D上學(xué)習(xí)得到的g包含有D外3個點(diǎn)的信息嗎席函?或者說我們可以利用g來對D外的數(shù)據(jù)進(jìn)行預(yù)測嗎铐望?我們可以看到,與D相吻合的f有8個茂附,如果這8個f都是等可能的正蛙,那么g所做的預(yù)測正確的概率是1/8,這和我們不依靠D直接猜結(jié)果是一樣的……也就是說营曼,我們沒有從D中獲得關(guān)于D之外的任何信息乒验。
仔細(xì)想想我們會發(fā)現(xiàn),上面的過程我們實(shí)際上是把前5個點(diǎn)和后3個點(diǎn)割裂開考慮的蒂阱,也就是說锻全,不管前5個點(diǎn)是什么情況狂塘,后3個點(diǎn)都可能是任何情況。這事放到氣象局來說就是鳄厌,我們曾經(jīng)多次觀察到了某種氣象特征荞胡,然后都下雨了,現(xiàn)在又來了一個觀測了嚎,這個觀測和之前不太一樣泪漂,但也具有這種氣象特征,但我們只能說新思,不好意思窖梁,我們做不出任何預(yù)測赘风,這個觀測我們之前沒見過夹囚,所以只好認(rèn)為既有可能下雨,也可能不下雨邀窃,概率一半一半吧荸哟。這顯然是不對的,按這樣的說法瞬捕,每天的氣象觀測都不可能完全相同鞍历,那我們還怎么做天氣預(yù)報?
問題的關(guān)鍵就在于肪虎,我們要把手上的數(shù)據(jù)集D和D之外的數(shù)據(jù)聯(lián)系起來劣砍,分開考慮的話我們當(dāng)然不可能從D中獲得D之外的信息。聯(lián)系的橋梁就是概率分布扇救。我們必須假定所有可能的數(shù)據(jù)(包括D中的和D之外的)都來自同一個概率分布刑枝。我們用一個簡單的抽球模型來看一下這件事:
假設(shè)我們的樣本是從一個盒子(表示樣本空間)中抽出來的,那么我們可以通過樣本中的橙色球比例v來推測盒子中的橙色球比例μ嗎迅腔?這是可行的:
根據(jù)概率論中的霍夫丁不等式(Hoeffding’s Inequality)若樣本量N足夠大装畅,ν就很可能接近μ。這就使得學(xué)習(xí)具有了概率意義下的可行性沧烈。拿天氣預(yù)報的例子來說掠兄,我們至少可以說在較大的概率下明天會降雨,至于概率是多大锌雀,根據(jù)以往的數(shù)據(jù)計算比例即可蚂夕,比方說是90%(也就相當(dāng)于v),然后我們根據(jù)霍夫丁不等式找到一個上界腋逆,比如說是5%婿牍,那么我們就可以說,在大于95%的概率下闲礼,下雨概率是90%這一預(yù)報是大致(因?yàn)関只是充分接近u)準(zhǔn)確的牍汹。
那么我們一般的學(xué)習(xí)問題如何與這個抽球的模型聯(lián)系起來呢铐维?我們先來看一下學(xué)習(xí)問題是如何定義的:
接下來我們看一下學(xué)習(xí)問題和小球模型的聯(lián)系:
這里實(shí)際上是說,對于給定的假設(shè)h慎菲,可以確定一個箱子當(dāng)中所有小球的顏色(因?yàn)閒是固定的嫁蛇,只是我們不知道),然后呢露该,我們手上擁有的數(shù)據(jù)D就是抽出來的小球睬棚,只有這部分小球的顏色是已知的(因?yàn)槲覀兊膆作用于D之外的結(jié)果我們不知道)。因此解幼,應(yīng)用上面的結(jié)論我們就可以知道抑党,當(dāng)樣本量足夠大的時候,我們就能從h在D上的表現(xiàn)推測出h在整個樣本空間中的表現(xiàn)撵摆。
但是底靠,這里還有一個問題,我們目前所做的只是驗(yàn)證了一個h是不是表現(xiàn)夠好特铝,但沒有完成學(xué)習(xí)所要求的從多個h中選擇一個好的h暑中。但是這種情況下霍夫丁不等式還能用嗎?
假如出現(xiàn)了某個h鲫剿,在它對應(yīng)的盒子里抽出來的球都是綠的鳄逾,即h在數(shù)據(jù)集D上正確率100%,那我們就選這個h就好了灵莲。真的如此嗎雕凹?并不是。
當(dāng)假設(shè)很多的時候政冻,有某個h表現(xiàn)很好的概率要大得多枚抵。就好像上面擲硬幣的例子一樣,我們拋硬幣拋5次赠幕,出現(xiàn)5個正面的概率并不大俄精,但是重復(fù)這個過程150次,我們有某一次出現(xiàn)5個正面的概率大于99%榕堰!擲硬幣轉(zhuǎn)化成小球問題竖慧,就是我們所有的假設(shè)h實(shí)際上在樣本空間上的正確率都只有50%,但最終我們卻選擇了一個“好”的逆屡。然而實(shí)際上這個h的表現(xiàn)和其它h并沒有什么區(qū)別圾旨。
那么當(dāng)我們擁有多個假設(shè)的時候,霍夫丁不等式確定的上界就失效了嗎魏蔗?其實(shí)不是砍的,只是上界變大了。為了說明這一點(diǎn)莺治,我們先定義壞樣本廓鞠。所謂壞樣本是針對假設(shè)而言的帚稠,對于假設(shè)h來說一個樣本D是壞的,如果它使得h在D上的表現(xiàn)和h在D外的表現(xiàn)相差很遠(yuǎn)床佳。
那么我們?nèi)绾尾拍軓腗個假設(shè)h中選到真正好的那一個呢滋早?實(shí)際上只需要我們的樣本D對于任意一個假設(shè)h都不是壞樣本就行了(即每個假設(shè)h在D上的表現(xiàn)都和它在D外的表現(xiàn)差不多),這樣我們選擇在D上表現(xiàn)好的h砌们,就可以找到在D外表現(xiàn)同樣很好的h杆麸。上圖說明了樣本D對于任意一個假設(shè)h都不是壞樣本的概率其實(shí)也和霍夫丁不等式的上界有關(guān),只是多了一個系數(shù)M浪感。至此我們知道昔头,只要M是有限的,我們就可以通過足夠多的樣本來完成學(xué)習(xí)影兽。這也是深度學(xué)習(xí)需要超多樣本支持才能產(chǎn)生較好效果的一個原因揭斧,因?yàn)樗募僭O(shè)空間太大了,即M非常大赢笨,如果N不夠大的話未蝌,我們將不能保證模型的泛化能力。
至此茧妒,我們的學(xué)習(xí)過程實(shí)際上分為了兩部分:
要想達(dá)到學(xué)習(xí)的目標(biāo),我們首先要保證泛化能力左冬,然后再保證假設(shè)h在訓(xùn)練集上的表現(xiàn)比較好桐筏。
這兩個要求和我們的假設(shè)空間以及真實(shí)的f有何關(guān)系呢?
首先拇砰,我們用假設(shè)空間包含的假設(shè)數(shù)量M來衡量假設(shè)空間的復(fù)雜度梅忌,那么M越大,我們的泛化能力就約得不到保證除破;但另一方面牧氮,M越大,我們就越可能在訓(xùn)練集上取得好的表現(xiàn)瑰枫。所以說假設(shè)空間的選取有一個trade-off踱葛。
然后我們看f的復(fù)雜性。由霍夫丁不等式可以看到光坝,不管f多復(fù)雜尸诽,這個上界都不會受到影響。這是不是說我們學(xué)習(xí)復(fù)雜模型變得和學(xué)習(xí)簡單模型一樣容易了呢盯另?當(dāng)然不是……雖然泛化能力不受影響性含,但是f如果真的很復(fù)雜,我們要想在訓(xùn)練集上和f擬合的比較好鸳惯,也就是在訓(xùn)練集上產(chǎn)生較好的表現(xiàn)商蕴,難度就比較大叠萍。
所有和學(xué)習(xí)有關(guān)的問題以及之后的算法,其實(shí)都是圍繞著這兩點(diǎn)在進(jìn)行绪商,以保證模型在測試集上能產(chǎn)生比較好的效果俭令。
最后,我們看一下對于學(xué)習(xí)目標(biāo)的嚴(yán)謹(jǐn)說法是怎樣的:
首先部宿,我們不一定能選出一個好的假設(shè)h抄腔,有可能所有的h在數(shù)據(jù)集上表現(xiàn)都很差,其次理张,即使我們能找到一個好的h赫蛇,我們也只能說,在很大的概率下雾叭,我們的假設(shè)h可以在數(shù)據(jù)集之外表現(xiàn)得和在數(shù)據(jù)集上一樣良好悟耘。