Is learning feasible?

從數(shù)據(jù)中學(xué)到能應(yīng)用于數(shù)據(jù)外的經(jīng)驗(yàn)碗短,這一點(diǎn)是可行的嗎?這個問題看上去有些蠢题涨,如果不可行偎谁,整個機(jī)器學(xué)習(xí)不就不可行了嗎?實(shí)際上纲堵,這個問題的答案取決于我們所做出的假設(shè)巡雨。

首先我們來看一個例子:

如果我們手上的數(shù)據(jù)集D是前五個(x,y),我們在D上學(xué)習(xí)得到的g包含有D外3個點(diǎn)的信息嗎席函?或者說我們可以利用g來對D外的數(shù)據(jù)進(jìn)行預(yù)測嗎铐望?我們可以看到,與D相吻合的f有8個茂附,如果這8個f都是等可能的正蛙,那么g所做的預(yù)測正確的概率是1/8,這和我們不依靠D直接猜結(jié)果是一樣的……也就是說营曼,我們沒有從D中獲得關(guān)于D之外的任何信息乒验。

仔細(xì)想想我們會發(fā)現(xiàn),上面的過程我們實(shí)際上是把前5個點(diǎn)和后3個點(diǎn)割裂開考慮的蒂阱,也就是說锻全,不管前5個點(diǎn)是什么情況狂塘,后3個點(diǎn)都可能是任何情況。這事放到氣象局來說就是鳄厌,我們曾經(jīng)多次觀察到了某種氣象特征荞胡,然后都下雨了,現(xiàn)在又來了一個觀測了嚎,這個觀測和之前不太一樣泪漂,但也具有這種氣象特征,但我們只能說新思,不好意思窖梁,我們做不出任何預(yù)測赘风,這個觀測我們之前沒見過夹囚,所以只好認(rèn)為既有可能下雨,也可能不下雨邀窃,概率一半一半吧荸哟。這顯然是不對的,按這樣的說法瞬捕,每天的氣象觀測都不可能完全相同鞍历,那我們還怎么做天氣預(yù)報?

問題的關(guān)鍵就在于肪虎,我們要把手上的數(shù)據(jù)集D和D之外的數(shù)據(jù)聯(lián)系起來劣砍,分開考慮的話我們當(dāng)然不可能從D中獲得D之外的信息。聯(lián)系的橋梁就是概率分布扇救。我們必須假定所有可能的數(shù)據(jù)(包括D中的和D之外的)都來自同一個概率分布刑枝。我們用一個簡單的抽球模型來看一下這件事:


假設(shè)我們的樣本是從一個盒子(表示樣本空間)中抽出來的,那么我們可以通過樣本中的橙色球比例v來推測盒子中的橙色球比例μ嗎迅腔?這是可行的:



根據(jù)概率論中的霍夫丁不等式(Hoeffding’s Inequality)若樣本量N足夠大装畅,ν就很可能接近μ。這就使得學(xué)習(xí)具有了概率意義下的可行性沧烈。拿天氣預(yù)報的例子來說掠兄,我們至少可以說在較大的概率下明天會降雨,至于概率是多大锌雀,根據(jù)以往的數(shù)據(jù)計算比例即可蚂夕,比方說是90%(也就相當(dāng)于v),然后我們根據(jù)霍夫丁不等式找到一個上界腋逆,比如說是5%婿牍,那么我們就可以說,在大于95%的概率下闲礼,下雨概率是90%這一預(yù)報是大致(因?yàn)関只是充分接近u)準(zhǔn)確的牍汹。

那么我們一般的學(xué)習(xí)問題如何與這個抽球的模型聯(lián)系起來呢铐维?我們先來看一下學(xué)習(xí)問題是如何定義的:


接下來我們看一下學(xué)習(xí)問題和小球模型的聯(lián)系:



這里實(shí)際上是說,對于給定的假設(shè)h慎菲,可以確定一個箱子當(dāng)中所有小球的顏色(因?yàn)閒是固定的嫁蛇,只是我們不知道),然后呢露该,我們手上擁有的數(shù)據(jù)D就是抽出來的小球睬棚,只有這部分小球的顏色是已知的(因?yàn)槲覀兊膆作用于D之外的結(jié)果我們不知道)。因此解幼,應(yīng)用上面的結(jié)論我們就可以知道抑党,當(dāng)樣本量足夠大的時候,我們就能從h在D上的表現(xiàn)推測出h在整個樣本空間中的表現(xiàn)撵摆。

但是底靠,這里還有一個問題,我們目前所做的只是驗(yàn)證了一個h是不是表現(xiàn)夠好特铝,但沒有完成學(xué)習(xí)所要求的從多個h中選擇一個好的h暑中。但是這種情況下霍夫丁不等式還能用嗎?

假如出現(xiàn)了某個h鲫剿,在它對應(yīng)的盒子里抽出來的球都是綠的鳄逾,即h在數(shù)據(jù)集D上正確率100%,那我們就選這個h就好了灵莲。真的如此嗎雕凹?并不是。

當(dāng)假設(shè)很多的時候政冻,有某個h表現(xiàn)很好的概率要大得多枚抵。就好像上面擲硬幣的例子一樣,我們拋硬幣拋5次赠幕,出現(xiàn)5個正面的概率并不大俄精,但是重復(fù)這個過程150次,我們有某一次出現(xiàn)5個正面的概率大于99%榕堰!擲硬幣轉(zhuǎn)化成小球問題竖慧,就是我們所有的假設(shè)h實(shí)際上在樣本空間上的正確率都只有50%,但最終我們卻選擇了一個“好”的逆屡。然而實(shí)際上這個h的表現(xiàn)和其它h并沒有什么區(qū)別圾旨。

那么當(dāng)我們擁有多個假設(shè)的時候,霍夫丁不等式確定的上界就失效了嗎魏蔗?其實(shí)不是砍的,只是上界變大了。為了說明這一點(diǎn)莺治,我們先定義壞樣本廓鞠。所謂壞樣本是針對假設(shè)而言的帚稠,對于假設(shè)h來說一個樣本D是壞的,如果它使得h在D上的表現(xiàn)和h在D外的表現(xiàn)相差很遠(yuǎn)床佳。

那么我們?nèi)绾尾拍軓腗個假設(shè)h中選到真正好的那一個呢滋早?實(shí)際上只需要我們的樣本D對于任意一個假設(shè)h都不是壞樣本就行了(即每個假設(shè)h在D上的表現(xiàn)都和它在D外的表現(xiàn)差不多),這樣我們選擇在D上表現(xiàn)好的h砌们,就可以找到在D外表現(xiàn)同樣很好的h杆麸。上圖說明了樣本D對于任意一個假設(shè)h都不是壞樣本的概率其實(shí)也和霍夫丁不等式的上界有關(guān),只是多了一個系數(shù)M浪感。至此我們知道昔头,只要M是有限的,我們就可以通過足夠多的樣本來完成學(xué)習(xí)影兽。這也是深度學(xué)習(xí)需要超多樣本支持才能產(chǎn)生較好效果的一個原因揭斧,因?yàn)樗募僭O(shè)空間太大了,即M非常大赢笨,如果N不夠大的話未蝌,我們將不能保證模型的泛化能力。

至此茧妒,我們的學(xué)習(xí)過程實(shí)際上分為了兩部分:


要想達(dá)到學(xué)習(xí)的目標(biāo),我們首先要保證泛化能力左冬,然后再保證假設(shè)h在訓(xùn)練集上的表現(xiàn)比較好桐筏。

這兩個要求和我們的假設(shè)空間以及真實(shí)的f有何關(guān)系呢?

首先拇砰,我們用假設(shè)空間包含的假設(shè)數(shù)量M來衡量假設(shè)空間的復(fù)雜度梅忌,那么M越大,我們的泛化能力就約得不到保證除破;但另一方面牧氮,M越大,我們就越可能在訓(xùn)練集上取得好的表現(xiàn)瑰枫。所以說假設(shè)空間的選取有一個trade-off踱葛。

然后我們看f的復(fù)雜性。由霍夫丁不等式可以看到光坝,不管f多復(fù)雜尸诽,這個上界都不會受到影響。這是不是說我們學(xué)習(xí)復(fù)雜模型變得和學(xué)習(xí)簡單模型一樣容易了呢盯另?當(dāng)然不是……雖然泛化能力不受影響性含,但是f如果真的很復(fù)雜,我們要想在訓(xùn)練集上和f擬合的比較好鸳惯,也就是在訓(xùn)練集上產(chǎn)生較好的表現(xiàn)商蕴,難度就比較大叠萍。

所有和學(xué)習(xí)有關(guān)的問題以及之后的算法,其實(shí)都是圍繞著這兩點(diǎn)在進(jìn)行绪商,以保證模型在測試集上能產(chǎn)生比較好的效果俭令。

最后,我們看一下對于學(xué)習(xí)目標(biāo)的嚴(yán)謹(jǐn)說法是怎樣的:


首先部宿,我們不一定能選出一個好的假設(shè)h抄腔,有可能所有的h在數(shù)據(jù)集上表現(xiàn)都很差,其次理张,即使我們能找到一個好的h赫蛇,我們也只能說,在很大的概率下雾叭,我們的假設(shè)h可以在數(shù)據(jù)集之外表現(xiàn)得和在數(shù)據(jù)集上一樣良好悟耘。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市织狐,隨后出現(xiàn)的幾起案子暂幼,更是在濱河造成了極大的恐慌,老刑警劉巖移迫,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件旺嬉,死亡現(xiàn)場離奇詭異,居然都是意外死亡厨埋,警方通過查閱死者的電腦和手機(jī)邪媳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來荡陷,“玉大人雨效,你說我怎么就攤上這事》显蓿” “怎么了徽龟?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長唉地。 經(jīng)常有香客問我据悔,道長,這世上最難降的妖魔是什么渣蜗? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任屠尊,我火速辦了婚禮,結(jié)果婚禮上耕拷,老公的妹妹穿的比我還像新娘讼昆。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布浸赫。 她就那樣靜靜地躺著闰围,像睡著了一般。 火紅的嫁衣襯著肌膚如雪既峡。 梳的紋絲不亂的頭發(fā)上羡榴,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天,我揣著相機(jī)與錄音运敢,去河邊找鬼校仑。 笑死,一個胖子當(dāng)著我的面吹牛传惠,可吹牛的內(nèi)容都是我干的迄沫。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼卦方,長吁一口氣:“原來是場噩夢啊……” “哼羊瘩!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起盼砍,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤尘吗,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后浇坐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體睬捶,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年吗跋,在試婚紗的時候發(fā)現(xiàn)自己被綠了侧戴。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡跌宛,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出积仗,到底是詐尸還是另有隱情疆拘,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布寂曹,位于F島的核電站哎迄,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏隆圆。R本人自食惡果不足惜漱挚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望渺氧。 院中可真熱鬧旨涝,春花似錦、人聲如沸侣背。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至弧腥,卻和暖如春厦取,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背管搪。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工虾攻, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人更鲁。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓霎箍,卻偏偏與公主長得像,于是被迫代替她去往敵國和親岁经。 傳聞我的和親對象是個殘疾皇子朋沮,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評論 2 355