《機(jī)器學(xué)習(xí)》第12章 PAC學(xué)習(xí)理論

關(guān)鍵字

PAC總結(jié)理論:同等條件下烫映,模型越復(fù)雜泛化誤差越大抽兆。同一模型在樣本滿足一定條件的情況下辫红,其數(shù)量越大贴妻,模型泛化誤差越小白翻,因此還可以說模型越復(fù)雜越吃樣本滤馍。


1.基礎(chǔ)知識:

計算學(xué)習(xí)理論研究的是關(guān)于通過“計算”來進(jìn)行“學(xué)習(xí)”的理論,其目的是分析學(xué)習(xí)任務(wù)的困難本質(zhì)阁苞,為學(xué)習(xí)算法提供理論保證那槽,并根據(jù)分析結(jié)果知道算法

幾個常用的不等式:

  • Jensen不等式:對任意凸函數(shù)f(x),有:
  • Hoeffding不等式:

  • McDiarmid不等式:

    數(shù)學(xué)上用Sup{}這個記號表示“上確界”甚牲,即最小上界。為英文supremum的縮寫雏赦。

2.PAC學(xué)習(xí)(概率近似正確學(xué)習(xí)):

PAC學(xué)習(xí)理論的作用:

讓你明白到邀摆,為什么一個假設(shè)(模型或函數(shù))學(xué)習(xí)了訓(xùn)練樣本后栋盹,能保證這個假設(shè)在訓(xùn)練樣本之外的數(shù)據(jù)上有效。

什么是PAC學(xué)習(xí)理論:

某個訓(xùn)練樣本對正確目標(biāo)的映射榨汤,而稱為‘概念’,用符號c表示蜜宪,即存在一個映射,使得c(x) = y澳窑,這只是某一個結(jié)果,并不是集合栗精。
所有我們希望所有訓(xùn)練目標(biāo)的映射集合為‘概念類’鹿寨,用符號C表示赫悄。
模型經(jīng)過訓(xùn)練后得到的所有結(jié)果映射集合姑隅,稱為‘假設(shè)空間’,用符號H表示鄙陡。
首先PAC學(xué)習(xí)理論對機(jī)器學(xué)習(xí)算法結(jié)果有兩個概念

  • 可分的:
    訓(xùn)練樣本通過學(xué)習(xí)算法后,得出的假設(shè)空間,c屬于H培漏,我們稱為可分的
  • 不可分的:
    訓(xùn)練樣本通過學(xué)習(xí)算法后,得出的假設(shè)空間,c不屬于H咒锻,我們稱為不可分的

當(dāng)然在學(xué)習(xí)算法中,我們都希望學(xué)習(xí)算法盡可能有更多的c屬于H中,為什么只是盡可能多恭取,而不是要求精確呢耗跛?因?yàn)樵跈C(jī)器學(xué)習(xí)算法中惠猿,會受到很多因素的制約蜒茄,所以并不會百分百地對應(yīng)到。
當(dāng)選擇學(xué)習(xí)算法時候,我們希望以比較大的把握學(xué)得比較好的模型润讥。要判斷哪些學(xué)習(xí)算法能選用竿痰,這就需要符合PAC可學(xué)習(xí)性

PAC可學(xué)習(xí)性:

首先學(xué)習(xí)算法得出的‘假設(shè)’必須滿足以下的兩個條件(PAC辨識)才算上“近似”正確對應(yīng)目的概念c:

PAC辨識:

近似正確:泛化誤差E(h)足夠小
E(h)越小越好,最好泛化誤差能能于0,但一般是不可能的。那我們就把E(h)限定在一個很小的數(shù)?之內(nèi)夏哭,即只要假設(shè)h滿足E(h)≤?里逆,我們就認(rèn)為h是正確的胁镐。

可能正確
不指望選擇的假設(shè)h百分之百是近似正確的(按上段所述笨农,即E(h)≤?)竭宰,只要很可能是近似正確的就可以锁摔,即我們給定一個值δ孕豹,假設(shè)h滿足P(h近似正確)≥1?δ

滿足以上兩點(diǎn)的學(xué)習(xí)算法,就是能以較大概率學(xué)得目標(biāo)概念c的近似。

PAC可學(xué)習(xí):

概念:當(dāng)學(xué)習(xí)算法能從假設(shè)空間H中PAC辨識概念類C杖狼,則稱概念類對假設(shè)空間H而言是PAC可學(xué)習(xí)的炼蛤。
PAC學(xué)習(xí)中一個關(guān)鍵因素是假設(shè)空間H的復(fù)雜度,H包含了學(xué)習(xí)算法所有可能輸出的假設(shè)蝶涩。在實(shí)際問題中概念類C往往是不等于H的理朋,因?yàn)槲覀儗Ω拍铑愋跏叮桓挪恢.?dāng)H越大嗽上,其包含任意目標(biāo)概念的可能性越大次舌,但從中找到某個具體目標(biāo)概念的難度也越大。|H|有限時候兽愤,我們稱H為“有限假設(shè)空間”彼念,否則稱為“無限假設(shè)空間”

可分情形:

在可分情形下,如何找到滿足誤參數(shù)的假設(shè)呢浅萧?
訓(xùn)練集D中逐沙,樣例都可以通過目標(biāo)概念c,映射結(jié)果洼畅,而c存在假設(shè)空間H中吩案,那么我們通過保留D中一致的假設(shè),剔除與D不一致的假設(shè)土思,知道H只剩下一個假設(shè)位置务热,這個假設(shè)就是目標(biāo)概念。前提是訓(xùn)練集D足夠大己儒。

不可分情形:

對比較困難的學(xué)習(xí)問題崎岂,目標(biāo)概念c通常不存在于H中,也就是說闪湾,H中的任意一個假設(shè)都會在訓(xùn)練集上出現(xiàn)或多或少的錯誤冲甘,有Hoeffding不等式知:

通過式12.17可得:

由該公式可知道,說明了對于任意?途样,只要樣本數(shù)量m足夠小江醇,|E(h)?^E(h)|>? 發(fā)生的可能性就非常大,此時我們不能用經(jīng)驗(yàn)誤差近似泛化誤差何暇,但是反之陶夜,當(dāng)樣本數(shù)量m足夠大時,|E(h)?^E(h)|>?發(fā)生的可能性就非常小裆站,此時我們可以用經(jīng)驗(yàn)誤差近似泛化誤差条辟。
為什么在訓(xùn)練樣本上學(xué)習(xí)得到的假設(shè)會在真實(shí)樣本上有效?公式很好的說明了這一問題宏胯。只要樣本數(shù)量m足夠大或者假設(shè)空間的大小|H|足夠小羽嫡,公式就能保證學(xué)到的假設(shè)h′的泛化誤差E(h′)與經(jīng)驗(yàn)誤差^E(h′)足夠接近。h′在訓(xùn)練樣本上的表現(xiàn)與在真實(shí)樣本上一致

令置信區(qū)間等于2|H|exp(-2m?2)肩袍,并經(jīng)過轉(zhuǎn)換杭棵,即可得式12.19

由12.19可知,不可分時氛赐,學(xué)習(xí)算法無法學(xué)得目標(biāo)概念c的?近似魂爪,但是先舷,當(dāng)假設(shè)空間H給定時,其中必存在一個泛化誤差最小的假設(shè)甫窟,所以解決這些不可知學(xué)習(xí)密浑,最好辦法是找到此假設(shè)的?近似蛙婴。

滿足上述公式條件的粗井,我們可稱該假設(shè)空間H為不可知PAC可學(xué)習(xí)的。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末街图,一起剝皮案震驚了整個濱河市浇衬,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌餐济,老刑警劉巖耘擂,帶你破解...
    沈念sama閱讀 217,185評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異絮姆,居然都是意外死亡醉冤,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評論 3 393
  • 文/潘曉璐 我一進(jìn)店門篙悯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蚁阳,“玉大人,你說我怎么就攤上這事鸽照÷菥瑁” “怎么了?”我有些...
    開封第一講書人閱讀 163,524評論 0 353
  • 文/不壞的土叔 我叫張陵矮燎,是天一觀的道長定血。 經(jīng)常有香客問我,道長诞外,這世上最難降的妖魔是什么澜沟? 我笑而不...
    開封第一講書人閱讀 58,339評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮峡谊,結(jié)果婚禮上茫虽,老公的妹妹穿的比我還像新娘。我一直安慰自己靖苇,他們只是感情好席噩,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評論 6 391
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著贤壁,像睡著了一般悼枢。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上脾拆,一...
    開封第一講書人閱讀 51,287評論 1 301
  • 那天馒索,我揣著相機(jī)與錄音莹妒,去河邊找鬼。 笑死绰上,一個胖子當(dāng)著我的面吹牛旨怠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蜈块,決...
    沈念sama閱讀 40,130評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鉴腻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了百揭?” 一聲冷哼從身側(cè)響起爽哎,我...
    開封第一講書人閱讀 38,985評論 0 275
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎器一,沒想到半個月后课锌,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,420評論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡祈秕,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評論 3 334
  • 正文 我和宋清朗相戀三年渺贤,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片请毛。...
    茶點(diǎn)故事閱讀 39,779評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡志鞍,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出获印,到底是詐尸還是另有隱情述雾,我是刑警寧澤,帶...
    沈念sama閱讀 35,477評論 5 345
  • 正文 年R本政府宣布兼丰,位于F島的核電站玻孟,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏鳍征。R本人自食惡果不足惜黍翎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望艳丛。 院中可真熱鬧匣掸,春花似錦、人聲如沸氮双。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽戴差。三九已至送爸,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背袭厂。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評論 1 269
  • 我被黑心中介騙來泰國打工墨吓, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人纹磺。 一個月前我還...
    沈念sama閱讀 47,876評論 2 370
  • 正文 我出身青樓帖烘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親橄杨。 傳聞我的和親對象是個殘疾皇子秘症,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評論 2 354

推薦閱讀更多精彩內(nèi)容