PAC概率近似正確學(xué)習(xí)模型

  • 《Understanding Machine Learning-From Theory to Algorithms》
  • 第二章惜互,最后一段關(guān)于predictor 失敗的分析

一個(gè)upper bound的推導(dǎo)和理解

有了精度參數(shù)\epsilon, 我們就可以定義失敗的假設(shè) L_{(D,f)}(h_S)>\epsilon. 我們有m個(gè)訓(xùn)練樣本(x_1,...,x_m),是通過采樣產(chǎn)生的蝠检,組成了樣本集合S虾宇。不同人/時(shí)間岖赋,采樣的結(jié)果是不一樣的摩梧,就有不同的樣本集合旁趟,比如有S_1, S_2, ...,S_N. 這些樣本集合有多大概率產(chǎn)生失敗的predictor呢艰匙?記訓(xùn)練實(shí)例集為S|x=(x_1,...,x_m). 我們關(guān)心的是下面概率的上界限煞。

D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\}) #m-組實(shí)例采樣中 導(dǎo)致失敗預(yù)測器的 概率。

怎么算這個(gè)上界 upper bound?

  1. 引入bad hypothesis set的集合
    \mathcal{H}_B =\{h\in \mathcal{H}:L_{(D,f)}(h)>\epsilon\}.
  2. 從bad hypothesis出發(fā)员凝,定義數(shù)據(jù)誤導(dǎo)集
    M=\{S|x:\exists h \in \mathcal{H}_B,L_S(h)=0 \}
    也就是誤導(dǎo)集是依賴bad hypothesis的署驻,不同的h_B會有不同的誤導(dǎo)集,整個(gè)誤導(dǎo)集是所有bad hypothesis的并集健霹。
  3. 回到關(guān)注的問題中的集合\{S|x:L_{(D,f)}(h_S)>\epsilon\}, 這個(gè)集合等價(jià)于:
    \{S|x:L_{(D,f)}(h)>\epsilon,L_S(h)=0\},繼續(xù)等價(jià)于:
    \{S|x:h \in \mathcal{H}_B,L_S(h)=0\}旺上,子集關(guān)系就出來了:
    \{S|x:L_{(D,f)}(h_S)>\epsilon\}\subseteq M, 這個(gè)集合只是誤導(dǎo)集的子集而已。
  4. 概率不等關(guān)系也就出來了:
    D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq D^m(M)
  5. 從第2點(diǎn)中可以看出M還是個(gè)并集糖埋。M = \mathop{\cup}_{h\in\mathcal{H}_B}\{S|x:L_S(h)=0\}宣吱。利用聯(lián)合界的方式縮放:
    D^m(M)\leq\mathop{\Sigma}_{h\in\mathcal{H}_B} D^m(\{S|x:L_S(h)=0\}).
  6. 固定某個(gè)"bad"假設(shè),展開:
    D^m(\{S|x:L_S(h)=0\})=D^m(\{S|x:\forall i, h(x_i)=f(x_i)\})=\mathop{\Pi}_{i=1}^m D(\{x_i: h(x_i)=f(x_i)\})
  7. 對于每個(gè)sample, D(\{x_i: h(x_i)=f(x_i)\})=1-L_{(D,f)}(h)\leq 1-\epsilon\leq e^{-\epsilon}瞳别, 注意第6步中使用的bad hypothesis, 所以不等式成立征候。
  8. 所以整個(gè)的上界upper bound
    D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq |\mathcal{H}|e^{-\epsilon m}
    說明:
  • 假設(shè)空間很小|\mathcal{H}|=1, 訓(xùn)練樣本量m只需要很少杭攻;但是由于實(shí)際問題的復(fù)雜性,|\mathcal{H}|必須要很大(比如深度學(xué)習(xí))疤坝。為了控制這個(gè)upper bound, 就必然要求大的m兆解,大數(shù)據(jù)量。
  • 精度參數(shù)\epsilon是一個(gè)要求指標(biāo)跑揉,精度需求越高锅睛,\epsilon越小,實(shí)現(xiàn)相同的upper bound历谍, 就需要更大的m现拒,數(shù)據(jù)量和精度有關(guān)系。通過數(shù)據(jù)增強(qiáng)提高分類精度望侈,這個(gè)公式也可以看出端倪印蔬。
  • 算法理論分析的牛逼之處在于:給定少量的假設(shè)條件,就能夠分析出關(guān)鍵配置對性能影響關(guān)系甜无。

推論2.3

假設(shè) m\geq \frac{log(|\mathcal{H}|/\delta)}{\epsilon}

D^m(\{S|x:L_{(D,f)}(h_S)>\epsilon\})\leq |\mathcal{H}|e^{-\epsilon m}\leq \delta

說明:在m足夠大的時(shí)候扛点,在獨(dú)立同分布的樣本集S上,最少以1-\delta的大概率保證h_S有效岂丘,即 L_{(D,f)}(h_S)\leq \epsilon.

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末陵究,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子奥帘,更是在濱河造成了極大的恐慌铜邮,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件寨蹋,死亡現(xiàn)場離奇詭異松蒜,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)已旧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進(jìn)店門秸苗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人运褪,你說我怎么就攤上這事惊楼。” “怎么了秸讹?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵檀咙,是天一觀的道長。 經(jīng)常有香客問我璃诀,道長弧可,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任劣欢,我火速辦了婚禮棕诵,結(jié)果婚禮上裁良,老公的妹妹穿的比我還像新娘。我一直安慰自己校套,他們只是感情好趴久,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著搔确,像睡著了一般。 火紅的嫁衣襯著肌膚如雪灭忠。 梳的紋絲不亂的頭發(fā)上膳算,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天,我揣著相機(jī)與錄音弛作,去河邊找鬼涕蜂。 笑死,一個(gè)胖子當(dāng)著我的面吹牛映琳,可吹牛的內(nèi)容都是我干的机隙。 我是一名探鬼主播,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼萨西,長吁一口氣:“原來是場噩夢啊……” “哼有鹿!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起谎脯,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤葱跋,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后源梭,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體娱俺,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年废麻,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了荠卷。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,127評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡烛愧,死狀恐怖油宜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情屑彻,我是刑警寧澤验庙,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站社牲,受9級特大地震影響粪薛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜搏恤,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一违寿、第九天 我趴在偏房一處隱蔽的房頂上張望湃交。 院中可真熱鬧,春花似錦藤巢、人聲如沸搞莺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽才沧。三九已至,卻和暖如春绍刮,著一層夾襖步出監(jiān)牢的瞬間温圆,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工孩革, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岁歉,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓膝蜈,卻偏偏與公主長得像锅移,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子饱搏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容