【機器學習基礎(chǔ)】理解為什么機器可以學習2——Hoeffding不等式

引入

在上一小節(jié)"理解為什么機器可以學習——PAC學習模型"中,我們主要討論了假設(shè)的錯誤率問題和如何說一個學習器是可學習的,并給出了PAC學習理論悍汛。這一小節(jié)今妄,我們將沿著這個方向,討論一下戒幔,有限假設(shè)空間的樣本復雜度,并用Hoeffding不等式來界定概率邊界。

假設(shè)空間的樣本復雜度

PAC可學習性很大程度上由所需的訓練樣本數(shù)量決定浩习。隨著問題規(guī)模的增長所帶來的所需訓練樣本的增長稱為學習問題的樣本復雜度(sample complexity)。在多數(shù)實際問題中济丘,最限制學習器成功的因素是有限的可用的訓練數(shù)據(jù)谱秽。
我們通常都喜歡能與訓練數(shù)據(jù)擬合程度更高的假設(shè),當一個學習器在可能時都輸出能完美擬合訓練數(shù)據(jù)的假設(shè)時摹迷,我們稱該學習器是一致的(consistent)疟赊。這就要求訓練錯誤率是0。
遺憾的是峡碉,如果假設(shè)空間里不總是能找到一個零錯誤率的假設(shè)近哟,這時,最多能要求學習器輸出的假設(shè)在訓練數(shù)據(jù)上有最小的錯誤率鲫寄。
在更一般的情形下吉执,我們要考慮學習器有非零訓練錯誤率的假設(shè)時疯淫,仍能找到一個邊界來限定學習器所需的樣本數(shù)量。

Hoeffding邊界

描述問題

現(xiàn)在戳玫,我們來更準確的描述我們要解決的問題峡竣。
令D代表學習器可觀察的特定的訓練數(shù)據(jù)集合,而P代表整個數(shù)據(jù)集合背后滿足的概率分布量九。令Ein(h)代表假設(shè)h的訓練錯誤率(在機器學習基石課程中适掰,該錯誤率被稱為in-sample error),確切的說荠列,Ein(h)是數(shù)據(jù)集D中被h誤分類的訓練數(shù)據(jù)所占比例类浪,Ein(h)是定義在訓練數(shù)據(jù)集D上的,而真實錯誤率Eout(h)(out-of-sample error)是定義在整個概率分布P上的〖∷疲現(xiàn)在令g代表H中有最小訓練錯誤率的假設(shè)费就。問:多少訓練數(shù)據(jù)才足以保證真實錯誤率Eout(h)和訓練錯誤率Ein(h)很接近,并且接近0川队。

Hoeffding不等式

Hoeffding Inequality
Hoeffding Inequality

Hoeffding刻畫的是某個事件的真實概率及其m個獨立重復試驗中觀察到的頻率之間的差異力细,更準確的將,它是應用于m個不同的Bernoulli試驗固额。
該不等式給出了一個概率邊界眠蚂,它說明任意選擇的假設(shè)訓練錯誤率不能代表真實情況。

確認(verification)流程


我們發(fā)現(xiàn)滿足上面給的邊界不等式的h可不可以說它是一個好的學習器呢斗躏?當然不能逝慧,上面的不等式只能說明h的訓練錯誤率和真實錯誤率很接近啄糙,但卻不一定是最小的笛臣,即h不一定是最佳的假設(shè)隧饼。所以,這只是對一個假設(shè)做確認的過程燕雁。
這里因為只有一個hypothesis在手上,所以我們還不能做選擇贵白,但是我們可以給它一些verifying examples來讓它做確認率拒,看看h的表現(xiàn)如何禁荒,正如上圖流程所示。

有限假設(shè)空間的錯誤率的概率邊界

Hoeffding不等式告訴我們什么呢呛伴?較好擬合訓練數(shù)據(jù)的假設(shè)與該假設(shè)針對整個數(shù)據(jù)集合的預測勃痴,這兩者的錯誤率差別很大的那種情況發(fā)生的概率是很小的热康。
那么現(xiàn)在的問題是什么呢?如果在多個假設(shè)中姐军,其中一個假設(shè)針對訓練數(shù)據(jù)的輸出都是正確的铁材,那要不要選這個假設(shè)作為算法的輸出的假設(shè)呢?
帶著這個問題奕锌,我們先了解一下什么叫做不好的數(shù)據(jù)著觉。

Bad Sample and Bad Data

壞的樣本就是訓練錯誤率Ein=0,而真實錯誤率Eout=1/2的情況惊暴。
壞的數(shù)據(jù)是Ein和Eout差別很大的情況饼丘,通常Ein很小,Eout很大辽话。

而Hoeffding說明的是如果把所有的訓練數(shù)據(jù)(從輸入空間中肄鸽,隨機選取產(chǎn)生的數(shù)據(jù)的不同組合)窮舉出來,得到的不好的樣本(Bad Sample)的概率是很小的油啤。
所以壞的樣本就是讓算法的預測的準確率和訓練時的正確率差別很大的情況(Ein和Eout差別很大)典徘。


上圖說明:

  • 對于一個假設(shè)hi(每一行),Hoeffding保證其不好的情況總體的概率是很小的
  • 對于含有BAD的每一列來說益咬,只要有BAD烂斋,算法就無法從所有假設(shè)中自由做選擇
  • 表中D1126這個數(shù)據(jù)集是好的數(shù)據(jù)

Bound of BAD Data

我們來算一下壞的數(shù)據(jù)的概率邊界:



這個式子是有限個假設(shè)的Hoeffding不等式。
對于這個式子來說础废,如果訓練數(shù)據(jù)的數(shù)量N夠大的話汛骂,那么能保證Ein和Eout差別很小。

統(tǒng)計學習流程


上面的流程總結(jié)了我們這篇文章討論的問題评腺,那就是如果現(xiàn)有有限個假設(shè)且訓練數(shù)據(jù)量夠多的情況下帘瞭,那么不管我們?nèi)绾芜x擇訓練數(shù)據(jù),訓練錯誤率和真實錯誤率都會很接近蒿讥;我們設(shè)計算法來找一個Ein最小的蝶念,PAC理論就保證了Eout很小。這樣機器學習算法是有可能學到有用的知識的芋绸!

小結(jié)

我們至此討論的是有限個假設(shè)的情況媒殉,說明了機器學習算法可以做到一些事情。那么無限多假設(shè)的情況該是如何處理呢摔敛?我將在下一小節(jié)中介紹VC理論的有關(guān)知識廷蓉。

參考資料

機器學習, Tom M.Mitchell 马昙,機械工業(yè)出版社
機器學習基石課程桃犬,林軒田刹悴,臺灣大學

轉(zhuǎn)載請注明作者Jason Ding及其出處
Github主頁(http://jasonding1354.github.io/)
CSDN博客(http://blog.csdn.net/jasonding1354)
簡書主頁(http://www.reibang.com/users/2bd9b48f6ea8/latest_articles)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市攒暇,隨后出現(xiàn)的幾起案子土匀,更是在濱河造成了極大的恐慌,老刑警劉巖形用,帶你破解...
    沈念sama閱讀 218,386評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件就轧,死亡現(xiàn)場離奇詭異,居然都是意外死亡田度,警方通過查閱死者的電腦和手機钓丰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,142評論 3 394
  • 文/潘曉璐 我一進店門每币,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人兰怠,你說我怎么就攤上這事〗冶#” “怎么了?”我有些...
    開封第一講書人閱讀 164,704評論 0 353
  • 文/不壞的土叔 我叫張陵存筏,是天一觀的道長味榛。 經(jīng)常有香客問我,道長搏色,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,702評論 1 294
  • 正文 為了忘掉前任垂涯,我火速辦了婚禮航邢,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘膳殷。我一直安慰自己,他們只是感情好当娱,可當我...
    茶點故事閱讀 67,716評論 6 392
  • 文/花漫 我一把揭開白布考榨。 她就那樣靜靜地躺著,像睡著了一般冀惭。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上散休,一...
    開封第一講書人閱讀 51,573評論 1 305
  • 那天戚丸,我揣著相機與錄音,去河邊找鬼限府。 笑死痢缎,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的独旷。 我是一名探鬼主播,決...
    沈念sama閱讀 40,314評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼案疲,長吁一口氣:“原來是場噩夢啊……” “哼麻养!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起回溺,我...
    開封第一講書人閱讀 39,230評論 0 276
  • 序言:老撾萬榮一對情侶失蹤遗遵,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后车要,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,680評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡类垫,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,873評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了残家。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,991評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡坞淮,死狀恐怖陪捷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情市袖,我是刑警寧澤,帶...
    沈念sama閱讀 35,706評論 5 346
  • 正文 年R本政府宣布酒觅,位于F島的核電站驰怎,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏县忌。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,329評論 3 330
  • 文/蒙蒙 一装获、第九天 我趴在偏房一處隱蔽的房頂上張望厉颤。 院中可真熱鬧,春花似錦逼友、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,910評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽习柠。三九已至,卻和暖如春资溃,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背溶锭。 一陣腳步聲響...
    開封第一講書人閱讀 33,038評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留暖途,地道東北人卑惜。 一個月前我還...
    沈念sama閱讀 48,158評論 3 370
  • 正文 我出身青樓驻售,卻偏偏與公主長得像欺栗,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子迟几,可洞房花燭夜當晚...
    茶點故事閱讀 44,941評論 2 355

推薦閱讀更多精彩內(nèi)容