連載 | 機(jī)器學(xué)習(xí)基石 Lec 8:Noise & Error

Tips:未進(jìn)行說(shuō)明的符號(hào)主要參照Lec 1 ,部分參照其他Lec.

上一節(jié)介紹了ML中非常重要的工具VC Dimension纫版,說(shuō)明了learning發(fā)生的理論保障和一些條件:當(dāng)dvc有限、N足夠大碗短、Ein較低時(shí)魁衙,learning 可行。

這節(jié)將從data出發(fā)巫俺,介紹存在noise和error時(shí)會(huì)是怎樣的情況认烁?之前的理論是否可以放寬到這種情況?


Lec 8:Noise and Error

1、Noise and Probabilistic Target

之前Pocket里面有提到noise却嗡,noise來(lái)源有三點(diǎn):1)來(lái)自錯(cuò)誤標(biāo)記y舶沛;2)同一個(gè)x有兩個(gè)不同的y;3)x不正確稽穆;?

存在Noise的時(shí)候冠王,VC Bound是否還有效呢??

回顧一下小球問(wèn)題舌镶,小球x~P(x)柱彻,抽出小球的顏色是確定的,橘色代表 f(x)≠ h(x)餐胀;綠色代表 f(x)= h(x)哟楷;

現(xiàn)在有noise是怎么樣的?小球x~P(x)否灾,不同的是當(dāng)抽出小球時(shí)卖擅,小球的顏色并不是確定的,但顏色也會(huì)存在一種分布distribution墨技,如何獲得惩阶?sample!表示為 y~P(y|x)扣汪;

在x~P(x)断楷,y~P(y|x)的情況下重新證明VC Bound,任然會(huì)是成立的崭别,不給出證明冬筒。

實(shí)際上,只要訓(xùn)練&測(cè)試的(x茅主,y)來(lái)自同一個(gè)P舞痰,則VC Bound可以work.

現(xiàn)在學(xué)習(xí)的目標(biāo)不是target function,而是target distribution P(y|x)诀姚,可以看做是 ideal mini-target + noise. 例如:結(jié)果給出P(1 | x)= 0.7响牛,P(0 | x) = 0.3,自然會(huì)選擇0.7那個(gè)結(jié)果学搜,而0.3就可以看做是Noise的level.

到這里就可以看出娃善,之前學(xué)習(xí) f 的情況是學(xué)習(xí)target distribution的特例。

(注:"predict ideal mini-target (w.r.t. P(y|x))on often-seen inputs(w.r.t. P(x))" 這個(gè)結(jié)論感覺(jué)自己還沒(méi)有理解好瑞佩,所以也不知道怎么解釋好聚磺,希望可以得到大家的指點(diǎn) )

2、Error Measure

我們的學(xué)習(xí)目標(biāo)是得到一個(gè)接近f的g炬丸,g≈f. 之前也多數(shù)在圍繞這個(gè)目標(biāo)討論瘫寝,什么樣是接近的蜒蕾?前面是用Eout(g)來(lái)衡量,Eout(g)越小越好焕阿。

Eout這個(gè)衡量標(biāo)準(zhǔn)有3個(gè)注意點(diǎn):out-of-sample咪啡,對(duì)未來(lái)的預(yù)測(cè);pointwise暮屡,可以在單個(gè)data上衡量撤摸;二元分類,“對(duì)”or“錯(cuò)”褒纲,又叫 0/1 error.

更一般的衡量標(biāo)準(zhǔn)可以用 E(g准夷,f)表示,在一個(gè)點(diǎn)上判斷對(duì)錯(cuò)再對(duì)多個(gè)點(diǎn)平均莺掠, E(g衫嵌,f) = averaged err(g(x),f(x))彻秆,err叫做 “Pointwise Error Measure”. ?所以可以表示Ein(g)和Eout(g)為:

之后的課程中主要使用 pointwise err 作為衡量楔绞,當(dāng)然實(shí)際中也存在更復(fù)雜的衡量。

Pointwise Error Measure主要有兩種:0/1 err 和 squared err

~y就是g

類別型:0/1 err 是判斷對(duì)錯(cuò)唇兑,主要用在分類酒朵,選擇對(duì)應(yīng)的錯(cuò)誤概率最低的y作為結(jié)果;

數(shù)值型:squared err 是判斷“距離”扎附,主要用在回歸(后續(xù)會(huì)有介紹)耻讽,y是加權(quán)平均值(可以證明得到),如下圖:

到這里帕棉,對(duì)learning的理解已經(jīng)深入一些了,這里再附一張更詳細(xì)的learning flow的圖饼记,可以和Lec 1的比較一下:

直接給出拓展:vc theory / philosophy 對(duì)大部分H和err都可以成立香伴!

3、Error Measure in Algorithm

結(jié)合實(shí)際應(yīng)用具则,err存在兩種錯(cuò)誤情形:false reject 和 false accept即纲,比如設(shè)備的指紋識(shí)別,錯(cuò)誤的拒絕了用戶 和 錯(cuò)誤的接受了攻擊者博肋。

在 0/1 err中對(duì)這兩種情形的penalty(懲罰)是同等的低斋,但是在實(shí)際中,對(duì)于不同的應(yīng)用場(chǎng)景匪凡、不同的使用者等來(lái)說(shuō)膊畴,err兩種錯(cuò)誤情形的懲罰標(biāo)準(zhǔn)應(yīng)該不同。比如 超市顧客認(rèn)證系統(tǒng) 和 CIA認(rèn)證系統(tǒng)病游,不同錯(cuò)誤產(chǎn)生的后果差異巨大唇跨。所以稠通,在設(shè)計(jì)學(xué)習(xí)算法的時(shí)候,應(yīng)該考慮這一點(diǎn)买猖,但是……但是……通常很難確定懲罰標(biāo)準(zhǔn)改橘,1000?5000玉控?or飞主?不好說(shuō)懲罰多少。通常會(huì)選擇一種err的 替代品 或 容易最佳化的&合理的 err^.設(shè)計(jì)合適的err^是學(xué)習(xí)算法設(shè)計(jì)中的核心部分高诺!

后面的章節(jié)會(huì)看到碌识,不同的學(xué)習(xí)算法A的err^設(shè)計(jì)各異,各有千秋懒叛,自然可以理解這里說(shuō)的意思丸冕,嘿嘿。選擇一個(gè)right的err^非常重要薛窥!最后就會(huì)發(fā)現(xiàn)胖烛,大部分學(xué)習(xí)算法就是對(duì)err^的最佳化,最后都是數(shù)學(xué)問(wèn)題诅迷。 個(gè)人覺(jué)得佩番,理解了算法的err^設(shè)計(jì),就差不多理解了算法的 philosophy.

4罢杉、Weighted Classification

給二元分類的err加上權(quán)重的分類稱為weighted classification.

給出一個(gè)名詞:cost或error或 loss matrix趟畏,表示不同錯(cuò)誤情景的代價(jià)。下圖展示了對(duì)應(yīng)超市和CIA認(rèn)證的cost matrix.

超市
CIA

此時(shí)Ein和Eout形式為:

VC理論對(duì)于這種理論還是適用的滩租,那么希望Ein越小越好赋秀,帶weight的Ein如何解?

1)對(duì)于PLA來(lái)說(shuō)律想,Ein = 0猎莲,weight不影響什么;

2)對(duì)于pocket來(lái)說(shuō)技即,需要modify一下著洼。很簡(jiǎn)單,只需在比較Wt+1和Wt時(shí)而叼,比較加權(quán)錯(cuò)誤的大猩眢浴?葵陵!真的這么簡(jiǎn)單嗎笔链?可是考慮一下抓韩,pocket的理論保障是對(duì)于 0/1 err,這樣簡(jiǎn)單的修改也許會(huì)破壞之前的理論保障橘券?保持懷疑。

其實(shí)有一種巧妙方法可以把 weighted Ein 變換成 0/1 Ein:把y = -1 的data 復(fù)制1000倍!嗯哼~這時(shí)error matrix就和0/1 error matrix一樣,可以使用 pocket 了,但其實(shí)應(yīng)該modify兩點(diǎn)(更嚴(yán)謹(jǐn)响迂,也很巧妙):

1)其實(shí)實(shí)現(xiàn)copy的時(shí)候,并不需要真的復(fù)制1000倍并存儲(chǔ)下來(lái)细疚,稱為“virtual copy”蔗彤。所以應(yīng)該頻繁地(1000倍)check y = -1 的data;

2)比較Wt+1和Wt時(shí)疯兼,比較加權(quán)錯(cuò)誤的大腥欢簟;

這個(gè)轉(zhuǎn)化思路可以應(yīng)用在很多其他的algorithms上吧彪,叫做 “reduction”待侵。

Fun Time 值得提一下:

這個(gè)題目體現(xiàn)了data的unbalanced的情況,properly設(shè)置weight可以避免這種情況姨裸。

至此why部分結(jié)束秧倾,下面將主要進(jìn)行各種Algorithm的介紹~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市傀缩,隨后出現(xiàn)的幾起案子那先,更是在濱河造成了極大的恐慌,老刑警劉巖赡艰,帶你破解...
    沈念sama閱讀 211,639評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件售淡,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡慷垮,警方通過(guò)查閱死者的電腦和手機(jī)揖闸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,277評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)料身,“玉大人楔壤,你說(shuō)我怎么就攤上這事」咄眨” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 157,221評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵递瑰,是天一觀的道長(zhǎng)祟牲。 經(jīng)常有香客問(wèn)我,道長(zhǎng)抖部,這世上最難降的妖魔是什么说贝? 我笑而不...
    開(kāi)封第一講書人閱讀 56,474評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮慎颗,結(jié)果婚禮上乡恕,老公的妹妹穿的比我還像新娘言询。我一直安慰自己,他們只是感情好傲宜,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,570評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布运杭。 她就那樣靜靜地躺著,像睡著了一般函卒。 火紅的嫁衣襯著肌膚如雪辆憔。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 49,816評(píng)論 1 290
  • 那天报嵌,我揣著相機(jī)與錄音虱咧,去河邊找鬼。 笑死锚国,一個(gè)胖子當(dāng)著我的面吹牛腕巡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播血筑,決...
    沈念sama閱讀 38,957評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼绘沉,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了云挟?” 一聲冷哼從身側(cè)響起梆砸,我...
    開(kāi)封第一講書人閱讀 37,718評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎园欣,沒(méi)想到半個(gè)月后帖世,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,176評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡沸枯,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,511評(píng)論 2 327
  • 正文 我和宋清朗相戀三年日矫,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片绑榴。...
    茶點(diǎn)故事閱讀 38,646評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡哪轿,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出翔怎,到底是詐尸還是另有隱情窃诉,我是刑警寧澤,帶...
    沈念sama閱讀 34,322評(píng)論 4 330
  • 正文 年R本政府宣布赤套,位于F島的核電站飘痛,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏容握。R本人自食惡果不足惜宣脉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,934評(píng)論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望剔氏。 院中可真熱鬧塑猖,春花似錦竹祷、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,755評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至践险,卻和暖如春猿妈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背巍虫。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,987評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工彭则, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人占遥。 一個(gè)月前我還...
    沈念sama閱讀 46,358評(píng)論 2 360
  • 正文 我出身青樓俯抖,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親瓦胎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子芬萍,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,514評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容