機(jī)器學(xué)習(xí)系統(tǒng)設(shè)計(jì)的算法評估與誤差分析

????????本文是coursera上吳恩達(dá)老師的machinelearning課程第六周的個人筆記檩小,如果有幸被同好看到浅妆,可以在留言中指出我的問題或者一起討論!

一成榜、算法評估

1、數(shù)據(jù)集的劃分

????????評估算法過程中蹦玫,我們要將數(shù)據(jù)集分成訓(xùn)練集赎婚、交叉驗(yàn)證集刘绣、測試集,習(xí)慣上應(yīng)該先將數(shù)據(jù)集隨機(jī)無規(guī)律排序后按照6:2:2的比例進(jìn)行劃分挣输。三個集合分別計(jì)算的代價(jià)函數(shù)J記為Jtrain纬凤,Jcv,Jtest歧焦。

2移斩、模型(多項(xiàng)式)選擇

? ? ? ? 即假設(shè)函數(shù)h的次數(shù)肚医,對于待測試的的不同次數(shù)的假設(shè)函數(shù)分別利用訓(xùn)練集訓(xùn)練绢馍,將得到的模型再利用交叉驗(yàn)證集(簡稱驗(yàn)證集)計(jì)算代價(jià)函數(shù)即驗(yàn)證誤差。驗(yàn)證誤差最小的模型即位采用的模型肠套,再利用測試集得到推廣誤差舰涌。

3、欠擬合與過擬合的診斷

? ? ? ? 此時(shí)需要繪制Jtrain和Jcv的曲線來分析擬合好壞情況你稚。如圖所示瓷耙,當(dāng)次數(shù)很小的時(shí)候,對訓(xùn)練集和驗(yàn)證集擬合效果都不好(誤差高)刁赖,此時(shí)為欠擬合搁痛;當(dāng)次數(shù)過大的時(shí)候,對測試集擬合情況會非常的好宇弛,但是對未知情況(驗(yàn)證集)的預(yù)測能力會下降(誤差升高)鸡典,即訓(xùn)練集誤差很小,驗(yàn)證集誤差過大枪芒,兩者相差很大彻况,此時(shí)為過擬合。得出結(jié)論:增大多項(xiàng)式次數(shù)能改善欠擬合情況舅踪。反之則相反纽甘。

誤差與多項(xiàng)式次數(shù)的曲線

4、正則化與擬合情況的關(guān)系

? ? ? ? 此時(shí)依舊需要繪制Jtrain和Jcv的曲線抽碌,但是橫坐標(biāo)為正則化參數(shù)\lambda 悍赢。如圖所示,正則化參數(shù)越大货徙,對擬合的“懲罰”就越大左权,所以會減少過擬合情況,\lambda 過大的極端條件下破婆,即位欠擬合涮总,過小即不做正則化處理,即為過擬合祷舀。得出結(jié)論:減小正則化參數(shù)能改善欠擬合情況瀑梗。反之則相反烹笔。


誤差與正則化參數(shù)的曲線

5、學(xué)習(xí)曲線

? ? ? ? 一味的增大訓(xùn)練實(shí)例不一定能顯著提升算法的能力抛丽,這個結(jié)論從學(xué)習(xí)曲線中得到谤职。當(dāng)Jtrain從很小增加到很大,Jcv從很大沒有顯著下降時(shí)亿鲜,即位欠擬合允蜈,如圖所示,即使增加m的數(shù)量蒿柳,也無法改善此算法的能力饶套。


欠擬合情況學(xué)習(xí)曲線

? ? ? ? 當(dāng)Jtrain從很小緩慢增加,Jcv從很大緩慢下降垒探,此時(shí)在較少訓(xùn)練集下表現(xiàn)出很大的差距(large gap)時(shí)妓蛮,即為過擬合,如圖所示圾叼,隨著m的增大蛤克,二者距離會越來越接近,進(jìn)而達(dá)到改善算法能力的效果夷蚊。


?過擬合情況學(xué)習(xí)曲線

????????綜合這兩種情況得出結(jié)論:增加訓(xùn)練實(shí)例的數(shù)量可以改善過擬合情況构挤,沒有反之。

6惕鼓、特征與神經(jīng)網(wǎng)絡(luò)

? ? ? ? 對于特征筋现,我們可以去掉一些無關(guān)特征來改善過擬合情況;或者增加更能預(yù)測結(jié)果的一些特征來改善欠擬合呜笑。

? ? ? ? 對與網(wǎng)絡(luò)較小的神經(jīng)網(wǎng)絡(luò)夫否,參數(shù)少,容易導(dǎo)致欠擬合叫胁,但是計(jì)算量谢舜取;對于較大的神經(jīng)網(wǎng)絡(luò)驼鹅,參數(shù)多微谓,容易導(dǎo)致過擬合,可加入正則化參數(shù)來改善输钩,計(jì)算量大豺型。較大的神經(jīng)網(wǎng)絡(luò)加正則化的效果更好。

二买乃、誤差分析

1姻氨、Skewed Classes(分類偏移)

? ? ? ? 分類偏移是指兩個類別中其中一個類別出現(xiàn)的概率非常小,比如腫瘤預(yù)測剪验,腫瘤患者在整個數(shù)據(jù)集中往往只占0.5%肴焊,剩余的99.5%都是健康的前联,在這樣的情況下正常的考慮誤差的方式將不適用,因?yàn)榧词顾惴ㄓ肋h(yuǎn)預(yù)測一個人是健康的娶眷,誤差也只有0.5%似嗤。為了評估skewed classes情況的數(shù)據(jù)集,我們要引入查準(zhǔn)率(precision)和查全率(recall)届宠。

? ? ? ? 查準(zhǔn)率:預(yù)測為1的里面烁落,確實(shí)是1的概率。

? ? ? ? 查全率:實(shí)際是1的里面豌注,被預(yù)測出來的概率伤塌。

? ? ? ? 查準(zhǔn)率和查全率都應(yīng)該盡可能的大。這里面的1幌羞,選取概率小的那一個類別寸谜。所以按照腫瘤的例子,如果永遠(yuǎn)預(yù)測一個人是健康的(0)属桦,那么他的查準(zhǔn)率為無窮大,但是查全率為0他爸。

2聂宾、閾值與權(quán)衡查準(zhǔn)率和查全率

????????繪制下圖,查準(zhǔn)率查全率與閾值的關(guān)系诊笤。


查準(zhǔn)率查全率與閾值的關(guān)系

? ? ? ? 閾值是指假設(shè)函數(shù)h不一定只有在大于0.5的適合預(yù)測為1系谐,也可以設(shè)置新的閾值,比如為了讓病人警惕性更強(qiáng)一些讨跟,可以將閾值設(shè)置為0.3纪他,這樣可以查得更全(查全率高),也可以把閾值設(shè)置的更高比如0.9晾匠,這樣只有當(dāng)可能性非常大時(shí)才會被判斷為腫瘤茶袒,也就是查得更準(zhǔn)(查準(zhǔn)率高)。

? ? ? ? 為了權(quán)衡兩個指標(biāo)的關(guān)系凉馆,對于既定的幾個閾值薪寓,計(jì)算他們的查準(zhǔn)率P和查全率R,然后計(jì)算F1值:F1score ?=?2\frac{PR}{P+R} 澜共。選取F1最高的閾值,即可權(quán)衡查準(zhǔn)率和查全率嗦董。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市京革,隨后出現(xiàn)的幾起案子供璧,更是在濱河造成了極大的恐慌冻记,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件演顾,死亡現(xiàn)場離奇詭異,居然都是意外死亡钠至,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進(jìn)店門棉钧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涕蚤,“玉大人,你說我怎么就攤上這事万栅。” “怎么了烦粒?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長兽掰。 經(jīng)常有香客問我,道長孽尽,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任泻云,我火速辦了婚禮狐蜕,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘层释。我一直安慰自己,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布个初。 她就那樣靜靜地躺著,像睡著了一般院溺。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上珍逸,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天聋溜,我揣著相機(jī)與錄音,去河邊找鬼撮躁。 笑死,一個胖子當(dāng)著我的面吹牛把曼,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播祝迂,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼型雳!你這毒婦竟也來了纠俭?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤冤荆,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后钓简,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡外邓,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年损话,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡光涂,死狀恐怖拧烦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情恋博,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布交播,位于F島的核電站,受9級特大地震影響秦士,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜隧土,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望曹傀。 院中可真熱鬧,春花似錦皆愉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽异剥。三九已至,卻和暖如春冤寿,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背督怜。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留亮蛔,地道東北人。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓辣吃,卻偏偏與公主長得像,于是被迫代替她去往敵國和親神得。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 體驗(yàn)入 前幾天和業(yè)務(wù)聯(lián)系說感覺機(jī)子作出的值不準(zhǔn)哩簿,業(yè)務(wù)了好多說機(jī)子出問題的可能性很小,今天業(yè)務(wù)讓技術(shù)過來看一檢測真的...
    93650345d0d1閱讀 128評論 0 4
  • 今天三個圖樣羡玛,沒想太多就開始,不想構(gòu)圖宗苍,不想搭配,就先把新學(xué)的春天變化版畫上…… 然后把今天的圖樣填上讳窟,想到什么畫...
    芯之禪繞閱讀 154評論 0 0
  • 在《西方哲學(xué)史》里面,羅素有這樣一個定義:一切可以解釋的事情是科學(xué)坑雅,一切不可以解釋的事情是神學(xué),介于兩者之間的是哲...
    喵星君大大閱讀 468評論 0 0
  • 高效能人士的七個習(xí)慣是史蒂芬.柯維創(chuàng)造的一套標(biāo)準(zhǔn)操作系統(tǒng)霞丧,根據(jù)普遍原則和自然規(guī)律進(jìn)行整合冕香。 體系的中心原則:首先塑...
    啃書仔仔閱讀 318評論 0 0
  • 武昌府街邊的狗肉食肆是出了名的色香味俱全,廚子趙大全有一副去腥的好手藝悉尾,且菜量特別的實(shí)誠,每日食客都絡(luò)繹不絕构眯。...
    豬與地下城閱讀 233評論 0 0