????????本文是coursera上吳恩達(dá)老師的machinelearning課程第六周的個人筆記檩小,如果有幸被同好看到浅妆,可以在留言中指出我的問題或者一起討論!
一成榜、算法評估
1、數(shù)據(jù)集的劃分
????????評估算法過程中蹦玫,我們要將數(shù)據(jù)集分成訓(xùn)練集赎婚、交叉驗(yàn)證集刘绣、測試集,習(xí)慣上應(yīng)該先將數(shù)據(jù)集隨機(jī)無規(guī)律排序后按照6:2:2的比例進(jìn)行劃分挣输。三個集合分別計(jì)算的代價(jià)函數(shù)J記為Jtrain纬凤,Jcv,Jtest歧焦。
2移斩、模型(多項(xiàng)式)選擇
? ? ? ? 即假設(shè)函數(shù)h的次數(shù)肚医,對于待測試的的不同次數(shù)的假設(shè)函數(shù)分別利用訓(xùn)練集訓(xùn)練绢馍,將得到的模型再利用交叉驗(yàn)證集(簡稱驗(yàn)證集)計(jì)算代價(jià)函數(shù)即驗(yàn)證誤差。驗(yàn)證誤差最小的模型即位采用的模型肠套,再利用測試集得到推廣誤差舰涌。
3、欠擬合與過擬合的診斷
? ? ? ? 此時(shí)需要繪制Jtrain和Jcv的曲線來分析擬合好壞情況你稚。如圖所示瓷耙,當(dāng)次數(shù)很小的時(shí)候,對訓(xùn)練集和驗(yàn)證集擬合效果都不好(誤差高)刁赖,此時(shí)為欠擬合搁痛;當(dāng)次數(shù)過大的時(shí)候,對測試集擬合情況會非常的好宇弛,但是對未知情況(驗(yàn)證集)的預(yù)測能力會下降(誤差升高)鸡典,即訓(xùn)練集誤差很小,驗(yàn)證集誤差過大枪芒,兩者相差很大彻况,此時(shí)為過擬合。得出結(jié)論:增大多項(xiàng)式次數(shù)能改善欠擬合情況舅踪。反之則相反纽甘。
4、正則化與擬合情況的關(guān)系
? ? ? ? 此時(shí)依舊需要繪制Jtrain和Jcv的曲線抽碌,但是橫坐標(biāo)為正則化參數(shù)悍赢。如圖所示,正則化參數(shù)越大货徙,對擬合的“懲罰”就越大左权,所以會減少過擬合情況,
過大的極端條件下破婆,即位欠擬合涮总,過小即不做正則化處理,即為過擬合祷舀。得出結(jié)論:減小正則化參數(shù)能改善欠擬合情況瀑梗。反之則相反烹笔。
5、學(xué)習(xí)曲線
? ? ? ? 一味的增大訓(xùn)練實(shí)例不一定能顯著提升算法的能力抛丽,這個結(jié)論從學(xué)習(xí)曲線中得到谤职。當(dāng)Jtrain從很小增加到很大,Jcv從很大沒有顯著下降時(shí)亿鲜,即位欠擬合允蜈,如圖所示,即使增加m的數(shù)量蒿柳,也無法改善此算法的能力饶套。
? ? ? ? 當(dāng)Jtrain從很小緩慢增加,Jcv從很大緩慢下降垒探,此時(shí)在較少訓(xùn)練集下表現(xiàn)出很大的差距(large gap)時(shí)妓蛮,即為過擬合,如圖所示圾叼,隨著m的增大蛤克,二者距離會越來越接近,進(jìn)而達(dá)到改善算法能力的效果夷蚊。
????????綜合這兩種情況得出結(jié)論:增加訓(xùn)練實(shí)例的數(shù)量可以改善過擬合情況构挤,沒有反之。
6惕鼓、特征與神經(jīng)網(wǎng)絡(luò)
? ? ? ? 對于特征筋现,我們可以去掉一些無關(guān)特征來改善過擬合情況;或者增加更能預(yù)測結(jié)果的一些特征來改善欠擬合呜笑。
? ? ? ? 對與網(wǎng)絡(luò)較小的神經(jīng)網(wǎng)絡(luò)夫否,參數(shù)少,容易導(dǎo)致欠擬合叫胁,但是計(jì)算量谢舜取;對于較大的神經(jīng)網(wǎng)絡(luò)驼鹅,參數(shù)多微谓,容易導(dǎo)致過擬合,可加入正則化參數(shù)來改善输钩,計(jì)算量大豺型。較大的神經(jīng)網(wǎng)絡(luò)加正則化的效果更好。
二买乃、誤差分析
1姻氨、Skewed Classes(分類偏移)
? ? ? ? 分類偏移是指兩個類別中其中一個類別出現(xiàn)的概率非常小,比如腫瘤預(yù)測剪验,腫瘤患者在整個數(shù)據(jù)集中往往只占0.5%肴焊,剩余的99.5%都是健康的前联,在這樣的情況下正常的考慮誤差的方式將不適用,因?yàn)榧词顾惴ㄓ肋h(yuǎn)預(yù)測一個人是健康的娶眷,誤差也只有0.5%似嗤。為了評估skewed classes情況的數(shù)據(jù)集,我們要引入查準(zhǔn)率(precision)和查全率(recall)届宠。
? ? ? ? 查準(zhǔn)率:預(yù)測為1的里面烁落,確實(shí)是1的概率。
? ? ? ? 查全率:實(shí)際是1的里面豌注,被預(yù)測出來的概率伤塌。
? ? ? ? 查準(zhǔn)率和查全率都應(yīng)該盡可能的大。這里面的1幌羞,選取概率小的那一個類別寸谜。所以按照腫瘤的例子,如果永遠(yuǎn)預(yù)測一個人是健康的(0)属桦,那么他的查準(zhǔn)率為無窮大,但是查全率為0他爸。
2聂宾、閾值與權(quán)衡查準(zhǔn)率和查全率
????????繪制下圖,查準(zhǔn)率查全率與閾值的關(guān)系诊笤。
? ? ? ? 閾值是指假設(shè)函數(shù)h不一定只有在大于0.5的適合預(yù)測為1系谐,也可以設(shè)置新的閾值,比如為了讓病人警惕性更強(qiáng)一些讨跟,可以將閾值設(shè)置為0.3纪他,這樣可以查得更全(查全率高),也可以把閾值設(shè)置的更高比如0.9晾匠,這樣只有當(dāng)可能性非常大時(shí)才會被判斷為腫瘤茶袒,也就是查得更準(zhǔn)(查準(zhǔn)率高)。
? ? ? ? 為了權(quán)衡兩個指標(biāo)的關(guān)系凉馆,對于既定的幾個閾值薪寓,計(jì)算他們的查準(zhǔn)率P和查全率R,然后計(jì)算F1值:F1score ?=?澜共。選取F1最高的閾值,即可權(quán)衡查準(zhǔn)率和查全率嗦董。