【機(jī)器學(xué)習(xí)】入門筆記系列(8) | 機(jī)器學(xué)習(xí)系統(tǒng)的誤差分析和數(shù)值評估

一、誤差分析

機(jī)器學(xué)習(xí)問題的推薦解決方法:

1. 先用簡單粗暴,盡管可能效果一般的算法快速實(shí)現(xiàn)趴酣,并使用驗(yàn)證集測試;

2. 繪制學(xué)習(xí)曲線坑夯,來幫助判斷是增加數(shù)據(jù)集還是增加特征項(xiàng)來提升系統(tǒng)的性能岖寞;

3. 誤差分析:人工核查算法在驗(yàn)證集上預(yù)測錯誤的樣本,并找出這些預(yù)測錯誤樣本的規(guī)律或特征柜蜈;

4. 優(yōu)化算法仗谆,并對優(yōu)化效果進(jìn)行量化評估,即數(shù)值評估(numerical evaluation)淑履。

下面解釋一下其中一些問題:

問:先實(shí)現(xiàn)簡單的算法的好處隶垮?

答:一旦有了初始的算法實(shí)現(xiàn),我們就可以通過算法產(chǎn)生的錯誤進(jìn)行誤差分析來觀察算法出現(xiàn)了什么誤差秘噪,然后以此決定如何優(yōu)化狸吞;也可以使用一些數(shù)值評價(jià)指標(biāo)去試驗(yàn)?zāi)阈碌南敕?/ 特征,并判斷你的新想法是否合理有效。

問:為什么使用驗(yàn)證集測試捷绒,而不使用測試集測試瑰排?

答:測試誤差一般用于代表模型的泛化誤差。因?yàn)槲覀円婚_始選用簡單快速的算法實(shí)現(xiàn)暖侨,所以我們需要通過測試發(fā)現(xiàn)算法問題椭住,進(jìn)而不斷調(diào)整算法(如增減特征、調(diào)參等等)字逗。如果用測試集測試京郑,測試誤差就不能用于代表模型的泛化誤差。

下面葫掉,舉例說明誤差分析的過程:假設(shè)我們已經(jīng)實(shí)現(xiàn)了簡單的算法完成垃圾郵件的分類些举,現(xiàn)在用驗(yàn)證集測試算法。然后發(fā)現(xiàn)有 100 個錯誤分類的郵件俭厚。下面就對這 100 個錯誤分類郵件進(jìn)行誤差分析户魏。首先對這 100 個郵件進(jìn)行分類。

誤差分析例子

假設(shè)這 100 個分為 12 個藥物推銷郵件(Pharma)挪挤,4 個假貨郵件(Replica/fake)叼丑,53 個釣魚郵件(Steal passwords),31 個其他推銷郵件扛门。

你會發(fā)現(xiàn)你算法在判斷釣魚郵件方面表現(xiàn)極差鸠信,這時(shí)候我們應(yīng)該花費(fèi)更多的時(shí)間仔細(xì)研究釣魚郵件,看看是否能得到更好的特征來為它們正確分類论寨。

誤差分析例子

又假設(shè)對這 53 個釣魚郵件分析并分類星立,得到其中 5 個故意拼寫錯誤、16 個使用了不正常的郵件路由葬凳、32 個使用了不常見的標(biāo)點(diǎn)符號绰垂。這時(shí)候,我們將算法優(yōu)化重心放在處理不常見的標(biāo)點(diǎn)符號上火焰。

最后辕坝,誤差分析后就優(yōu)化算法。計(jì)算并對比算法優(yōu)化前后驗(yàn)證誤差荐健,判斷量化算法優(yōu)化的效果酱畅。這種方法又稱為「數(shù)值評估(numerical evaluation)」

二、不對稱分類的錯誤率

有時(shí)很難判斷誤差的減少是否來表示算法的改進(jìn)效果江场。

比如纺酸,在預(yù)測癌癥,其中只有占數(shù)據(jù)集 0.5% 的患癌(y=1)樣例址否,學(xué)習(xí)算法訓(xùn)練后得到誤差是 1%餐蔬。然而學(xué)習(xí)算法改為恒返回 y=0碎紊,那么此時(shí)誤差減少為 0.5%。但不能說明算法得到改進(jìn)樊诺。

這類問題經(jīng)常發(fā)生在「不對稱分類」仗考;不對稱分類指的是其中一個類在整個數(shù)據(jù)集中非常罕見。換句話词爬,一個類占比遠(yuǎn)大于另一類的占比秃嗜。

在不對稱分類中,誤差已不是一種好的算法度量指標(biāo)顿膨。取而代之锅锨,基于查準(zhǔn)率和召回率的 F_1~Score 是解決不對稱分析問題的算法度量指標(biāo)。

2.1查準(zhǔn)率(Precision) / 召回率(Recall)

查準(zhǔn)率(Precision):在我們預(yù)測 y = 1 的所有患者中恋沃,實(shí)際上有多少癌癥必搞。

查準(zhǔn)率計(jì)算

召回率(Recall):在實(shí)際患有癌癥的所有患者中,我們正確檢測到哪些患有癌癥囊咏。

召回率計(jì)算

這兩個指標(biāo)讓我們更好地了解決不對稱分類問題的算法效果恕洲。其中,查準(zhǔn)率和召回率越高越好梅割。

之前的例子霜第,如果我們始終返回 y=0 的算法,它的召回率 \frac{0}{0+f} = 0炮捧,可見這個算法有很差的召回率,故此該算法不好惦银。

注意:我們習(xí)慣把出現(xiàn)概率極小的情況 / 類設(shè)為 y = 1咆课。

2.2查準(zhǔn)率和召回率的權(quán)衡:F_1~Score

還是以癌癥診斷為例, y=1 代表患癌癥扯俱。使用邏輯回歸模型书蚪,一般情況下:

當(dāng) h_\theta(x) >= 0.5 時(shí),才預(yù)測 y = 1迅栅;
當(dāng) h_\theta(x) < 0.5 時(shí)殊校,預(yù)測 y = 0

如果读存,為了避免造成家屬不必要的恐慌(畢竟被診斷為癌癥對人是一種巨大的打擊)为流,我們只有在非常確信的情況下才預(yù)測患癌。此時(shí)让簿,提高決策邊界:

當(dāng) h_\theta(x) >= 0.7 時(shí)敬察,才預(yù)測 y = 1
當(dāng) h_\theta(x) < 0.7 時(shí)尔当,預(yù)測 y = 0莲祸;

提高決策邊界,這會導(dǎo)致模型產(chǎn)生高查準(zhǔn)率、低召回率锐帜;

反過來田盈,為了不遺漏任何一個疑似癌癥的患者,我們就要降低決策邊界:

當(dāng) h_\theta(x) >= 0.3 時(shí)缴阎,才預(yù)測 y = 1允瞧;
當(dāng) h_\theta(x) < 0.3 時(shí),預(yù)測 y = 0药蜻;

降低決策邊界瓷式,這會導(dǎo)致模型產(chǎn)生低查準(zhǔn)率、高召回率语泽。

改變決策邊界贸典,查準(zhǔn)率與召回率變化趨勢如下圖所示。

理想化下踱卵,決策邊界與查準(zhǔn)率廊驼、召回率

注意:查準(zhǔn)率和召回率任意一個值過高或者過低都不好。那么惋砂,如何選擇決策邊界妒挎,同時(shí)得到相對較高的查準(zhǔn)率和召回率?

2.2 F_1~Score

之前說過如果我們只有一個數(shù)值能夠評估算法就好了, 但是現(xiàn)在對于不對稱分類問題西饵,我們需要兩個數(shù)值酝掩,那么我們該如何評估算法?現(xiàn)在有三個相同的算法, 但是它們的決策邊界不同, 對應(yīng)的查準(zhǔn)率和召回率如下圖所示眷柔。我們該選擇哪一個?

一般期虾,的我們能想到的一個最簡單做法是使用平均值,但是對于這三個算法均值最高的是算法驯嘱,但是它的查準(zhǔn)率只有 0.02镶苞。之前說過查準(zhǔn)率過高或過低都不好。顯然, 取平均值不是個好辦法.

這個時(shí)候引進(jìn) F_1~Score 的概念

image.png

PS:計(jì)算的查準(zhǔn)率和召回率是驗(yàn)證集的查準(zhǔn)率和召回率

有了這個權(quán)衡指標(biāo)鞠评,我們就可以實(shí)現(xiàn)自動選擇決策邊界C尽!遍歷決策邊界剃幌,然后計(jì)算對應(yīng)的 F_1~Score聋涨,最后取能夠得到 F_1~Score 最大值的決策邊界。

總結(jié)

機(jī)器學(xué)習(xí)問題的推薦解決方法

數(shù)值評估除了常見一個數(shù)值指標(biāo):誤差负乡,還有兩個數(shù)值指標(biāo):查準(zhǔn)率和召回率牛郑。

查準(zhǔn)率和召回率的計(jì)算

使用 F_1~Score = 2\frac{PR}{P+R} 通過查準(zhǔn)率和召回率評估算法優(yōu)劣。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末敬鬓,一起剝皮案震驚了整個濱河市淹朋,隨后出現(xiàn)的幾起案子笙各,更是在濱河造成了極大的恐慌,老刑警劉巖础芍,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杈抢,死亡現(xiàn)場離奇詭異,居然都是意外死亡仑性,警方通過查閱死者的電腦和手機(jī)惶楼,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來诊杆,“玉大人歼捐,你說我怎么就攤上這事〕啃冢” “怎么了豹储?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長淘这。 經(jīng)常有香客問我剥扣,道長,這世上最難降的妖魔是什么铝穷? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮晦炊,結(jié)果婚禮上宁脊,老公的妹妹穿的比我還像新娘断国。我一直安慰自己,他們只是感情好朦佩,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布庐氮。 她就那樣靜靜地躺著语稠,像睡著了一般弄砍。 火紅的嫁衣襯著肌膚如雪仙畦。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天音婶,我揣著相機(jī)與錄音慨畸,去河邊找鬼衣式。 笑死檐什,一個胖子當(dāng)著我的面吹牛弱卡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播婶博,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼名党!你這毒婦竟也來了挠轴?” 一聲冷哼從身側(cè)響起传睹,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤蒋歌,失蹤者是張志新(化名)和其女友劉穎委煤,沒想到半個月后堂油,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體碧绞,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡讥邻,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了兴使。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡盹牧,死狀恐怖励幼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情苹粟,我是刑警寧澤,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布毛好,位于F島的核電站望艺,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏荣茫。R本人自食惡果不足惜场靴,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望旨剥。 院中可真熱鬧,春花似錦魄咕、人聲如沸蚌父。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至右遭,卻和暖如春缤削,著一層夾襖步出監(jiān)牢的瞬間窘哈,已是汗流浹背亭敢。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工帅刀, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人劝篷。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓民宿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親活鹰。 傳聞我的和親對象是個殘疾皇子只估,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容