(2019-12-16)
首先柿顶,Type I/II Error 在維基百科的解釋為:
Type I error is the rejection of a true null hypothesis (also known as a "false positive" finding),
I類錯誤是拒絕了本為真的 Null Hypothesis
Type II error is failing to reject a false null hypothesis (also known as a "false negative" finding). 1-power。
II類錯誤是未能拒絕一個本為假的 Null Hypothesis
用一個例子來講:
Type I Error:
(見圖上H0): 陰性
假設(shè)成立操软,實(shí)際上也確實(shí)成立嘁锯,但是我們檢測到的樣本正好有Bias,導(dǎo)致落于置信區(qū)間外寺鸥,造成了False Positive Error(本來沒病,卻檢查出有财飞健)
Type II Error:
(見圖上H1): 陰性
假設(shè)成立胆建,實(shí)際上不成立,應(yīng)該是肘交。但是我們檢測到的樣本正好有Bias笆载,導(dǎo)致落于置信區(qū)間內(nèi),造成了False Negative Error(本來有病涯呻,卻檢查出沒擦棺ぁ)
再追加一個例子,如果我們要檢驗(yàn):
: 中國人平均身高 ≤ 170cm
: 中國人平均身高 > 170cm
Type I Error 就是平均身高實(shí)際是170cm复罐,但是取到的樣本平均身高到了180cm涝登,導(dǎo)致錯誤地拒絕了H0
Type II Error 就是平均身高實(shí)際是180cm,但是取到樣本平均身高卻是172cm效诅,導(dǎo)致錯誤地未能拒絕H0
顯著性水平的選擇對Type I胀滚,Type II Error的影響
α 的選擇越小趟济,藍(lán)線右移,P(Type I Error) 越小咽笼,P(Type II Error) 越大顷编;
α 的選擇越大,藍(lán)線左移剑刑,P(Type I Error) 越大媳纬,P(Type II Error) 越小。
其中施掏,定義檢驗(yàn)的勢 Power = 1 - P(Type II Error)
敏感性(Sensitivity)與特異性(Specificity)
敏感性(Sensitivity)意味著有病的人的檢測正確率钮惠,特異性(Specificity)意味著沒病的人的檢測正確率。
具體來講其监,
如果拿出機(jī)器學(xué)習(xí)中的混淆矩陣:
真實(shí)值為P | 真實(shí)值N | |
---|---|---|
預(yù)測值P | TP | FP (Type I Error) |
預(yù)測值N | FN (Type II Error) | TN |
敏感性的計(jì)算公式為:萌腿,它與FNR是互補(bǔ)關(guān)系(和為1)
高敏感性意味著低 FNR (False Nagetive Rate,圖中的β抖苦,漏診率)毁菱,有病的都能被檢測出來,機(jī)器學(xué)習(xí)中意味著高召回率()锌历,可以看到公式是一樣的贮庞。另外它和假設(shè)檢驗(yàn)中的 power(勢) 也是一致的。
特異性的計(jì)算公式為:究西,它與FPR是互補(bǔ)關(guān)系(和為1)
高特異性意味著低 FPR (False Positive Rate窗慎,圖中的α,誤診率)卤材,沒病的都不會被勿診為有病遮斥,但注意,高特異性并不意味著機(jī)器學(xué)習(xí)中的高精確度()扇丛,因?yàn)榧幢愀咛禺愋砸馕吨虵P术吗,但可能模型本身很差,根本無法找出TP帆精,從而導(dǎo)致精確度很低较屿。
ROC - Receiver Operating Characteristic (ROC) Curves
將模型檢測結(jié)果的 TPR (Sensitivity) 作為橫坐標(biāo),F(xiàn)PR (1 - Specificity) 作為縱坐標(biāo)卓练,畫到笛卡爾坐標(biāo)系中隘蝎,即可得到類似與如下的曲線:
直觀上理解,其實(shí)就是當(dāng)下圖中的藍(lán)線(閾值)從紫色面積的最右邊逐漸移到紅色部分的最左邊時襟企,產(chǎn)生的曲線:
其中的道理是嘱么,通過閾值的選擇可以讓模型對正例的判別變得嚴(yán)格,這樣就會有更多的真實(shí)正樣本被分為正例顽悼,TPR()增加拱撵,但同時也會有更多的真實(shí)負(fù)樣本被分為正例辉川,所以同時提高了FPR():
極端情況下,
- 當(dāng)兩個分布完全不重合拴测,用分類器可以完全分割時乓旗,模型的TPR=1,F(xiàn)PR=0集索,ROC=1屿愚,模型完美;
- 當(dāng)兩個分布完全重合务荆,用分類器完全無法分割時妆距,藍(lán)線從分布的右邊劃到左邊,TPR和FPR都從0到1函匕,ROC=0.5娱据,模型等同于隨機(jī)猜測;
而AUC就是所謂的Area under Curve盅惜,代表ROC曲線下面的面積中剩,值域?yàn)閇0, 1],正常情況下為[0.5, 1]抒寂。
- 當(dāng)AUC = 0.5時结啼,模型等于隨機(jī)猜測,
- 當(dāng)AUC ∈ (0.5, 1)屈芜,模型比隨機(jī)猜測好郊愧,
- 當(dāng)AUC = 1時,模型是完美分類器井佑,
- 當(dāng)AUC ∈ (0, 0.5)属铁,模型比隨機(jī)猜測差(只需反向預(yù)測即可好于隨即猜測)
AUC的實(shí)際意義是:當(dāng)隨機(jī)挑選一個正樣本以及一個負(fù)樣本,當(dāng)前的分類算法根據(jù)計(jì)算得到的分?jǐn)?shù)將這個正樣本排在負(fù)樣本前面的概率就是AUC值躬翁。所以焦蘑,AUC的值越大,當(dāng)前的分類算法越有可能將正樣本排在負(fù)樣本值前面姆另,既能夠更好的分類喇肋。
關(guān)于ROC曲線的Trade Off
假設(shè)一個警察會根據(jù)一系列經(jīng)驗(yàn)去抓小偷坟乾,但是不能100%保證準(zhǔn)確率迹辐,那么當(dāng)警察提高他的嚴(yán)苛度(閾值)時,必然會有更多的小偷被抓到甚侣,漏判率降低明吩,但是隨之誤判率會升高,會有良民被抓殷费。
因此印荔,閾值的設(shè)定關(guān)系到了我們想要這個模型產(chǎn)出的效果低葫,如果希望抓出更多的Positive樣本,就提高閾值仍律,隨之Sensitivity增加嘿悬,F(xiàn)PR增加;如果希望Negative樣本不要誤判水泉,就降低閾值善涨,Sensitivity降低,F(xiàn)PR降低草则。
例如在金融領(lǐng)域钢拧,欺詐用戶如果不能更好地被檢測出來,會給企業(yè)帶來巨大損失炕横,同樣如果病人被誤判為健康的源内,那么他的生命就會受到威脅,這兩種情況則都需要模型具有較高的敏感度份殿。關(guān)于這種情況的優(yōu)化膜钓,可以參考1999年的一篇論文:MetaCost: A General Method for Making Classifiers Cost-Sensitive。其采用了Bagging的思想對使分類器變得代價敏感伯铣。
關(guān)于ROC曲線最優(yōu)點(diǎn)的選取
方法有多種呻此,其中包括:找到離(0,1)最近的點(diǎn)腔寡,Youden index等[2]
關(guān)于ROC曲線的繪制
一個模型只能產(chǎn)生一個結(jié)果焚鲜,那么如何繪制曲線呢?
具體方法是在得到 生成概率/預(yù)測概率/后驗(yàn)概率 后放前,先不急著算出預(yù)測類別忿磅,而是先對生成概率進(jìn)行從大到小的排序,例如:
Y_value | 1 | 0.9 | 0.8 | 0.8 | 0.7 | 0.6 | 0.4 | 0.2 | 0.1 | 0.05 |
---|---|---|---|---|---|---|---|---|---|---|
Y_pred | ||||||||||
Y_real | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 0 |
然后我們就可以通過畫線分割的方式來選擇不同的閾值凭语,同時計(jì)算相應(yīng)的TPR和FPR了葱她,比如先選擇閾值0.99:
Y_value | 1 | 0.9 | 0.8 | 0.8 | 0.7 | 0.6 | 0.4 | 0.2 | 0.1 | 0.05 |
---|---|---|---|---|---|---|---|---|---|---|
Y_pred | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | 0 |
Y_real | 1 | 1 | 1 | 0 | 1 | 1 | 0 | 0 | 0 | 0 |
,似扔,ROC上添加點(diǎn) (0, 0.2)
當(dāng)閾值選為0.9時:
吨些,,ROC上添加點(diǎn) (0, 0.4)
以此類推我們可以繼續(xù)得到點(diǎn):
(0.2, 0.6)
(0.2, 0.8)
(0.2, 1.0)
(0.4, 1.0)
(0.6, 1.0)
(0.8, 1.0)
(1.0, 1.0)
將圖像畫出即為:
思考與總結(jié):統(tǒng)計(jì)機(jī)器學(xué)習(xí)與統(tǒng)計(jì)學(xué)評價指標(biāo)的關(guān)系
毫無疑問炒辉,統(tǒng)計(jì)學(xué)習(xí)是包含在統(tǒng)計(jì)學(xué)中的豪墅,是統(tǒng)計(jì)學(xué)中的一個上層建筑。
其中的I/II類錯誤黔寇,還有power都是假設(shè)檢驗(yàn)中的概念偶器,但通過上面的分析也發(fā)現(xiàn)了不同統(tǒng)計(jì)概念中的一致性(例如Sensitivity, Power, Recall都是一致的)。
實(shí)際上在現(xiàn)實(shí)世界的統(tǒng)計(jì)規(guī)律中,如果不給定或者給定極少的(例如1個)特征屏轰,那么分類問題就如同盲人摸象颊郎,不同類別的分布會重疊在一起。而統(tǒng)計(jì)機(jī)器學(xué)習(xí)的目的霎苗,就是通過一定的手段姆吭,把這兩個分布盡可能地拉開,拉的越開唁盏,那么分類的效果就越好猾编。
而這個手段,就是 數(shù)據(jù)(特征) + 模型 + 算法(最優(yōu)化) 升敲。如何更好地利用這些手段答倡,并解決現(xiàn)實(shí)生活中的實(shí)際問題,就是統(tǒng)計(jì)機(jī)器學(xué)習(xí)的研究目標(biāo)驴党。
References:
[1] Youtube - Sensitivity, Specificity, and ROC Curves
[2] 全面了解ROC曲線
[3] ROC及AUC計(jì)算方法及原理