機(jī)器學(xué)習(xí)模型評(píng)價(jià)指標(biāo) - 準(zhǔn)確性叹哭,查準(zhǔn)率忍宋,查全率,敏感度风罩,特異度糠排,ROC

在一個(gè)理想的世界里,我們的模型能夠給出完全準(zhǔn)確的分類判斷超升,但事實(shí)是模型總是會(huì)出錯(cuò)的入宦。

All models are wrong, but some works. - Some smart guy

在進(jìn)行模型的性能評(píng)價(jià)時(shí)哺徊,常用的指標(biāo)有準(zhǔn)確性、查準(zhǔn)率和查全率等指標(biāo)乾闰,這幾個(gè)指標(biāo)的計(jì)算公式實(shí)際上非常簡單落追,但這幾個(gè)看似簡單的量實(shí)際在計(jì)算中很容易就被混淆,而幸好我們可以通過圖表而非記憶的方式準(zhǔn)確的進(jìn)行描述涯肩,這一統(tǒng)計(jì)分類結(jié)果中真陽性 True positives轿钠,假陽性 False positives,假陰性 False negatives病苗,真陰性 True negatives 的數(shù)量的矩陣稱為混淆矩陣 Confusion matrix疗垛。

準(zhǔn)確性

準(zhǔn)確性是最容易理解的概念:

  • Accuracy = (True positives + True negatives) / all samples
Confusion matrix and accuracy calculation, from Udacity

在 sklearn 中可以輕松的統(tǒng)計(jì)準(zhǔn)確性:

from sklearn.metrics import accuracy_score
accuracy = accuracy_score (y_labeled, y_predicted)

查準(zhǔn)率 Precision 和查全率 Recall

由于在很多實(shí)際應(yīng)用中,僅僅關(guān)心正確分類的結(jié)果是不夠的硫朦,并且在數(shù)據(jù)偏斜嚴(yán)重的情況下继谚,模型準(zhǔn)確率可能具有相當(dāng)程度的誤導(dǎo)性。我們也需要知道被錯(cuò)誤分類的結(jié)果阵幸,如假陽性 False positive 和假陰性 False negative 的發(fā)生情況花履,以確認(rèn)為此需要承擔(dān)的分類錯(cuò)誤的代價(jià)。

查準(zhǔn)率 Precision: 真陽性樣本數(shù)量與所有被分類為陽性的樣本的數(shù)量的比值挚赊。

  • Precision = True positives / (True positives + False positives)
Precision in all positives, from Udacity

查全率 Recall:真陽性樣本數(shù)量與樣本集中全部陽性樣本的數(shù)量的比值诡壁。

  • Recall = True positives / (True positives + False negatives)
Recall in all sick patients, from Udacity

F1 Score & Fβ Score

F1 Score 這一評(píng)價(jià)計(jì)算查準(zhǔn)率和查全率的調(diào)和平均數(shù) Harmonic mean,當(dāng)二者之一過小時(shí)荠割,F(xiàn)1-Score 也會(huì)非常小妹卿,進(jìn)而提示模型異常。

  • F1-Score = 2 * Precision * Recall / (Precision + Recall)

進(jìn)一步地蔑鹦,當(dāng)我們希望模型給予查準(zhǔn)率或查全率二者之一更高的權(quán)重時(shí)夺克,我們可以采用泛化的 Fβ Score:

  • Fβ Score = (1 + β2) * Precision * Recall / (β2 * Precision + Recall)

其中 β 越大,模型越傾向于提高查全率嚎朽,反之亦然铺纽。

敏感度和特異度

在很多領(lǐng)域的應(yīng)用中查全率 Recall 也稱為敏感度 Sensitivity,對(duì)應(yīng)的數(shù)據(jù)為上文所述的混同矩陣的第一行哟忍,對(duì)應(yīng)敏感度還有另外一個(gè)評(píng)價(jià)指標(biāo)特異度 Specifity狡门,對(duì)應(yīng)的數(shù)據(jù)為上文所述的混同矩陣的第二行,其計(jì)算公式為:

  • Specificity = True negatives / (True negatives + False positives)

  • Sensitivity = True positives / (True positives + False negatives)

這幾個(gè)公式看起來非常簡單锅很,但實(shí)際上能夠準(zhǔn)確的區(qū)分并不容易其馏,可以在清楚概念的基礎(chǔ)上查詢使用即可。

ROC Curve

由于在建模過程中可以在確保準(zhǔn)確性不變的情況下選擇不同的判斷閾值 Decision Rule 而造成 Sensitivity 和 Specificity 的值的不同爆安,因此需要根據(jù)實(shí)際應(yīng)用來確定盡最大可能提高哪一個(gè)指標(biāo)叛复,為了描述模型在不同的判斷閾值下的敏感度和 (1- 特異度)的變化情況,可以繪制 ROC 曲線來觀察這一趨勢。

一個(gè)有趣的事實(shí)是 ROC 對(duì)應(yīng)的英文單詞為 Receiver Operating Characteristic褐奥,其最早源自于雷達(dá)性能測試咖耘,但由于這個(gè)方法被廣泛的用于其它領(lǐng)域而為了避免不同領(lǐng)域的使用者被這個(gè)全名迷惑,通常只提它的縮寫名稱 ROC抖僵。圖中對(duì)應(yīng)的綠色直線為隨機(jī)判斷情況下的 ROC 曲線鲤看,而 ROC 曲線下的面積被稱為 Area Under Curve,在對(duì)比不同的模型時(shí)耍群,AUC 值越大的模型越好义桂。

image.png

混淆矩陣

上文提到的混淆矩陣只是最簡單的情況,當(dāng)我們進(jìn)行多分類建模時(shí)蹈垢,其橫縱坐標(biāo)可以變成多個(gè)不同的分類慷吊。

在理想情況下混同矩陣將是一個(gè)單位陣,但真實(shí)情況中我們只能盡量的提高對(duì)角線元素的值曹抬,每一行元素之和為 1.

Confusion Matrix, from Udacity

R2 Score

針對(duì)線性回歸問題來說溉瓶,除了均方誤差 MSE/SSE 外,還可以通過 R2 Score 來衡量谤民,這一指標(biāo)也被稱為 Coefficient of Determination堰酿,其計(jì)算方法為:

  • Sum of Squares Due to Error, SSE = Σ(yi - ?i)2

  • Sum of Squares Due to Regression, SSR = Σ(?i - y?i)2

  • R2 = 1 - SSR/SSE

R2 取值越接近于 1 越好。

mAP, mean Average Precision

在視覺應(yīng)用中张足,用于評(píng)價(jià)模型在目標(biāo)檢測任務(wù)中的表現(xiàn)触创,具體計(jì)算見參考閱讀。

參考閱讀

  1. Measures of Predictive Models: Sensitivity and Specificity

  2. What is ROC curve

  3. ROC curves - What are they and how are they used

  4. 8 Tactics To Combat Imbalanced Training Data

  5. mAP (mean Average Precision) for Object Detection

6 Measuring Object Detection models?—?mAP?

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末为牍,一起剝皮案震驚了整個(gè)濱河市哼绑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌碉咆,老刑警劉巖抖韩,帶你破解...
    沈念sama閱讀 212,599評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異疫铜,居然都是意外死亡茂浮,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,629評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門块攒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來励稳,“玉大人,你說我怎么就攤上這事囱井。” “怎么了趣避?”我有些...
    開封第一講書人閱讀 158,084評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵庞呕,是天一觀的道長。 經(jīng)常有香客問我,道長住练,這世上最難降的妖魔是什么地啰? 我笑而不...
    開封第一講書人閱讀 56,708評(píng)論 1 284
  • 正文 為了忘掉前任,我火速辦了婚禮讲逛,結(jié)果婚禮上亏吝,老公的妹妹穿的比我還像新娘。我一直安慰自己盏混,他們只是感情好蔚鸥,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,813評(píng)論 6 386
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著许赃,像睡著了一般止喷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上混聊,一...
    開封第一講書人閱讀 50,021評(píng)論 1 291
  • 那天弹谁,我揣著相機(jī)與錄音,去河邊找鬼句喜。 笑死预愤,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的咳胃。 我是一名探鬼主播植康,決...
    沈念sama閱讀 39,120評(píng)論 3 410
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼拙绊!你這毒婦竟也來了向图?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,866評(píng)論 0 268
  • 序言:老撾萬榮一對(duì)情侶失蹤标沪,失蹤者是張志新(化名)和其女友劉穎榄攀,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體金句,經(jīng)...
    沈念sama閱讀 44,308評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡檩赢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,633評(píng)論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了违寞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贞瞒。...
    茶點(diǎn)故事閱讀 38,768評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖趁曼,靈堂內(nèi)的尸體忽然破棺而出军浆,到底是詐尸還是另有隱情,我是刑警寧澤挡闰,帶...
    沈念sama閱讀 34,461評(píng)論 4 333
  • 正文 年R本政府宣布乒融,位于F島的核電站掰盘,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏赞季。R本人自食惡果不足惜愧捕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 40,094評(píng)論 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望申钩。 院中可真熱鬧次绘,春花似錦、人聲如沸撒遣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,850評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽愉舔。三九已至钢猛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間轩缤,已是汗流浹背命迈。 一陣腳步聲響...
    開封第一講書人閱讀 32,082評(píng)論 1 267
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留火的,地道東北人壶愤。 一個(gè)月前我還...
    沈念sama閱讀 46,571評(píng)論 2 362
  • 正文 我出身青樓,卻偏偏與公主長得像馏鹤,于是被迫代替她去往敵國和親征椒。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,666評(píng)論 2 350

推薦閱讀更多精彩內(nèi)容