如何評估模型好壞

介紹


? ? ? ?“所有模型都是壞的蔬胯,但有些模型是有用的”。我們建立模型之后位他,接下來就要去評估模型氛濒,確定這個模型是否‘有用’。當你費盡全力去建立完模型后鹅髓,你會發(fā)現(xiàn)僅僅就是一些單個的數(shù)值或單個的曲線去告訴你你的模型到底是否能夠派上用場舞竿。

? ? ? ?在實際情況中,我們會用不同的度量去評估我們的模型窿冯,而度量的選擇骗奖,完全取決于模型的類型和模型以后要做的事。下面我們就會學(xué)習到一些用于評價模型的常用度量和圖表以及它們各自的使用場景。

內(nèi)容


預(yù)測模型的類型

分類模型評價度量

混淆矩陣(Confusion Matrix)

ROC曲線

AUC(ROC曲線下面積)

Lift(提升)和Gain(增益)

K-S圖

基尼系數(shù)

預(yù)測模型的類型


? ? ? ?當說到預(yù)測模型時执桌,我們會想到有回歸模型和分類模型鄙皇。用于評價這兩種模型的度量是不相同的。我們首先要說的是分類問題仰挣。

? ? ? ?在分類問題中伴逸,我們用兩種算法:分類輸出型:算法像支持向量機和KNN那樣,輸出的是分類型數(shù)據(jù)膘壶。例如一個二分類問題错蝴,它的輸出不是0就是1。概率輸出型:這個有邏輯回歸颓芭、隨機森林顷锰、梯度提升、Adaboost等算法亡问,都是以概率作為輸出的馍惹。要想把概率型輸出變?yōu)榉诸愋洼敵觯灰獮槠湓O(shè)立一個閾值即可玛界。

分類模型評價度量


混淆矩陣(Confusion Matrix)

判定方法:根據(jù)不同的模型選不同的參數(shù)。

原理:混淆矩陣是一個N X N矩陣悼吱,N為分類的個數(shù)慎框。假如我們面對的是一個二分類問題,也就是N=2后添,我們就得到一個2 X 2矩陣笨枯。在學(xué)習這個矩陣之前,我們需要知道一些簡單的定義遇西。(個人不喜歡這部分的中文翻譯馅精,一直是保留英文)

Accuracy(準確度):預(yù)測正確的數(shù)占所有數(shù)的比例。

Positive Predictive Value(陽性預(yù)測值) or Precision(精度):陽性預(yù)測值被預(yù)測正確的比例粱檀。

Negative Predictive Value(陰性預(yù)測值):陰性預(yù)測值被預(yù)測正確的比例洲敢。

Sensity(靈敏度) or recall(召回率):在陽性值中實際被預(yù)測正確所占的比例。

Specificity(特異度):在陰性值中實現(xiàn)被預(yù)測正確所占的比例茄蚯。


若我們得到一個模型的混淆矩陣如下:

我們可以看出压彭,這個模型的準確度為88%,陽性預(yù)測值比較高而陰性預(yù)測值較低渗常。對于靈敏度和特異度也是相同壮不。這是因為我們選的閾值而導(dǎo)致的,若我們降低閾值皱碘,這兩對數(shù)值就會變的相近询一。一般的情況下,我們只關(guān)心其中的一個定義度量。例如健蕊,在醫(yī)藥公司菱阵,一般會更加關(guān)心最小化誤診率,也就是他們需要的是高特異度绊诲。而在磨損模型中我們更關(guān)心的是靈敏度送粱。可以看出混淆模型一般只能用于分類輸出型模型中掂之。

ROC曲線

判定方法:ROC曲線應(yīng)盡量偏離參考線抗俄。

原理:ROC全稱為Receiver Operation Characteristic Curve,中文名叫做‘接受者操作特征曲線’,中文名簡直就是直翻世舰。ROC曲線其實就是從混淆矩陣衍生出來的圖形动雹,其橫坐標為1-Specificity,縱坐標為Sensitivity。

上面那條曲線就是ROC曲線跟压,隨著閾值的減小胰蝠,更多的值歸于正類,敏感度和1-特異度也相應(yīng)增加震蒋,所以ROC曲線呈遞增趨勢茸塞。而那條45度線是一條參照線,也就是說ROC曲線要與這條曲線比較查剖。

簡單的說钾虐,如果我們不用模型,直接隨機把客戶分類笋庄,我們得到的曲線就是那條參照線效扫,然而我們使用了模型進行預(yù)測,就應(yīng)該比隨機的要好直砂,所以ROC曲線要盡量遠離參照線菌仁,越遠,我們的模型預(yù)測效果越好静暂。

AUC(ROC曲線下面積)

判定方法:AUC應(yīng)該大于0.5.

原理:ROC曲線是根據(jù)與那條參照線進行比較來判斷模型的好壞济丘,但這只是一種直覺上的定性分析,如果我們需要精確一些籍嘹,就要用到AUC闪盔,也就是ROC曲線下面積。

看上圖辱士,參考線的面積是0.5泪掀,ROC曲線與它偏離越大,ROC曲線就越往左上方靠攏颂碘,它下面的面積(AUC)也就越大异赫,這里面積是0.869椅挣。我們可以根據(jù)AUC的值與0.5相比,來評估一個分類模型的預(yù)測效果塔拳。

Lift(提升)和Gain(增益)

判定方法:lift應(yīng)一直大于1.

原理:Lift=(d/b+d)/(c+d/a+b+c+d).它衡量的是鼠证,與不用模型相比,模型的預(yù)測能力提升了多少靠抑。不利用模型量九,我們只能利用正例的比例‘c+d/a+b+c+d’這個樣本信息來估計正例的比例(baseline model),而利用模型之后,只需要從我們預(yù)測為正例的那個樣本的子集(b+d)中挑選正例颂碧,這時預(yù)測的準確率為d/b+d.

由此可見荠列,lift(提升指數(shù))越大,模型的預(yù)測效果越好载城。如果這個模型的預(yù)測能力跟baseline model一樣肌似,那么這個模型就沒有任何意義。

一個好的分類模型诉瓦,就是要偏離baseline model足夠遠川队。在lift圖中,表現(xiàn)就是睬澡,在depth為1之前固额,lift一直保持較高的(大于1的)數(shù)值,也即曲線足夠陡峭煞聪。

Gain與Lift相當類似对雪,Gain chart是不同閾值下d/b+d的軌跡,與Lift的區(qū)別就在于縱軸刻度的不同米绕。

K-S圖

判定方法:其值在0到100之間,值越大馋艺,模型表現(xiàn)越好栅干。

原理:K-S圖,英文為Kolmogorov-Smirnov chart,是用來評估分類模型表現(xiàn)的圖捐祠。更準確的來說碱鳞,K-S是用來度量陽性與陰性分類區(qū)分程度的。若我們把總體嚴格按照陽性和陰性分成兩組踱蛀,則K-S值為100窿给,如果我們是隨機區(qū)分陽性與陰性,則K-S值為0.所以分類模型的K-S值都在0到100之間率拒,值越大崩泡,模型從陰性數(shù)據(jù)中區(qū)分陽性數(shù)據(jù)的能力越強。

基尼系數(shù)

判定方法:基尼系數(shù)應(yīng)大于60%猬膨,就算好模型角撞。

原理:基尼系數(shù)經(jīng)常用于分類問題,其可以直接從AUC中得到。其公式為:

Gini = 2*AUC - 1

結(jié)束語

就在剛才谒所,我問了一下已經(jīng)工作了的前輩热康,他跟我說這些度量中一般用到的是混淆矩陣中的精確度,準確度和召回率劣领。知識有這么多姐军,實踐中我們該如何選擇,這又是另一門學(xué)問了尖淘。

參考

http://cos.name/2009/02/measure-classification-model-performance-lift-gain/

http://www.analyticsvidhya.com/blog/2015/01/model-performance-metrics-classification/

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蛾魄,一起剝皮案震驚了整個濱河市平委,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖购公,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異片酝,居然都是意外死亡固耘,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進店門镇辉,熙熙樓的掌柜王于貴愁眉苦臉地迎上來屡穗,“玉大人,你說我怎么就攤上這事忽肛〈迳埃” “怎么了?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵屹逛,是天一觀的道長础废。 經(jīng)常有香客問我,道長罕模,這世上最難降的妖魔是什么评腺? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮淑掌,結(jié)果婚禮上蒿讥,老公的妹妹穿的比我還像新娘。我一直安慰自己抛腕,他們只是感情好芋绸,可當我...
    茶點故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著担敌,像睡著了一般摔敛。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上全封,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天舷夺,我揣著相機與錄音苦酱,去河邊找鬼。 笑死给猾,一個胖子當著我的面吹牛疫萤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播敢伸,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼扯饶,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了池颈?” 一聲冷哼從身側(cè)響起尾序,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎躯砰,沒想到半個月后每币,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡琢歇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年兰怠,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片李茫。...
    茶點故事閱讀 39,711評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡揭保,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出魄宏,到底是詐尸還是另有隱情秸侣,我是刑警寧澤,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布宠互,位于F島的核電站味榛,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏予跌。R本人自食惡果不足惜励负,卻給世界環(huán)境...
    茶點故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望匕得。 院中可真熱鬧,春花似錦巾表、人聲如沸汁掠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽考阱。三九已至,卻和暖如春鞠苟,著一層夾襖步出監(jiān)牢的瞬間乞榨,已是汗流浹背秽之。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留吃既,地道東北人考榨。 一個月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像鹦倚,于是被迫代替她去往敵國和親河质。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 44,611評論 2 353

推薦閱讀更多精彩內(nèi)容