機器學習概念回顧、精確率畴嘶、召回率蛋逾、F1-score、準確率窗悯、AUC区匣、ROC曲線

很久沒有溫習機器學習的算法了,還是容易將一些基本的概念給弄混蒋院,那么本次回顧一下機器學習模型中的評估方式:
對于回歸問題來說亏钩,我們能夠采用MSE、MAE欺旧、RMSE姑丑、R方的方式去衡量我們實際值與預測值之間的差距。但是對于分類算法來說辞友,光憑一個準確度是不夠好栅哀,因為我們所涉及到的樣本數據可能是極度偏斜的話震肮,那么只使用分類的準確度是遠遠不夠的。

一留拾、精準率戳晌、召回率、F1-score痴柔、準確率

首先來一個我們熟悉的混淆矩陣的圖躬厌,這是一個二分類的混淆矩陣的圖:

混淆矩陣

下面的表中P或者N都是代表了為預測出來的分類,分別代表了正類和負類竞帽,然后T或者F就代表了樣本實際的分類與預測是一樣的還是不一樣的扛施,我覺得這樣去理解,應該就不會混了屹篓。

Item 說明 預測正確與否
TP 將實際為正樣例預測為正樣例的個數 對疙渣,真正類
TN 將實際為負樣例預測為負樣例的個數 對,真負類
FN 將實際為正樣例預測為負樣例的個數 錯堆巧,假負類
FP 將實際為負樣例預測為正樣例的個數 錯妄荔,假正類
TP+FP 預測為正樣例的個數
FN+TN 預測為負樣例的個數
TP+FN 實際的正樣例個數
FP+TN 實際的負樣例個數

下標對一些度量的概念和公式進行說明

性能度量 公式 說明
精準率(precision) \frac{TP}{TP+FP} 分母為預測為正樣例的個數 ;分子為預測為實際正樣例被預測準的個數
召回率(recall) \frac{TP}{TP+FN} 分母為實際正樣例的個數谍肤;分子為預測為實際正樣例被預測準的個數
F1-score \frac{2TP}{2TP+FP+FN} 混合的度量啦租,對不平衡類別非常有效
準確率(accuracy) \frac{TP+TN}{TP+FN+FP+FP} 模型的整體的性能的評估
Specificity \frac{TN}{TN+FP} 分母為實際負樣例的個數,分子為預測為實際負樣例被預測準的個數

舉個例子:
我們實際有50個樣例荒揣,50個負樣例篷角,然后經過分類器分類之后。50個正樣例中有45個預測為正樣例(預測準了)系任,5個被預測成為了負樣例恳蹲。50個負樣例中(預測錯誤),有40個被預測為了負樣例(預測準了)俩滥,10個被預測為了正樣例(預測錯誤)嘉蕾。

實際情況 預測為正 預測為負
50正 45 5
50負 10 40

根據這個例子,我們可以計算出:

性能度量 公式
精確率(precision) \frac{TP}{TP+FP}=\frac{45}{55}=0.82
召回率(recall) \frac{TP}{TP+FN}=\frac{45}{50}=0.90
F1-score \frac{2TP}{2TP+FP+FN}=\frac{2*45}{2*45+10+5}=0.86
準確率(accuracy) \frac{TP+TN}{TP+FN+FP+FP}=\frac{85}{100}=0.85
Specificity \frac{TN}{TN+FP}=\frac{40}{50}=0.80

下圖很形象的說明了精確率和召回率的計算


Precision和recall其實是相互矛盾的霜旧,在不同的應用場景下面的關注是不同的错忱,然后F1-score是采用了調和平均數的方式來綜合的考慮了它們。那么下面我們就采用邏輯回歸的形式來說明它們的矛盾:圖中的三條線分別代表了邏輯回歸的決策邊界了挂据。我們可以看出當邏輯回歸的決策邊界大于0或者小于的時候以清,這個時候數據的分布就是偏斜的,而且偏斜的程度隨著偏離的程度而變大棱貌。當決策的邊界偏向正方向而且和0越遠玖媚,那么這個時候的精準率就變大,但是召回率就減小了婚脱。同理我們也能看出來當決策邊界向負方向走今魔,越遠勺像,那么就recall就變大了,精準度就降低了错森。

image.png

我們也能根據precision和recall做出一條precision-recall曲線吟宦,要是我們有多個算法,都做出他們的recall-precision曲線涩维,那么越靠近(1,1)點的那條曲線所對應的算法肯定是越好的殃姓。

recall-precision

二、 ROC和AUC曲線

ROC = The receiver operating curve瓦阐,翻譯過來就是受試者工作曲線蜗侈,這條曲線的橫軸為假正例率、縱軸是真正例率睡蟋。
TPR = \frac{TP}{TP+FN} FPR = \frac{FP}{TN+FP}
在公式的層面上看踏幻,TPR就是等于了我們的召回率。也就是真實正例中被預測對了的比率戳杀,然后FPR就是真實負例中被錯誤的預測成為了正例的比率了该面。下面就通過圖來說明他們兩者之間的區(qū)別:

FPR與TPR

從上圖中,我們可以看出信卡,FPR增加隔缀,同時我們的TPR也是在增加的。同時也能從分類概率上面去思考一些這個趨勢傍菇。

有了TPR和FPR之后猾瘸,我們就能做出ROC曲線,如下圖中的作圖所示:

這里又會提及一個概念桥嗤,就是AUC须妻,AUC = the area under the receiving operating curve仔蝌。也就下圖中藍色部分的區(qū)域泛领,它的面積的越大,那么我們得到的模型就越好敛惊。
理想目標:TPR=1渊鞋,FPR=0,即圖中(0,1)點,故ROC曲線越靠攏(0,1)點瞧挤,越偏離45度對角線越好锡宋。

有些地方回顧不到位,請指教了哈特恬,后面留的資料就是mit的小哥給總結的內容执俩,總結得很棒!喜歡的小伙伴就給點個贊吧癌刽。

參考資料
1役首、https://github.com/afshinea/stanford-cs-229-machine-learning

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末尝丐,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子衡奥,更是在濱河造成了極大的恐慌爹袁,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矮固,死亡現場離奇詭異失息,居然都是意外死亡,警方通過查閱死者的電腦和手機档址,發(fā)現死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門盹兢,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人守伸,你說我怎么就攤上這事蛤迎。” “怎么了含友?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵替裆,是天一觀的道長。 經常有香客問我窘问,道長辆童,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任惠赫,我火速辦了婚禮把鉴,結果婚禮上,老公的妹妹穿的比我還像新娘儿咱。我一直安慰自己庭砍,他們只是感情好,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布混埠。 她就那樣靜靜地躺著怠缸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钳宪。 梳的紋絲不亂的頭發(fā)上揭北,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機與錄音吏颖,去河邊找鬼搔体。 笑死,一個胖子當著我的面吹牛半醉,可吹牛的內容都是我干的疚俱。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼缩多,長吁一口氣:“原來是場噩夢啊……” “哼呆奕!你這毒婦竟也來了夯尽?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤登馒,失蹤者是張志新(化名)和其女友劉穎匙握,沒想到半個月后,有當地人在樹林里發(fā)現了一具尸體陈轿,經...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡圈纺,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現自己被綠了麦射。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蛾娶。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖潜秋,靈堂內的尸體忽然破棺而出蛔琅,到底是詐尸還是另有隱情,我是刑警寧澤峻呛,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布罗售,位于F島的核電站,受9級特大地震影響钩述,放射性物質發(fā)生泄漏寨躁。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一牙勘、第九天 我趴在偏房一處隱蔽的房頂上張望职恳。 院中可真熱鬧,春花似錦方面、人聲如沸放钦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽操禀。三九已至,卻和暖如春蔚叨,著一層夾襖步出監(jiān)牢的瞬間床蜘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工蔑水, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人扬蕊。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓搀别,卻偏偏與公主長得像,于是被迫代替她去往敵國和親尾抑。 傳聞我的和親對象是個殘疾皇子歇父,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內容