AUC面試

混淆矩陣
ROC曲線
AUC定義
AUC計算
AUC 優(yōu)點和缺點
AUC的python實現(xiàn)代碼

1. 混淆矩陣

混淆矩陣是了解AUC的必要前提。它是一個總結(jié)分類器所得結(jié)果的矩陣挠进，一般為k行k列（k為分類的類別數(shù)）请垛。以二分類為例，混淆矩陣如下圖所示食磕。

首先牢記這2個公式：

假陽性率(False Positive Rate)
$FPR= \frac{FP}{FP+TN}$ (意義是在所有真實的負樣本中，預(yù)測結(jié)果為正的負例。越小越好)
真陽性率(True Positive Rate)
$TPR = \frac{TP} {TP+FN}$ (意義是在所有真實的正樣本中价涝，預(yù)測結(jié)果為正的正例。等于Recall)

2. ROC曲線

ROC曲線是Receiver Operating Characteristic Curve的簡稱持舆，中文名是受試者工作特征曲線色瘩。
這一節(jié)主要來學(xué)如何繪制ROC曲線
(1) 首先，ROC曲線的橫坐標是假陽性率FPR逸寓，縱坐標是真陽性率TPR居兆。怎么計算上一節(jié)已詳述。
(2) 其次竹伸，明確計算AUC的時候泥栖，預(yù)測值y_pred一般都是[0, 1]的小數(shù)（代表預(yù)測為正樣本的概率），真實值y_true為0或1佩伤。如果計算FPR和TPR聊倔，我們就需要知道預(yù)測的正負樣本情況，但給的預(yù)測值是小數(shù)生巡，如何劃分預(yù)測的正負樣本呢耙蔑？答案是選取截斷點。
(3) 截斷點是指區(qū)分正負預(yù)測結(jié)果的閾值孤荣。比如截斷點=0.1甸陌，那就表示y_pred<0.1的為預(yù)測為負樣本须揣，y_pred>=0.1預(yù)測正樣本。所以繪制AUC曲線需要不斷移動“截斷點”來得到所有的(FPR钱豁，TPR)點耻卡，然后把這些點用線段連起來就是ROC曲線了。
(4) 截斷點取值為 $\{ +\infty , -\infty}$ 就夠了牲尺。 $+ \infty$ 表示所有都預(yù)測為負樣本卵酪，(fpr,tpr)=(0,0)。
$-\infty$ 表示所有都預(yù)測為正樣本谤碳，(fpr,tpr)=(1,1)溃卡。也就是這兩個坐標點固定有，所以一般截斷點默認取值就是預(yù)測值的所有唯一值蜒简。
如何繪制瘸羡，如下圖所示：

ROC曲線，橫坐標FPR搓茬，縱坐標TPR

3. AUC定義

AUC（Area Under ROC Curve）犹赖，顧名思義，即ROC曲線下的面積卷仑。
AUC越大峻村，說明分類器越可能把正樣本排在前面，衡量的是一種排序的性能锡凝。
那么問題來了雀哨，ROC曲線下的面積怎么就能衡量分類器的排序能力？且聽慢慢道來私爷。

如果ROC面積越大雾棺，說明曲線越往左上角靠過去。那么對于任意截斷點衬浑，(FPR捌浩，TPR)坐標點越往左上角（0,1）靠，說明FPR較小趨于0（根據(jù)定義得知工秩，就是在所有真實負樣本中尸饺，基本沒有預(yù)測為正的樣本），TRP較大趨于1（根據(jù)定義得知助币，也就是在所有真實正樣本中浪听，基本全都是預(yù)測為正的樣本）。并且上述是對于任意截斷點來說的眉菱，很明顯迹栓，那就是分類器對正樣本的打分基本要大于負樣本的打分（一般預(yù)測值也叫打分），衡量的不就是排序能力嘛俭缓！

So克伊，現(xiàn)在可以給一個比較常用的AUC的定義
即：隨機從正樣本和負樣本中各選一個酥郭，分類器對于該正樣本打分大于該負樣本打分的概率。

4. AUC計算

AUC如果按照原始定義ROC曲線下的面積來計算愿吹，非常之麻煩不从。

可以轉(zhuǎn)換一下思路，按照上述給出的常用的AUC定義犁跪，即隨機選出一對正負樣本椿息，分類器對于正樣本打分大于負樣本打分的概率。咱們就來算算這個概率到底是多少坷衍，那么也就算出AUC是多少了撵颊。

假設(shè)數(shù)據(jù)集一共有M個正樣本，N個負樣本惫叛，預(yù)測值也就是M+N個。我們將所有樣本按照預(yù)測值進行從小到大排序逞刷，并且排序編號由1到M+N嘉涌。

那么在所有情況下，正樣本打分大于負樣本的個數(shù)=
$rank_1+rank_2+...+rank_M -(1+2+...+M)$
所以夸浅，AUC的正式計算公式也就有了仑最，如下：

$rank(i)$ 表示正樣本 $i$ 的編號， $MXN$ 表示隨機從正負樣本各取一個的情況數(shù)帆喇。一般考代碼題警医，比如用python寫個AUC計算，也是用上述公式原理坯钦。

但是预皇，還沒有完，有一個小問題婉刀，可能大家沒注意到吟温。那就是如果有預(yù)測值是一樣的，那么怎么進行排序編號呢突颊？

其實很簡單鲁豪，對于預(yù)測值一樣的樣本，我們將這些樣本原先的排號平均一下律秃，作為新的排序編號就完事啦爬橡。仔細理解可看下圖：

上圖中，正樣本個數(shù)M=5棒动，負樣本個數(shù)N=3糙申，預(yù)測值相同有4個。我們將預(yù)測值pred相等的情況（上圖紅色字體）船惨，對其進行新的排序編號郭宝，變成4.5辞槐。

那么根據(jù)公式就可以算出上圖中的AUC=

用sklearn的auc計算驗證一下，一樣粘室。

所以榄檬，你掌握了嗎？
掌握了的話衔统，可看看這里給出的筆者經(jīng)歷的騰訊面試題鹿榜。

有一堆樣本，其中2000個負樣本锦爵，8000個正樣本舱殿，其中負樣本的預(yù)測值為均勻分布U(0.4, 0.6)，正樣本的預(yù)測值為均勻分布U(0.5, 0.7)险掀。求AUC沪袭。需要給出詳細解答過程。（答案可翻到最后）

5. AUC的有點和缺點（八股）

優(yōu)點：

AUC衡量的是一種排序能力樟氢，因此特別適合排序類業(yè)務(wù)冈绊。
AUC對正負樣本均衡并不敏感，在樣本不均衡的情況下埠啃，也可以做出合理的評估死宣。
其他指標比如precision, recall, F1，根據(jù)區(qū)分正負樣本閾值的變化會有不同的結(jié)果碴开，而AUC不需要手動設(shè)定閾值毅该，是一種整體上的衡量方法。

缺點：

忽略了預(yù)測的概率值和模型的擬合程度潦牛；
AUC反應(yīng)了太過籠統(tǒng)的信息眶掌。無法反應(yīng)召回率、精確率等在實際業(yè)務(wù)中經(jīng)常關(guān)心的指標巴碗；
它沒有給出模型誤差的空間分布信息畏线，AUC只關(guān)注正負樣本之間的排序，并不關(guān)心正樣本內(nèi)部良价，或者負樣本內(nèi)部的排序寝殴，這樣我們也無法衡量樣本對于好壞客戶的好壞程度的刻畫能力；

AUC的Python實現(xiàn)代碼
AUC的具體計算公式都給了明垢，理解了其中邏輯蚣常，實現(xiàn)起來就比較容易了。代碼如下痊银，核心代碼也就10行左右：

import numpy as np
import pandas as pd

# 正例
y_pred = list(np.random.uniform(0.4,0.6,2000))+list(np.random.uniform(0.5,0.7,8000))
# 負例
y_true = [0] * 2000 + [1]*8000

def calc_auc(y_true, y_pred):
    pair = list(zip(y_true,y_pred))
    pair = sorted(pair, key = lambda x:x[1]) # 進行排序
    df = pd.DataFrame([[x[0],x[1],i+1] for i,x in enumerate(pair)],
    columns=['y_true','y_pred','rank'])
    # 下面需要將預(yù)測值為一樣的進行重新編號
    for k,v in df.y_pred.value_counts().items():
        if v==1: # 說明該預(yù)測值k只出現(xiàn)了一次抵蚊，沒有重復(fù)，不考慮
            continue
        rank_mean = df[df.y_pred==k]['rank'].mean()
        df.loc[df.y_pred==k, 'rank'] = rank_mean
    
    pos_df = df[df.y_true==1] # 正樣本的表
    m = pos_df.shape[0] # 正樣本數(shù)
    n = df.shape[0]-m # 負樣本數(shù)
    return (pos_df['rank'].sum()-m*(m+1)/2)/(m*n)

print(calc_auc(y_true,y_pred))

from sklearn.metrics import roc_auc_score
print(roc_auc_score(y_true,y_pred))

看完上述結(jié)果，你應(yīng)該知道了上面的騰訊面試題結(jié)果是什么了（7/8贞绳，幾何概率模型）

最后編輯于：2021.11.29 10:16:04

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末谷醉，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子冈闭，更是在濱河造成了極大的恐慌俱尼，老刑警劉巖，帶你破解...
沈念sama閱讀 218,941評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件萎攒，死亡現(xiàn)場離奇詭異遇八，居然都是意外死亡，警方通過查閱死者的電腦和手機耍休，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,397評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門刃永，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人羊精，你說我怎么就攤上這事斯够。” “怎么了喧锦？”我有些...
開封第一講書人閱讀 165,345評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵读规，是天一觀的道長激才。經(jīng)常有香客問我冰蘑，道長湃鹊，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,851評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任供汛，我火速辦了婚禮，結(jié)果婚禮上涌穆，老公的妹妹穿的比我還像新娘怔昨。我一直安慰自己，他們只是感情好宿稀，可當我...
茶點故事閱讀 67,868評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布趁舀。她就那樣靜靜地躺著，像睡著了一般祝沸。火紅的嫁衣襯著肌膚如雪矮烹。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,688評論 1贊 305
城市分裂傳說
那天罩锐，我揣著相機與錄音奉狈，去河邊找鬼。笑死涩惑，一個胖子當著我的面吹牛仁期，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 40,414評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼跛蛋，長吁一口氣：“原來是場噩夢啊……” “哼熬的！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起赊级，我...
開封第一講書人閱讀 39,319評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤押框，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后此衅，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體强戴，經(jīng)...
沈念sama閱讀 45,775評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年挡鞍，在試婚紗的時候發(fā)現(xiàn)自己被綠了骑歹。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,096評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡墨微，死狀恐怖道媚，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情翘县，我是刑警寧澤最域，帶...
沈念sama閱讀 35,789評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站锈麸，受9級特大地震影響镀脂，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜忘伞，卻給世界環(huán)境...
茶點故事閱讀 41,437評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一薄翅、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧氓奈，春花似錦翘魄、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,993評論 0贊 22
一樁弒父案暑竟，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至育勺，卻和暖如春但荤，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背涧至。一陣腳步聲響...
開封第一講書人閱讀 33,107評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工纱兑，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人化借。一個月前我還...
沈念sama閱讀 48,308評論 3贊 372
代替公主和親
正文我出身青樓潜慎，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子铐炫，可洞房花燭夜當晚...
茶點故事閱讀 45,037評論 2贊 355