曾經(jīng)面試的時候被問到過這么一個問題,怎么向一個沒有任何計算機份名、數(shù)學(xué)碟联、統(tǒng)計等基礎(chǔ)的人介紹下什么是AUC,當(dāng)時我敗北了僵腺。不過后來我有一天頓悟了玄帕,為了檢驗我的頓悟是否有效,特此一答想邦。
我給出的答案是 AUC是指 隨機給定一個正樣本和一個負(fù)樣本裤纹,分類器輸出的正樣本的概率 比 分類器出去負(fù)樣本的概率 大的可能性。(這里要感謝下 @付笑晗大兄弟的嚴(yán)謹(jǐn))丧没。
詳細(xì)解釋如下:
隨機抽取一個樣本鹰椒, 對應(yīng)每一潛在可能值X都對應(yīng)有一個判定位正樣本的概率P。
對一批已知正負(fù)的樣本集合進(jìn)行分類呕童,
按概率從高到矮排個降序漆际, 對于正樣本中概率最高的,排序為rank_1夺饲, 比它概率小的有M-1個正樣本(M為正樣本個數(shù))奸汇, (rank_1 - M) 個負(fù)樣本。
正樣本概率第二高的往声, 排序為rank_2擂找, 比它概率小的有M-2個正樣本,(rank_2 - M + 1) 個 負(fù)樣本浩销。
以此類推
正樣本中概率最小的贯涎, 排序為rank_M,比它概率小的有0個正樣本慢洋,rank_M - 1 個負(fù)樣本塘雳。
總共有MxN個正負(fù)樣本對(N為負(fù)樣本個數(shù))。把所有比較中 正樣本概率大于負(fù)樣本概率 的例子都算上普筹, 得到公式(rank_1 - M + rank_2 - M + 1 ....? + rank_M - 1) / (MxN) 就是正樣本概率大于負(fù)樣本概率的可能性了败明。 化簡后(因為后面是個等差數(shù)列)得:
這就是傳說中的AUC公式。這只是用于理解太防,具體計算時候需要考慮rank平列的情況