前言
即使是二分分類(lèi)任務(wù)念颈,多數(shù)機(jī)器學(xué)習(xí)模型也并非輸出0或1這樣的整數(shù),而是產(chǎn)生一個(gè)概率值(一般在0-1之間)稻轨。然后設(shè)置一個(gè)分類(lèi)閾值(threshold)政钟,當(dāng)概率值大于threshold,判作正例潮秘。否則琼开,為反例。
另一種直觀的方法是枕荞,根據(jù)這個(gè)產(chǎn)生的概率值柜候,從大到小將樣本排序搞动。從中選擇一點(diǎn)為截?cái)帱c(diǎn)(cut point),截?cái)帱c(diǎn)以上判作正例渣刷,截?cái)帱c(diǎn)以下判作反例鹦肿。
這個(gè)截?cái)帱c(diǎn)的設(shè)置也有不同的策略,當(dāng)更看重Precision查準(zhǔn)率時(shí)辅柴,可以將截?cái)帱c(diǎn)選在靠前靠上的位置箩溃。當(dāng)更看重Recall時(shí),就將截?cái)帱c(diǎn)設(shè)置在靠后的位置碌嘀。
排序質(zhì)量的好壞(其實(shí)就是模型預(yù)測(cè)的概率值的好壞)涣旨,將影響“期望泛化性能”的好壞。
ROC
ROC全稱(chēng)是“受試者工作特征”(Receiver Operating Characteristic)曲線股冗。ROC曲線的橫軸是真正例率(True Positive Rate,TPR)霹陡,縱軸是假正例率(False Positive Rate,FPR)。
兩者的定義為:
可以看出止状,TP+FP為截?cái)帱c(diǎn)以上的樣本烹棉。當(dāng)然,我們希望TPR越大怯疤,同時(shí)FPR越小浆洗。即坐標(biāo)軸的左上角(1,0)位置為理想模型。
PS:把截?cái)帱c(diǎn)從排序的樣本序列0位置開(kāi)始集峦,一直到最后辅髓,每個(gè)位置求出TPR和FPR,得到坐標(biāo)點(diǎn)少梁,可畫(huà)出ROC曲線
AUC
AUC是指ROC曲線以下的面積洛口,即Area Under ROC Curve。