問題:機(jī)器學(xué)習(xí)里,什么是假陽性滞造,什么是假陰性欲间?
學(xué)習(xí)ing,在機(jī)器學(xué)習(xí)之旅断部,麻省博士小姐姐帶我 ︿( ̄︶ ̄)︿
曾經(jīng)猎贴,在 python 的機(jī)器學(xué)習(xí)開源庫 sklearn 的混淆矩陣模塊 scikit-learn-confusion_matrix 里,筆者常澈猓看tn
, fp
, fn
, tp
等縮寫變量她渴,百思不得其解。
>>> tn, fp, fn, tp = confusion_matrix([0, 1, 0, 1], [1, 1, 1, 0]).ravel()
>>> (tn, fp, fn, tp)
(0, 2, 1, 1)
如下圖蔑祟,檢索得到的網(wǎng)絡(luò)資料趁耗,專業(yè)論述嚴(yán)謹(jǐn)準(zhǔn)確,但解釋起來冷冰冰疆虚,對(duì)我而言苛败,仍然顯得晦澀
混淆表格(有時(shí)候也稱為混淆矩陣)满葛,是由false positives,falsenegatives罢屈,true positives和true negatives組成的兩行兩列的表格嘀韧。
True positive (TP) :真實(shí)為P,預(yù)測(cè)為P
True negative (TN): 真實(shí)為N缠捌,預(yù)測(cè)為N
False positive (FP):真實(shí)為N锄贷,預(yù)測(cè)為P
False negative (FN):真實(shí)為P,預(yù)測(cè)為N
包括博客文章里解釋的「貓狗識(shí)別分類」例子曼月,聽過之后谊却,筆者依然「一頭霧水」。
看過這個(gè)視頻之后哑芹,豁然開朗炎辨。
ML Basics: False Positives, False Negatives
回答:假陽性False Positives&假陰性False Negatives
快樂學(xué)習(xí),從形象的例子開始聪姿。
假設(shè):給你一百張圖片蹦魔。讓你來判斷 -> 每張圖片中是否有人類?
這個(gè)任務(wù)需要預(yù)測(cè)兩種情況——有人&沒人咳燕,叫做二元分類勿决。
- 圖片里有人,你識(shí)別「有人」——叫做「真陽性(True positive)」
-
圖片里沒人招盲,你識(shí)別「沒人」——叫做「真陰性(True negative)」
-
圖片里沒人低缩,你識(shí)別「有人」——叫做「假陽性(False postive)」
圖片里有人,你識(shí)別「沒人」——叫做「假陰性(False negative)」
總結(jié):
- 預(yù)測(cè)正確曹货,以「True」開頭咆繁。
- 預(yù)測(cè)錯(cuò)誤,以「False」開頭顶籽。
- 預(yù)測(cè)結(jié)果是陽性(比如「有人」玩般、「患病」),以「 postive」結(jié)尾礼饱。
- 預(yù)測(cè)結(jié)果是陰性(比如「沒人」坏为、「無病」),以「 negative」結(jié)尾镊绪。
術(shù)語:準(zhǔn)確率(Accuracy)
正確識(shí)別的圖片的百分?jǐn)?shù)——準(zhǔn)確率(Accuracy)= TP+TN / TP+TN+FP+FN
誤區(qū):TP&TN 比 FP&FN 更重要
比如匀伏,在醫(yī)學(xué)影像診斷疾病的應(yīng)用中。
對(duì)于沒有疾病的監(jiān)測(cè)者蝴韭,預(yù)測(cè) TA 可能有病够颠,需要進(jìn)一步檢查。這個(gè)無傷大雅榄鉴。
但對(duì)于患病的監(jiān)測(cè)者履磨,預(yù)測(cè) TA 沒有疾病風(fēng)險(xiǎn)蛉抓,那就是嚴(yán)重問題。
我們會(huì)更關(guān)注「假陰性率(False Negative Rate)」 = FN/FN+FP
換句話說剃诅,我們關(guān)注——對(duì)于多少包含患病風(fēng)險(xiǎn)的檢測(cè)者巷送,我們預(yù)測(cè)錯(cuò)誤的比例是多少?
在安全防護(hù)領(lǐng)域综苔,「假陽性率」需要關(guān)注:
對(duì)于,自己手機(jī)的指紋識(shí)別功能位岔,識(shí)別錯(cuò)了自己的指紋如筛,這是「假陰性」,幾秒鐘之內(nèi)多按幾次抒抬,也能解鎖手機(jī)杨刨,那也還好。
但如果擦剑,用別人的指紋妖胀,也能解鎖你的手機(jī)。那就問題嚴(yán)重了惠勒,這是「假陽性」赚抡。
這個(gè)例子里,我們會(huì)更關(guān)注「假陽性率(False Postive Rate)」 = FP/FP+TN纠屋。換句話說涂臣,我們關(guān)注——對(duì)于多少不是本機(jī)主人指紋的打開嘗試,我們預(yù)測(cè)錯(cuò)誤的比例是多少售担?
總結(jié):
- 在智能醫(yī)療領(lǐng)域赁遗,比如患病風(fēng)險(xiǎn)監(jiān)測(cè)的應(yīng)用,我們會(huì)更關(guān)注「假陰性率(False Postive Rate)」族铆,對(duì)于多少包含患病風(fēng)險(xiǎn)的檢測(cè)者岩四,我們預(yù)測(cè)錯(cuò)誤的比例是多少?備注:陰性定義是——檢測(cè)者沒有患病風(fēng)險(xiǎn)哥攘,無需進(jìn)一步檢查剖煌。
- 在安全防護(hù)領(lǐng)域,比如指紋解鎖功能逝淹,我們會(huì)更關(guān)注「假陽性率(False Postive Rate)」末捣,對(duì)于多少不是本機(jī)主人指紋的打開嘗試,我們預(yù)測(cè)錯(cuò)誤的比例是多少创橄?備注:陽性定義是——指紋是本機(jī)主人的箩做。
changelog
19.06.07 init
19.07.11 publish