在獲得預(yù)測模型之后翔烁,我們可以根據(jù)模型計(jì)算出每個(gè)人患心臟病的概率伦腐,同時(shí)為這個(gè)概率劃定一條分界線灾搏,如概率大于0.5時(shí)認(rèn)為此人有心臟病,概率小于0.5時(shí)則認(rèn)為此人沒有心臟病
P(A) = [e^(kx+b)]/[1+e^(kx+b)]=1/2
剛剛的模型k=0.0159殴蓬,b=3.66匿级,解得x(SBP)=230.2
在圖上加入分界線
abline (v = 230.2, lwd = 5, col = 'blue')
可以看出該分界線存在問題比較多蟋滴,黑色點(diǎn)在線右邊的多,大多紅色點(diǎn)在左邊痘绎,因此如何尋找分界線需要進(jìn)一步研究
隨著分界線向右移動(dòng)津函,一方面“假陽性”會(huì)越來越少,但是另一方面孤页,“真陽性”也會(huì)越來越少尔苦,二者的關(guān)系圖叫做ROC curve
假陽性:1-Specificity(假陽性的數(shù)量占總數(shù)的比例),實(shí)際是0行施,卻被我們歸成1
真陽性:Sensitivity允坚,實(shí)際是1
```
library(pROC)
log.fit2 = glm (Heart.Disease. ~SBP, data = fram_data.f, family = binomial (logit))
log.fit2.roc = roc (fram_data.f$Heart.Disease., log.fit2$fitted, plot = T, col = 'blue')
```
Specificity向右減少,Sensitivity增加蛾号,好的預(yù)測模型曲線下面的面積應(yīng)該大
當(dāng)前AUC(Area Under Curve):0.6375
如何確定最佳分界線的位置屋讶?首先繪制出假陽性和分界線的位置的圖
```
plot (log.fit2.roc$thresholds, 1-log.fit2.roc$specificities, col = 'green', pch = 16, xlab = 'Threshold on proib', ylab = 'False Positive', main = 'Thresholds vs. False Positive')
```
可以看到在0.3附近接近分界線最佳位置