本文將對利用邏輯回歸結果評估不確定性進行討論。
回歸系數表用途 #4:不確定性的評估
在邏輯回歸中對回歸系數的不確定性進行評估實際上和最小二乘回歸中是一樣的(回顧)梦谜。在這兩個模型中豌蟋,回歸系數表都有一列是回歸系數毁兆,下一列是標準差,緊接著一列是一個統(tǒng)計量椭盏,后面一列p值徘层。下面展示了“Kid Creative”邏輯回歸的系數表:
請注意上面的表中峻呕,統(tǒng)計量一欄標記為“z”, p值標記為“P>|z|“趣效。
標準差可用于構建回歸系數的置信區(qū)間瘦癌。我不想在這里重復基本的統(tǒng)計學,所以我不會演示置信區(qū)間的計算跷敬。不過讯私,粗略的說,用回歸系數 +/- 2倍的標準差大約就是95%置信區(qū)間西傀。
我在本系列的第三篇介紹過斤寇,我們經常使用odds ratio來解釋回歸系數的含義。我們可以計算置信區(qū)間右邊界的odds ratio拥褂,這些odds ratio會給我們和odds等價的置信區(qū)間娘锁。我們繼續(xù)用Residence Length舉例,置信區(qū)間右邊界相應的odds ratio是:
那么饺鹃,區(qū)間[0.99708莫秆, 1.05367]就是odds ratio的95%置信區(qū)間的估計值。這就是說居住時間每增加一年悔详,購買雜志的odds可能性增量為0.292%-5.367%镊屎。
到現在我已經討論了邏輯回歸系數表用來評估不確定性的主要方法。你可能回憶起我在最小二乘回歸中對這個問題的討論茄螃,我簡單的談及計算預測的不確定性(預測區(qū)間)缝驳。
在邏輯回歸中,像最小二乘回歸中一樣為一個新的觀測建立預測區(qū)間并沒有什么實際意義。原因很簡單党巾,因為我們清楚的知道任何一組觀測數據的預測值Y不是0就是1萎庭,這是很顯然的,邏輯回歸中Y是二元變量齿拂。我們所不知道的是Y=1的概率,所以我們考慮的是計算概率的置信區(qū)間肴敛,而不是Y的值署海。
本文是邏輯回歸結果解讀和應用系列的總結∫侥校回歸系數表是邏輯回歸分析的結果中最重要和有用處的部分砸狞,但我們還有另一個和系數表同等重要的話題需要處理,那就是評估我們的邏輯回歸模型和數據集的擬合程度镀梭,稱作”擬合度“(”goodness-of-fit“)刀森,這是后續(xù)關于邏輯回歸的話題中最重要的部分。