前言——主要內(nèi)容
這篇筆記是StatQuest系列視頻教程的第56小節(jié),主要內(nèi)容是邏輯回歸(Logistic Regression)兴泥。
回顧線性回歸
在講邏輯回歸之前工育,我們先回顧一下線性回歸。
例如我們有一批數(shù)據(jù)搓彻,研究的是體重與小鼠的大小之間的關(guān)系如绸,如下所示:
我們可以找到一條回歸曲線,來研究這兩者之間的關(guān)系好唯,通過這條曲線竭沫,我們可以得到以下信息:
- 計算出,這個數(shù)值可以看出體重與大小之間的相關(guān)程度骑篙,數(shù)值越大,就越能表明這兩者關(guān)系密切森书;
- 計算出p值靶端,這個p值可以看出是否有統(tǒng)計學上的意義谎势;
- 計算出這個曲線的方程,利用體重來預測小鼠的大小杨名。
如下所示:
例如脏榆,我們有一個新的小鼠體重,如下所示:
通過這個點向做一條垂直于x軸(也就是體重)的直線台谍,然后找到這個直線與前面回歸曲線的交點须喂,再通過這個交點做一條平行于x軸的直線,與y軸交叉的地方就是小鼠的大小趁蕊,如下所示:
這種用某個數(shù)據(jù)預測另外一個數(shù)據(jù)的方法其實就是機器學習的范疇了坞生,如下所示:
現(xiàn)在我們再回顧一下多元線性回歸,現(xiàn)在我們利用體重(weight)掷伙,血量(blood volumne)來預測小鼠的大惺羌骸(size),如下所示:
多元線性回歸的計算與二元線性回歸的計算一樣任柜,計算出卒废,再計算出的p值,然后利用線性回歸的方程通過體重和血量來預測小鼠的大小宙地,如下所示:
此外摔认,我們還提到了通過不同的檢測指標,例如表型(genotype)來預測小鼠的大小宅粥,如下所示:
現(xiàn)在我們比較一下二元線性回歸與多元線性回歸参袱,如下所示:
通過比較這兩種線性回歸透葛,我們知道狮辽,如果我們使用更多的變量(例如在多元線性回歸中,我們添加了血量這個變量)來預測大小闸昨,結(jié)果會更加精確风纠,如下所示:
邏輯回歸簡介
現(xiàn)在要學習另外一種回歸况鸣,就是邏輯回歸。邏輯回歸與線性回歸比較類似竹观,如下所示:
邏輯回歸預測的結(jié)果并不是具體的某個數(shù)據(jù)镐捧,而某個結(jié)果是True
還是False
,如下所示:
例如臭增,在上面的案例中懂酱,有9只小鼠,最上面的5只小鼠是肥胖小鼠誊抛,下面的4只小鼠是非肥胖型小鼠列牺,如下所示:
此時,我們要找一條曲線來擬合這些數(shù)據(jù)拗窃,不過這條曲線與線性回歸的直線不同瞎领,它是S型的泌辫,如下所示:
其中縱坐標的范圍是0到1,如下所示:
這就說明九默,我們最終計算的結(jié)果是一個概率震放,就是由小鼠的體重來預測這個小鼠是否是肥胖小鼠的概率,如下所示:
如果一個小鼠的體重很重驼修,如下所示:
那么殿遂,通過這個點做一條垂直于橫坐標的直線,與邏輯回歸的曲線相交乙各,我們就可以發(fā)現(xiàn)墨礁,這個小鼠有很大的概率是肥胖小鼠,如下所示:
如果一個小鼠的體重處于中間地帶觅丰,如下所示:
那么這只小鼠可能只有50%的可能性是肥胖小鼠饵溅,如下所示:
如果一只小鼠的體重很小,那么它就不太可能是肥胖小鼠妇萄,如下所示:
雖然邏輯回歸會告訴我們一只小鼠是否是肥胖小鼠蜕企,但是邏輯回歸在多數(shù)情況下,是用于分類的冠句,如下所示:
同理轻掩,如果一只小鼠是肥胖小鼠的概率是50%,那么我們就會把它歸于肥胖小鼠這一類懦底,否則唇牧,我們會把這只小鼠歸于非肥胖小鼠這一類,如下所示:
邏輯回歸簡單案例
現(xiàn)在我們來看一個邏輯回歸的簡單案例聚唐,在這個案例中丐重,我們使用小鼠的體重來預測是否是肥胖小鼠,如下所示:
我們還有可能會涉及一個更復雜的案例杆查,例如通過體重和表型來預測小鼠是否是肥胖小鼠扮惦,如下所示:
或者是更加復雜的案例,例如使用體重亲桦,表型崖蜜,年齡來預測小鼠是否是肥胖小鼠,如下所示:
或者說客峭,還要復雜豫领,例如通過體重,表型舔琅,年齡等恐,星座(astrological sign??)來預測小鼠是否是肥胖小鼠鼠锈,如下所示:
換句話說闪檬,邏輯回歸與線性回歸相同之處在于星著,邏輯回歸也可以使用連續(xù)型變量(例如體重與年齡)购笆,,與離散型變量(例如表型與星座)來進行計算虚循,如下所示:
我們還檢測一下每個變量是否能夠用于預測小鼠是否是肥胖小鼠同欠,如下所示:
但是,邏輯回歸與線性回歸不同横缔,我們不太容易比較復雜回歸與簡單回歸铺遂,如下所示:
相反,我們不會直接比較復雜回歸與簡單回歸茎刚,而是通過Wald方法檢驗一下襟锐,一個變量是否能夠?qū)︻A測結(jié)果產(chǎn)生明顯的影響(與0相比),如果這個變量對預測結(jié)果沒有什么影響膛锭,那么此變量就無法為預測提供相應(yīng)的信息粮坞,這種如下所示:
如果我們檢驗了這些變量的話,那么我們就發(fā)現(xiàn)初狰,星座這個變量對預測小鼠是否肥胖沒什么幫助莫杈,如下所示:
這就說明,我們在計算邏輯回歸的方程時奢入,就可以不使用星座這個變量筝闹,從而節(jié)省時間與空間,如下所示:
邏輯回歸使用連續(xù)型變量和離散型變來來計算概率腥光,它能對一個新的樣本進行分類关顷,這是一種常用的機器學習方法,如下所示:
線性回歸與邏輯回歸的一個最大的區(qū)別在于武福,如何找到一條擬合這些數(shù)據(jù)的曲線议双,如下所示:
在線性回歸中,我們通常使用最小二乘法來尋找擬合這些數(shù)據(jù)的曲線艘儒,如下所示:
換句話說聋伦,我們找到的這條曲線,每個點到這條曲線的距離平方和(殘差)最小界睁,如下所示:
我們還要利用殘差來計算觉增,用于比較簡單線性回歸與復雜線性回歸,如下所示:
邏輯回歸沒有線性回歸中“殘差”的概念翻斟,因此逾礁,我們無法使用最小二乘法來計算曲線,也無法計算,如下所示:
計算邏輯回歸曲線方程的方法是“最大似然法”嘹履,如下所示:
最大似然法以前講過腻扇,在這里,只是用一種比較簡單粗糙砾嫉,不嚴謹?shù)恼Z言來描述一下幼苛。
首先,把小鼠的體重經(jīng)過縮放(scaled)焕刮,先擬合出一條曲線舶沿,此時,這條曲線只是初步的一條曲線配并,不是最終的曲線括荡。找到第1只小鼠(這只小鼠是非肥胖小鼠)的體重在這條曲線上對應(yīng)的概率,如下所示:
此時溉旋,計算一下這個非肥胖小鼠(也就是第1只小鼠)與這條曲線上小鼠對應(yīng)的概率的相符的似然性(likelihood)畸冲,如下所示:
然后,再找到第2只小鼠在這條曲線上對應(yīng)的概率观腊,以及計算第2只小鼠與這個概率的似然性邑闲,如下所示:
所有的小鼠都這么計算,如下所示:
最終恕沫,把這些小鼠的所有似然性都相乘监憎,就是這條曲線與這些數(shù)據(jù)的似然性,如下所示:
此時婶溯,我們已經(jīng)計算了第1條曲線了的似然性了鲸阔,此時,還轉(zhuǎn)換一下曲線迄委,計算這條新的曲線的似然性褐筛,如下所示:
還有第3條曲線,也是如此計算叙身,如下所示:
最終渔扎,我們會通過極大似然法找到最適合的這條曲線,如下所示:
現(xiàn)在總結(jié)一下信轿,邏輯回歸是用于對樣本分類的算法晃痴,如下所示:
它可以使用不同的數(shù)據(jù)類型(例如大小和表型)來對數(shù)據(jù)進行分類,如下所示:
這種方法還可以用評估哪些變量可以用于分類(例如星座就無法用于分類)财忽,如下所示:
總結(jié)
上面只是一種非常精淺的邏輯回歸的描述倘核,并沒有涉及到如何計算,如果看結(jié)果即彪。如果真正要運用的話紧唱,還需要看其他的統(tǒng)計學書籍。