StatQuest學習筆記21——邏輯回歸

前言——主要內(nèi)容

這篇筆記是StatQuest系列視頻教程的第56小節(jié),主要內(nèi)容是邏輯回歸(Logistic Regression)兴泥。

回顧線性回歸

在講邏輯回歸之前工育,我們先回顧一下線性回歸。

例如我們有一批數(shù)據(jù)搓彻,研究的是體重與小鼠的大小之間的關(guān)系如绸,如下所示:

image

我們可以找到一條回歸曲線,來研究這兩者之間的關(guān)系好唯,通過這條曲線竭沫,我們可以得到以下信息:

  1. 計算出{R}^2,這個數(shù)值可以看出體重與大小之間的相關(guān)程度骑篙,數(shù)值越大,就越能表明這兩者關(guān)系密切森书;
  2. 計算出p值靶端,這個p值可以看出{R}^2是否有統(tǒng)計學上的意義谎势;
  3. 計算出這個曲線的方程,利用體重來預測小鼠的大小杨名。

如下所示:

image

例如脏榆,我們有一個新的小鼠體重,如下所示:

image

通過這個點向做一條垂直于x軸(也就是體重)的直線台谍,然后找到這個直線與前面回歸曲線的交點须喂,再通過這個交點做一條平行于x軸的直線,與y軸交叉的地方就是小鼠的大小趁蕊,如下所示:

image

這種用某個數(shù)據(jù)預測另外一個數(shù)據(jù)的方法其實就是機器學習的范疇了坞生,如下所示:

image

現(xiàn)在我們再回顧一下多元線性回歸,現(xiàn)在我們利用體重(weight)掷伙,血量(blood volumne)來預測小鼠的大惺羌骸(size),如下所示:

image

多元線性回歸的計算與二元線性回歸的計算一樣任柜,計算出{R}^2卒废,再計算出{R}^2的p值,然后利用線性回歸的方程通過體重和血量來預測小鼠的大小宙地,如下所示:

image

此外摔认,我們還提到了通過不同的檢測指標,例如表型(genotype)來預測小鼠的大小宅粥,如下所示:

image

現(xiàn)在我們比較一下二元線性回歸與多元線性回歸参袱,如下所示:

image

通過比較這兩種線性回歸透葛,我們知道狮辽,如果我們使用更多的變量(例如在多元線性回歸中,我們添加了血量這個變量)來預測大小闸昨,結(jié)果會更加精確风纠,如下所示:

image

邏輯回歸簡介

現(xiàn)在要學習另外一種回歸况鸣,就是邏輯回歸。邏輯回歸與線性回歸比較類似竹观,如下所示:

image

邏輯回歸預測的結(jié)果并不是具體的某個數(shù)據(jù)镐捧,而某個結(jié)果是True還是False,如下所示:

image

例如臭增,在上面的案例中懂酱,有9只小鼠,最上面的5只小鼠是肥胖小鼠誊抛,下面的4只小鼠是非肥胖型小鼠列牺,如下所示:

image

此時,我們要找一條曲線來擬合這些數(shù)據(jù)拗窃,不過這條曲線與線性回歸的直線不同瞎领,它是S型的泌辫,如下所示:

image

其中縱坐標的范圍是0到1,如下所示:

image

這就說明九默,我們最終計算的結(jié)果是一個概率震放,就是由小鼠的體重來預測這個小鼠是否是肥胖小鼠的概率,如下所示:

image

如果一個小鼠的體重很重驼修,如下所示:

image

那么殿遂,通過這個點做一條垂直于橫坐標的直線,與邏輯回歸的曲線相交乙各,我們就可以發(fā)現(xiàn)墨礁,這個小鼠有很大的概率是肥胖小鼠,如下所示:

image

如果一個小鼠的體重處于中間地帶觅丰,如下所示:

image

那么這只小鼠可能只有50%的可能性是肥胖小鼠饵溅,如下所示:

image

如果一只小鼠的體重很小,那么它就不太可能是肥胖小鼠妇萄,如下所示:

image

雖然邏輯回歸會告訴我們一只小鼠是否是肥胖小鼠蜕企,但是邏輯回歸在多數(shù)情況下,是用于分類的冠句,如下所示:

image

同理轻掩,如果一只小鼠是肥胖小鼠的概率是50%,那么我們就會把它歸于肥胖小鼠這一類懦底,否則唇牧,我們會把這只小鼠歸于非肥胖小鼠這一類,如下所示:

image

邏輯回歸簡單案例

現(xiàn)在我們來看一個邏輯回歸的簡單案例聚唐,在這個案例中丐重,我們使用小鼠的體重來預測是否是肥胖小鼠,如下所示:

image

我們還有可能會涉及一個更復雜的案例杆查,例如通過體重和表型來預測小鼠是否是肥胖小鼠扮惦,如下所示:

image

或者是更加復雜的案例,例如使用體重亲桦,表型崖蜜,年齡來預測小鼠是否是肥胖小鼠,如下所示:

image

或者說客峭,還要復雜豫领,例如通過體重,表型舔琅,年齡等恐,星座(astrological sign??)來預測小鼠是否是肥胖小鼠鼠锈,如下所示:

image

換句話說闪檬,邏輯回歸與線性回歸相同之處在于星著,邏輯回歸也可以使用連續(xù)型變量(例如體重與年齡)购笆,,與離散型變量(例如表型與星座)來進行計算虚循,如下所示:

image

我們還檢測一下每個變量是否能夠用于預測小鼠是否是肥胖小鼠同欠,如下所示:

image

但是,邏輯回歸與線性回歸不同横缔,我們不太容易比較復雜回歸與簡單回歸铺遂,如下所示:

image

相反,我們不會直接比較復雜回歸與簡單回歸茎刚,而是通過Wald方法檢驗一下襟锐,一個變量是否能夠?qū)︻A測結(jié)果產(chǎn)生明顯的影響(與0相比),如果這個變量對預測結(jié)果沒有什么影響膛锭,那么此變量就無法為預測提供相應(yīng)的信息粮坞,這種如下所示:

image

如果我們檢驗了這些變量的話,那么我們就發(fā)現(xiàn)初狰,星座這個變量對預測小鼠是否肥胖沒什么幫助莫杈,如下所示:

image

這就說明,我們在計算邏輯回歸的方程時奢入,就可以不使用星座這個變量筝闹,從而節(jié)省時間與空間,如下所示:

image

邏輯回歸使用連續(xù)型變量和離散型變來來計算概率腥光,它能對一個新的樣本進行分類关顷,這是一種常用的機器學習方法,如下所示:

image

線性回歸與邏輯回歸的一個最大的區(qū)別在于武福,如何找到一條擬合這些數(shù)據(jù)的曲線议双,如下所示:

image

在線性回歸中,我們通常使用最小二乘法來尋找擬合這些數(shù)據(jù)的曲線艘儒,如下所示:

image

換句話說聋伦,我們找到的這條曲線,每個點到這條曲線的距離平方和(殘差)最小界睁,如下所示:

image

我們還要利用殘差來計算{R}^2觉增,用于比較簡單線性回歸與復雜線性回歸,如下所示:

image

邏輯回歸沒有線性回歸中“殘差”的概念翻斟,因此逾礁,我們無法使用最小二乘法來計算曲線,也無法計算{R}^2,如下所示:

image

計算邏輯回歸曲線方程的方法是“最大似然法”嘹履,如下所示:

image

最大似然法以前講過腻扇,在這里,只是用一種比較簡單粗糙砾嫉,不嚴謹?shù)恼Z言來描述一下幼苛。

首先,把小鼠的體重經(jīng)過縮放(scaled)焕刮,先擬合出一條曲線舶沿,此時,這條曲線只是初步的一條曲線配并,不是最終的曲線括荡。找到第1只小鼠(這只小鼠是非肥胖小鼠)的體重在這條曲線上對應(yīng)的概率,如下所示:

image

此時溉旋,計算一下這個非肥胖小鼠(也就是第1只小鼠)與這條曲線上小鼠對應(yīng)的概率的相符的似然性(likelihood)畸冲,如下所示:

image

然后,再找到第2只小鼠在這條曲線上對應(yīng)的概率观腊,以及計算第2只小鼠與這個概率的似然性邑闲,如下所示:

image

所有的小鼠都這么計算,如下所示:

image

最終恕沫,把這些小鼠的所有似然性都相乘监憎,就是這條曲線與這些數(shù)據(jù)的似然性,如下所示:

image

此時婶溯,我們已經(jīng)計算了第1條曲線了的似然性了鲸阔,此時,還轉(zhuǎn)換一下曲線迄委,計算這條新的曲線的似然性褐筛,如下所示:

image

還有第3條曲線,也是如此計算叙身,如下所示:

image

最終渔扎,我們會通過極大似然法找到最適合的這條曲線,如下所示:

image

現(xiàn)在總結(jié)一下信轿,邏輯回歸是用于對樣本分類的算法晃痴,如下所示:

image

它可以使用不同的數(shù)據(jù)類型(例如大小和表型)來對數(shù)據(jù)進行分類,如下所示:

image

這種方法還可以用評估哪些變量可以用于分類(例如星座就無法用于分類)财忽,如下所示:

image

總結(jié)

上面只是一種非常精淺的邏輯回歸的描述倘核,并沒有涉及到如何計算,如果看結(jié)果即彪。如果真正要運用的話紧唱,還需要看其他的統(tǒng)計學書籍。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市漏益,隨后出現(xiàn)的幾起案子蛹锰,更是在濱河造成了極大的恐慌,老刑警劉巖绰疤,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件铜犬,死亡現(xiàn)場離奇詭異,居然都是意外死亡峦睡,警方通過查閱死者的電腦和手機翎苫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來榨了,“玉大人,你說我怎么就攤上這事攘蔽×耄” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵满俗,是天一觀的道長转捕。 經(jīng)常有香客問我,道長唆垃,這世上最難降的妖魔是什么五芝? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮辕万,結(jié)果婚禮上枢步,老公的妹妹穿的比我還像新娘。我一直安慰自己渐尿,他們只是感情好醉途,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著砖茸,像睡著了一般隘擎。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上凉夯,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天货葬,我揣著相機與錄音,去河邊找鬼劲够。 笑死震桶,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的再沧。 我是一名探鬼主播尼夺,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了淤堵?” 一聲冷哼從身側(cè)響起寝衫,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎拐邪,沒想到半個月后慰毅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡扎阶,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年汹胃,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片东臀。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡着饥,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出惰赋,到底是詐尸還是另有隱情宰掉,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布赁濒,位于F島的核電站轨奄,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏拒炎。R本人自食惡果不足惜挪拟,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望击你。 院中可真熱鬧玉组,春花似錦、人聲如沸果漾。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽绒障。三九已至吨凑,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間户辱,已是汗流浹背鸵钝。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留庐镐,地道東北人恩商。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像必逆,于是被迫代替她去往敵國和親怠堪。 傳聞我的和親對象是個殘疾皇子揽乱,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容