廣義線性模型與邏輯回歸
廣義線性模型的原理
首先窟蓝,廣義線性模型是基于指數(shù)分布族的挠阁,而指數(shù)分布族的原型如下
其中 為自然參數(shù)乱灵,它可能是一個(gè)向量,而 叫做充分統(tǒng)計(jì)量文黎,也可能是一個(gè)向量惹苗,通常來(lái)說(shuō) 。
廣義線性模型就是把自變量 的線性預(yù)測(cè)函數(shù) 當(dāng)作因變量 的估計(jì)值耸峭。
根據(jù)指數(shù)分布族來(lái)構(gòu)建廣義線性模型的三個(gè)假設(shè)
- 給定特征屬性 和參數(shù) 后桩蓉, 的條件概率 服從指數(shù)分布族,即 劳闹。
- 預(yù)測(cè) 的期望触机,即計(jì)算 ,通常來(lái)說(shuō) 玷或。
- 與 之間是線性的,即 片任。
邏輯回歸
- 伯努利分布又叫做兩點(diǎn)分布或者0-1分布偏友,是一個(gè)離散型概率分布,若伯努利實(shí)驗(yàn)成功对供,則伯努利隨機(jī)變量取值為1位他,如果失敗,則伯努利隨機(jī)變量取值為0产场。并記成功的概率為 鹅髓,那么失敗的概率就是
- 伯努利分布的概率密度函數(shù)
如果把伯努利分布寫成指數(shù)分布族,形式如下
對(duì)比指數(shù)分布族京景,有
-
Logistic回歸是基于伯努利分布的窿冯,推導(dǎo)可得Sigmoid函數(shù),如下
其中 确徙, 即為預(yù)測(cè)為正樣本的概率醒串。
這也解釋了為什么邏輯回歸要用Sigmoid函數(shù)。
Sigmoid 函數(shù)的性質(zhì)
- sigmoid 函數(shù)連續(xù)鄙皇,單調(diào)遞增
- sigmiod 函數(shù)關(guān)于 中心對(duì)稱
- 對(duì)sigmoid函數(shù)求導(dǎo) 芜赌,計(jì)算sigmoid函數(shù)的導(dǎo)數(shù)簡(jiǎn)單快速