-
邏輯回歸模型背景
邏輯回歸模型是機(jī)器學(xué)習(xí)中最常見的一種基礎(chǔ)模型兑凿,模型為:
f_w,b(x)=\sigma(\sum_{i}w_i \cdot x_i+b) \ \ (1) 其中比較核心是sigmoid function间学,也就是公式(1)的函數(shù)暇韧。
\sigma(z)=\frac {1}{1+e^{-z}} (1)
sigmoid function的函數(shù)圖像如下圖改抡,根據(jù)該函數(shù)的特點(diǎn),可以視為類1的后驗概率估計p(y=1|z)楼镐,也就是說如果取一個z點(diǎn)扼劈,通過該函數(shù)計算的結(jié)果可以作為z點(diǎn)屬于類別1的概率大小。通常在邏輯回歸二分類中蝌矛,我們?nèi)≈?span id="fxfvz3v" class="math-inline">\sigma(z)>=0.5 時道批,y為1,否則y為0入撒。
之前看書一直以為公式(1)是拍腦袋出來的隆豹,其實(shí)不然,細(xì)看之下其實(shí)有很多有趣的巧合茅逮,深感數(shù)學(xué)真是博大精深璃赡。
-
從最大熵模型推導(dǎo)
《The equivalence of logistic regression and maximum entropy models》 這篇論文推導(dǎo)的非常透徹簿煌,看下來收貨不小,簡要摘入一些易于理解的部分鉴吹。
-
首先對于字母與符號的聲明如下:
(1)x(1),x(2),...,x(m) 表示n維空間的一個樣本姨伟,x(i)表示第i個樣本,x(i)_j表示第i個樣本的第j維的數(shù)據(jù)(因為x是一個n維向量)
(2)y(1),y(2),...,y(m)表示 k 維空間的一個觀測結(jié)果豆励,記k從1,2,…,k變化夺荒,即分類問題中的k個類別。
(3)π(x)是學(xué)習(xí)得到的概率函數(shù)良蒸。 π(x)_u表示數(shù)據(jù)樣本x屬于類別u的概率技扼,我們希望π( )具有如下性質(zhì):
??? 1.樣本x屬于類別v的概率大于0,顯然概率必須大于0嫩痰。即 π(x)_v>0
??? 2. \sum_{v=i}^{k}\pi(x)_v=1 樣本x屬于各個類別的概率和為1剿吻。
??? 3.\pi(x(i))_{y(i)} 在所有類別概率中最大。
(4)A(u,v)是一個指示函數(shù)串纺,當(dāng)u=v時A(u,v)=1丽旅,當(dāng)u≠v時A(u,v)=0,如A(u,y(i))表示第i個觀測結(jié)果是否為u纺棺。
-
簡要推導(dǎo):
其中第(3).3中的最后一個條件等價于盡可能的讓\pi(x(i)) \rightarrow y(i) 即 \pi(x(i)) \rightarrow A(u,y(i)),理想情況為\pi(x(i))= A(u,y(i))榄笙,固有:
\sum_{i=1}^{m}x(i)_j\pi(x(i))_u=\sum_{i=1}^{m}x(i)_jA(u,y(i)) \ \ (2)
對所有類別及所有樣本取\pi( )的熵,可以得到:
f(v,i)=- \sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) \ \ (3)
得到一個優(yōu)化問題:
\begin{cases} maxf(v,i)=max\left(- \sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) \right) \\ \pi(x)_v>0\\ \sum_{v=1}^{k}\pi(x)_v=1 \\ \sum_{i=1}^{m}x(i)_j\pi(x(i))_u=\sum_{i=1}^{m}x(i)_jA(u,y(i)) \end{cases} (4)
利用拉格朗日對偶性求這個優(yōu)化問題的對偶問題祷蝌。
L=\sum_{j=1}^n\sum_{v=1}^k\lambda_{v,j} \left(\sum_{i=1}^m\pi(x(i))_vx(i)_j-A(v,y(i))x(i)_j \right)
+\sum_{v=1}^{k}\sum_{i=1}^{k}\beta_i(\pi(x(i))_v-1)-\sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) ) \ (5)
滿足\beta<0,有KKT條件有:
\frac{\partial L}{\partial {\pi(x(i))_u}} =\lambda_u \cdot x(i)+\beta_i-\log(\pi(x(i))_u)-1=0 \ \ \ (6)
計算得到:
\pi(x(i))_u =e^{\lambda_u\cdot x(i)+\beta_i-1} \ \ \ (7)
將(7)式代入到\sum_{v=1}^{k}\pi(x)_v=1可知:\sum_{v=1}^{k}e^{\lambda_u\cdot x(i)+\beta_i-1}=1即e^\beta=\frac{1}{\sum_{v=1}^{k}e^{\lambda_u\cdot x(i)-1}}代入(7)式計算得:
\pi(x(i))_u =\frac {e^{\lambda_u\cdot x}}{\sum_{v=1}^{k}e^{\lambda_u\cdot x}} \ \ (8)
即多分類問題對應(yīng)的softmax函數(shù)茅撞。
-
softmax如何聯(lián)系上sigmoid
但是二分類問題時,式(8)中u自取0與1巨朦,則(8)可以改寫為:
\pi(x(i))_1 =\frac {e^{\lambda_1\cdot x}}{e^{\lambda_0\cdot x}+e^{\lambda_1\cdot x}} \ \ (9)
將分子除分母得:
\pi(x(i))_1 =\frac {1}{1+e^{-(\lambda_1-\lambda_0)\cdot x}} \ \ (10)
就形成了sigmoid function米丘。
-
更直觀的理解
知乎上有個關(guān)于softmax到sigmoid的理解寫的不錯,引用如下:
softmax->sigmoid
-
從最根本的廣義線性模型角度推導(dǎo)
大神NG的lecture notes http://cs229.stanford.edu/notes/cs229-notes1.pdf上講的比較清楚糊啡。
首先指數(shù)分布族的標(biāo)準(zhǔn)表達(dá)式為式:
p(y;η)=b(y)exp(η^TT(y)-a(η)) \ \ (11)
其中拄查,η是分布的自然參數(shù)(natural parameter)或典范參數(shù)(canonical parameter),T(y)叫做充分統(tǒng)計量悔橄,通常情況下T(y)=y靶累;a(η)是對數(shù)分配函數(shù)腺毫,而a癣疟、b與T一般都是給定的,隨著η的變化潮酒,會得到不同的分布睛挚。
對伯努利分布的指數(shù)分布族標(biāo)準(zhǔn)表達(dá)式進(jìn)行簡單推導(dǎo),如式(12):
p(y;\phi)=\phi^y(1-\phi)^{1-y}=e^{y\log\phi+(1-y)\log(1-\phi)} =e^{ \left((\log{(\frac{\phi}{1-\phi}})y)+\log(1-\phi)\right )} \ (12)
對應(yīng)標(biāo)準(zhǔn)表達(dá)式式(11)可知:η=\log(\phi/(1- \phi))急黎。
指數(shù)家族的問題可以通過GLM(廣義線性模型)來解決扎狱,在給定x和參數(shù)后侧到,y的條件概率p(y|x,θ) 需要滿足下面三個假設(shè):
(1)y | x; θ ~ ExponentialFamily(η).
(2)h(x) = E[y|x]. 即給定x,目標(biāo)是預(yù)測T(y)的期望淤击,通常問題中T(y)=y
(3)η和x之間是線性的匠抗,即η = θ^Tx。
我們知道邏輯回歸二分類模型的假設(shè)前提為:邏輯回歸服從伯努利分布污抬,設(shè)y|x;θ服從伯努利分布汞贸,所以可知它的期望為\phi,根據(jù)構(gòu)建GLM的第2印机、3條假設(shè)可反推出假設(shè)函數(shù)h(x)為:
H_θ(x)= E[y|x; θ]= \phi=\frac1{(1+e-η)}= \frac1{(1+e^{-θ^Tx})} \ \ (13)
-
從貝葉斯模型角度推導(dǎo)
從貝葉斯模型到邏輯回歸公式只要一步矢腻,真是巧妙。
p(c_1|x)=\frac{p(x|c_1)p(c_1)}{p(x|c_1)p(c_1)+p(x|c_2)p(c_2)}
=\frac1{1+\frac{p(x|c_2)p(c_2)}{p(x|c_1)p(c_1)}}= \frac1{1+exp(-z)}
其中z=\ln\frac{p(x|c_2)p(c_2)}{p(x|c_1)p(c_1)}