sigmoid function為什么是1/{1+exp(-z)}

  • 邏輯回歸模型背景

邏輯回歸模型是機(jī)器學(xué)習(xí)中最常見的一種基礎(chǔ)模型兑凿,模型為:
f_w,b(x)=\sigma(\sum_{i}w_i \cdot x_i+b) \ \ (1) 其中比較核心是sigmoid function间学,也就是公式(1)的函數(shù)暇韧。
\sigma(z)=\frac {1}{1+e^{-z}} (1)
sigmoid function的函數(shù)圖像如下圖改抡,根據(jù)該函數(shù)的特點(diǎn),可以視為類1的后驗概率估計p(y=1|z)楼镐,也就是說如果取一個z點(diǎn)扼劈,通過該函數(shù)計算的結(jié)果可以作為z點(diǎn)屬于類別1的概率大小。通常在邏輯回歸二分類中蝌矛,我們?nèi)≈?span id="fxfvz3v" class="math-inline">\sigma(z)>=0.5 時道批,y1,否則y0入撒。

sigmoid function

之前看書一直以為公式(1)是拍腦袋出來的隆豹,其實(shí)不然,細(xì)看之下其實(shí)有很多有趣的巧合茅逮,深感數(shù)學(xué)真是博大精深璃赡。

  • 從最大熵模型推導(dǎo)

《The equivalence of logistic regression and maximum entropy models》 這篇論文推導(dǎo)的非常透徹簿煌,看下來收貨不小,簡要摘入一些易于理解的部分鉴吹。

  • 首先對于字母與符號的聲明如下:

(1)x(1),x(2),...,x(m) 表示n維空間的一個樣本姨伟,x(i)表示第i個樣本,x(i)_j表示第i個樣本的第j維的數(shù)據(jù)(因為x是一個n維向量)
(2)y(1),y(2),...,y(m)表示 k 維空間的一個觀測結(jié)果豆励,記k1,2,…,k變化夺荒,即分類問題中的k個類別。
(3)π(x)是學(xué)習(xí)得到的概率函數(shù)良蒸。 π(x)_u表示數(shù)據(jù)樣本x屬于類別u的概率技扼,我們希望π( )具有如下性質(zhì):

??? 1.樣本x屬于類別v的概率大于0,顯然概率必須大于0嫩痰。即 π(x)_v>0
??? 2. \sum_{v=i}^{k}\pi(x)_v=1 樣本x屬于各個類別的概率和為1剿吻。
??? 3.\pi(x(i))_{y(i)} 在所有類別概率中最大。

(4)A(u,v)是一個指示函數(shù)串纺,當(dāng)u=v時A(u,v)=1丽旅,當(dāng)u≠vA(u,v)=0,如A(u,y(i))表示第i個觀測結(jié)果是否為u纺棺。

  • 簡要推導(dǎo):

其中第(3).3中的最后一個條件等價于盡可能的讓\pi(x(i)) \rightarrow y(i)\pi(x(i)) \rightarrow A(u,y(i)),理想情況為\pi(x(i))= A(u,y(i))榄笙,固有:
\sum_{i=1}^{m}x(i)_j\pi(x(i))_u=\sum_{i=1}^{m}x(i)_jA(u,y(i)) \ \ (2)
對所有類別及所有樣本取\pi( )的熵,可以得到:
f(v,i)=- \sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) \ \ (3)
得到一個優(yōu)化問題:
\begin{cases} maxf(v,i)=max\left(- \sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) \right) \\ \pi(x)_v>0\\ \sum_{v=1}^{k}\pi(x)_v=1 \\ \sum_{i=1}^{m}x(i)_j\pi(x(i))_u=\sum_{i=1}^{m}x(i)_jA(u,y(i)) \end{cases} (4)
利用拉格朗日對偶性求這個優(yōu)化問題的對偶問題祷蝌。
L=\sum_{j=1}^n\sum_{v=1}^k\lambda_{v,j} \left(\sum_{i=1}^m\pi(x(i))_vx(i)_j-A(v,y(i))x(i)_j \right)
+\sum_{v=1}^{k}\sum_{i=1}^{k}\beta_i(\pi(x(i))_v-1)-\sum_{v=1}^{k} \sum_{i=1}^{m}\pi(x(i))_v log(\pi(x(i))_v) ) \ (5)
滿足\beta<0,有KKT條件有:
\frac{\partial L}{\partial {\pi(x(i))_u}} =\lambda_u \cdot x(i)+\beta_i-\log(\pi(x(i))_u)-1=0 \ \ \ (6)
計算得到:
\pi(x(i))_u =e^{\lambda_u\cdot x(i)+\beta_i-1} \ \ \ (7)
將(7)式代入到\sum_{v=1}^{k}\pi(x)_v=1可知:\sum_{v=1}^{k}e^{\lambda_u\cdot x(i)+\beta_i-1}=1e^\beta=\frac{1}{\sum_{v=1}^{k}e^{\lambda_u\cdot x(i)-1}}代入(7)式計算得:
\pi(x(i))_u =\frac {e^{\lambda_u\cdot x}}{\sum_{v=1}^{k}e^{\lambda_u\cdot x}} \ \ (8)
即多分類問題對應(yīng)的softmax函數(shù)茅撞。

  • softmax如何聯(lián)系上sigmoid

但是二分類問題時,式(8)中u自取0與1巨朦,則(8)可以改寫為:
\pi(x(i))_1 =\frac {e^{\lambda_1\cdot x}}{e^{\lambda_0\cdot x}+e^{\lambda_1\cdot x}} \ \ (9)
將分子除分母得:
\pi(x(i))_1 =\frac {1}{1+e^{-(\lambda_1-\lambda_0)\cdot x}} \ \ (10)
就形成了sigmoid function米丘。

  • 更直觀的理解

知乎上有個關(guān)于softmax到sigmoid的理解寫的不錯,引用如下:

softmax->sigmoid
  • 從最根本的廣義線性模型角度推導(dǎo)

大神NG的lecture notes http://cs229.stanford.edu/notes/cs229-notes1.pdf上講的比較清楚糊啡。
首先指數(shù)分布族的標(biāo)準(zhǔn)表達(dá)式為式:
p(y;η)=b(y)exp(η^TT(y)-a(η)) \ \ (11)
其中拄查,η是分布的自然參數(shù)(natural parameter)或典范參數(shù)(canonical parameter),T(y)叫做充分統(tǒng)計量悔橄,通常情況下T(y)=y靶累;a(η)是對數(shù)分配函數(shù)腺毫,而a癣疟、bT一般都是給定的,隨著η的變化潮酒,會得到不同的分布睛挚。
對伯努利分布的指數(shù)分布族標(biāo)準(zhǔn)表達(dá)式進(jìn)行簡單推導(dǎo),如式(12):
p(y;\phi)=\phi^y(1-\phi)^{1-y}=e^{y\log\phi+(1-y)\log(1-\phi)} =e^{ \left((\log{(\frac{\phi}{1-\phi}})y)+\log(1-\phi)\right )} \ (12)
對應(yīng)標(biāo)準(zhǔn)表達(dá)式式(11)可知:η=\log(\phi/(1- \phi))急黎。
指數(shù)家族的問題可以通過GLM(廣義線性模型)來解決扎狱,在給定x和參數(shù)后侧到,y的條件概率p(y|x,θ) 需要滿足下面三個假設(shè):

(1)y | x; θ ~ ExponentialFamily(η).
(2)h(x) = E[y|x]. 即給定x,目標(biāo)是預(yù)測T(y)的期望淤击,通常問題中T(y)=y
(3)ηx之間是線性的匠抗,即η = θ^Tx

我們知道邏輯回歸二分類模型的假設(shè)前提為:邏輯回歸服從伯努利分布污抬,設(shè)y|x;θ服從伯努利分布汞贸,所以可知它的期望為\phi,根據(jù)構(gòu)建GLM的第2印机、3條假設(shè)可反推出假設(shè)函數(shù)h(x)為:
H_θ(x)= E[y|x; θ]= \phi=\frac1{(1+e-η)}= \frac1{(1+e^{-θ^Tx})} \ \ (13)

  • 從貝葉斯模型角度推導(dǎo)

從貝葉斯模型到邏輯回歸公式只要一步矢腻,真是巧妙。
p(c_1|x)=\frac{p(x|c_1)p(c_1)}{p(x|c_1)p(c_1)+p(x|c_2)p(c_2)}
=\frac1{1+\frac{p(x|c_2)p(c_2)}{p(x|c_1)p(c_1)}}= \frac1{1+exp(-z)}
其中z=\ln\frac{p(x|c_2)p(c_2)}{p(x|c_1)p(c_1)}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末射赛,一起剝皮案震驚了整個濱河市多柑,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌楣责,老刑警劉巖竣灌,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異秆麸,居然都是意外死亡帐偎,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進(jìn)店門蛔屹,熙熙樓的掌柜王于貴愁眉苦臉地迎上來削樊,“玉大人,你說我怎么就攤上這事兔毒÷辏” “怎么了?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵育叁,是天一觀的道長迅脐。 經(jīng)常有香客問我,道長豪嗽,這世上最難降的妖魔是什么谴蔑? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮龟梦,結(jié)果婚禮上隐锭,老公的妹妹穿的比我還像新娘。我一直安慰自己计贰,他們只是感情好钦睡,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著躁倒,像睡著了一般荞怒。 火紅的嫁衣襯著肌膚如雪洒琢。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天褐桌,我揣著相機(jī)與錄音衰抑,去河邊找鬼。 笑死荧嵌,一個胖子當(dāng)著我的面吹牛停士,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播完丽,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼恋技,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了逻族?” 一聲冷哼從身側(cè)響起蜻底,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎聘鳞,沒想到半個月后薄辅,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡抠璃,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年站楚,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片搏嗡。...
    茶點(diǎn)故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡窿春,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出采盒,到底是詐尸還是另有隱情旧乞,我是刑警寧澤,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布磅氨,位于F島的核電站尺栖,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏烦租。R本人自食惡果不足惜延赌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望叉橱。 院中可真熱鬧挫以,春花似錦、人聲如沸赏迟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽锌杀。三九已至甩栈,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間糕再,已是汗流浹背量没。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留突想,地道東北人殴蹄。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓,卻偏偏與公主長得像猾担,于是被迫代替她去往敵國和親袭灯。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,927評論 2 355

推薦閱讀更多精彩內(nèi)容

  • #1996 AHSME ##1996 AHSME Problems/Problem 1 The addition ...
    abigtreenj閱讀 1,396評論 0 0
  • 標(biāo)簽: PRML绑嘹; 核函數(shù) 備注:文中可能存在錯誤稽荧,敬請指正。 聲明:本文主要整理思路工腋,原創(chuàng)參考資料列在文末姨丈,在...
    zjdxwsn閱讀 750評論 0 0
  • 在C語言中,五種基本數(shù)據(jù)類型存儲空間長度的排列順序是: A)char B)char=int<=float C)ch...
    夏天再來閱讀 3,343評論 0 2
  • "use strict";function _classCallCheck(e,t){if(!(e instanc...
    久些閱讀 2,031評論 0 2
  • 從小到大蟋恬,各種武俠仙俠小說中,都有“奇經(jīng)八脈”的描述趁冈,更有打通任督二脈立刻功力大增歼争,各種碾壓對手的橋段。 然而渗勘,真...
    唱唱吐槽說閱讀 896評論 0 1