=== Logit函數(shù) ===
Odds:比值比(優(yōu)勢比)齐遵,用來衡量特征中分類之間關(guān)聯(lián)的一種方式歹鱼。
指的是該事件發(fā)生的概率與該事件不發(fā)生的概率的比值: p/1-p
Logit函數(shù),logit(p) = log(Odds)
我們假設(shè):logit (p) 和 X 之間服從一個線性關(guān)系宁改,因?yàn)楫?dāng)他們之間呈現(xiàn)線性關(guān)系的時候街佑,可以幫助我們做分類似踱。
為什么可以這樣假設(shè)?
其實(shí)就像 hθ(x) = θTX一樣墓臭,我們假設(shè)其呈現(xiàn)線性關(guān)系蘸鲸,然后求出θ值,最后建立模型一個道理窿锉。
搞清楚后以上的思路后酌摇,我們繼續(xù)演繹。對于logit (p)可以做如下的轉(zhuǎn)化:
最后得到的公式嗡载,我們稱為 Logistic/sigmoid函數(shù):
Logistic函數(shù)的圖像:
重點(diǎn):
Odds:比值比(優(yōu)勢比)窑多,用來衡量特征中分類之間關(guān)聯(lián)的一種方式。指的是該事件發(fā)生的概率與該事件不發(fā)生的概率的比值: p/1-p
我們最終得到的是一個θTx 和p之間的映射洼滚。
在圖像中的體現(xiàn)是: p(θTx ) + p(-θTx ) = 1
通過把θTx 傳輸?shù)胶瘮?shù)中后埂息,我們可以得到的返回值在0~1之間。
在θTx =0這一點(diǎn)的時候,p=0.5耿芹;
θTx越小崭篡,p趨向于0;
θTx越大吧秕,p趨向于1琉闪;
===Logistic回歸 ===
Logistic函數(shù)的“定義域”和“值域” :
Logistic回歸的中心目標(biāo)是求解二元分類的問題。
所以值域中砸彬,我們設(shè)y的取值為0或1颠毙。
接下來分析一下p和y的關(guān)系。
y:最終分類的結(jié)果砂碉。y=1 or y=0
p:指的是該事件發(fā)生的概率蛀蜜。即y=1的概率。
我們可以自定義一個事情發(fā)生概率的閾值 h
如果y=1的概率大于h增蹭,我們認(rèn)為預(yù)測的結(jié)果y^是1
如果y=1的概率小于h滴某,我們認(rèn)為預(yù)測的結(jié)果y^是0
但是如果加入了自定義閾值設(shè)定的話,意味著我們?nèi)藶榈慕?jīng)驗(yàn)被納入運(yùn)算的過程中了滋迈,那么會導(dǎo)致最終的預(yù)測結(jié)果產(chǎn)生一定的偏差霎奢,所以不建議使用。
就根據(jù)sigmoid函數(shù)的對稱軸 h=0.5 作為分類的閾值即可饼灿。
Logistic/sigmoid函數(shù):
令:z = θTx
鏈?zhǔn)椒▌t求導(dǎo): g'(z) = g(z)*(1-g(z))
這個結(jié)論很重要幕侠,因?yàn)樵谟锰荻认陆捣ㄇ髽O值的時候需要用到原函數(shù)的導(dǎo)數(shù)。
對于y的值不是取1就是去0的情況碍彭,滿足數(shù)學(xué)里的伯努利分布亦稱零一分布晤硕、兩點(diǎn)分布。
p:也就是y=1的概率庇忌。
Logistic回歸滿足的兩個假設(shè):
1舞箍、某一點(diǎn)觀測值隨機(jī)變量 y|x 服從伯努利分布。
2漆枚、各個觀測值y之間獨(dú)立创译。
1、假設(shè):
2墙基、似然函數(shù):
思路:
首先软族,因?yàn)橛^測值是獨(dú)立同分布的,所以可以用聯(lián)合概率密度函數(shù)残制,即連乘所有單個樣本發(fā)生 y=x 情況的概率立砸。
對于所有觀測值x中發(fā)生了y的概率,連乘求出聯(lián)合概率密度函數(shù):
似然函數(shù)體現(xiàn)了一種可能性初茶,即當(dāng)前有一組參數(shù)θ颗祝,使得觀測值X達(dá)到上面這種聯(lián)合概率密度函數(shù)值的可能性最大。那么這組θ值就是我想要的。
最后螺戳,求解θ的問題轉(zhuǎn)化為求似然函數(shù)最大值的問題了搁宾。
即θ為何值時,L(θ)最大倔幼。
當(dāng)最大似然函數(shù)最大時盖腿,對應(yīng)的θ值就是最優(yōu)解。
3损同、對數(shù)似然函數(shù):
求函數(shù)的最大值翩腐,首先要對函數(shù)進(jìn)行求導(dǎo)。然后利用梯度下降的算法求解最小值膏燃。
要對原來的最大似然函數(shù)求導(dǎo)十分困難茂卦,但我們知道函數(shù)對應(yīng)的對數(shù)函數(shù),其凹凸性组哩、極值點(diǎn)和原函數(shù)是相同的等龙。
而且對數(shù)函數(shù)的求導(dǎo)會比原函數(shù)方便一點(diǎn),所以我們先取得對數(shù)似然函數(shù)伶贰。
4而咆、對數(shù)似然函數(shù)求導(dǎo):
上面的公式是基于假設(shè) [p: y=1] [1-p : y=0 ] 形成的。
如果 [p: y=1] [1-p : y=-1 ]時幕袱,對應(yīng)的似然函數(shù)和對數(shù)似然是什么?
5悠瞬、Logistic回歸θ參數(shù)的求解過程為(類似梯度下降法):
由于我們要求最大似然函數(shù)的隨機(jī)梯度们豌,需要找函數(shù)的極大值。
θnew = θold + α* ?L(θ) / ?θ
因?yàn)槭钦易畲笾登匙保员举|(zhì)上應(yīng)該稱為梯度上升法望迎。
目標(biāo)函數(shù) => 對數(shù)似然函數(shù) L(θ)的極大值
上述公式是Logistic回歸θ參數(shù)的求解 本質(zhì),需要重點(diǎn)理解凌外。
6辩尊、Logistic回歸的損失函數(shù)):
機(jī)器學(xué)習(xí)中都需要構(gòu)造一個損失函數(shù),來衡量系統(tǒng)好壞的函數(shù)康辑。損失函數(shù)越小摄欲,系統(tǒng)越優(yōu)秀。
但現(xiàn)在我們的目標(biāo)函數(shù)是一個越大越優(yōu)秀的函數(shù)疮薇,我們做一個什么操作才能使其成為Logistic回歸的損失函數(shù)呢胸墙?
顯然加上一個負(fù)號即可。