Logistic Regression
在線性回歸中菇存,我們尋找的連續(xù)型隨機(jī)變量和的函數(shù)關(guān)系式為:夸研,其中為待估參數(shù)(包含截距項(xiàng),即依鸥,)亥至,為隨機(jī)誤差。那么贱迟,如果是離散型隨機(jī)變量姐扮,例如服從Bernoulli分布、多項(xiàng)分布等衣吠,又應(yīng)該怎么樣來(lái)描述和的關(guān)系呢茶敏?
下面我們只討論一般的Logistic Regression,即缚俏。直觀的想法是假設(shè)下面關(guān)系成立:
其中惊搏。然而,這樣就會(huì)出現(xiàn)一個(gè)問(wèn)題忧换,與應(yīng)該是在范圍內(nèi)恬惯。因此,我們可以考慮做以下修正包雀,將其映射到范圍內(nèi):
即先取指數(shù)宿崭,映射到非負(fù)區(qū)間,再做歸一化才写。對(duì)上式再做簡(jiǎn)單化簡(jiǎn)葡兑,就可以得到Logistics Regression的常見(jiàn)形式:
因此,上述變換等價(jià)于對(duì)做了sigmoid變換赞草,對(duì)應(yīng)的sigmoid函數(shù)為讹堤;在多分類的情形下,即為softmax變換厨疙;在其他情形下洲守,還有其他對(duì)應(yīng)的函數(shù),感興趣的讀者可以參考以下Generalized Model的Mean Function沾凄。
注1:這里我們只是給出了一個(gè)容易理解的方式梗醇,為什么這個(gè)映射函數(shù)恰好是而不是其他函數(shù)?其實(shí)是可以從凸優(yōu)化問(wèn)題中利用KKT條件求解出的撒蟀,詳見(jiàn)論文The equivalence of logistic regression and maximum entropy models叙谨。
的極大似然估計(jì)
在給定樣本的情況下,首先我們需要寫出似然函數(shù)保屯。由于手负,因此的分布函數(shù)為涤垫。似然函數(shù)為
取對(duì)數(shù)之后,得到
注意到我們?cè)谇耙还?jié)已經(jīng)假定了Logistic模型竟终,即蝠猬,為了保持形式的簡(jiǎn)潔,在上式中仍用代替统捶。注意到
對(duì)log似然函數(shù)求偏導(dǎo)榆芦,并令其為0:
上述方程沒(méi)有顯式解,一般只能用牛頓迭代法求最大似然估計(jì)的數(shù)值解瘾境。
Logistic Loss
我們重新化簡(jiǎn)一下對(duì)數(shù)似然函數(shù)歧杏,
因此,我們有
注2:在實(shí)際計(jì)算中迷守,通常還要除以樣本數(shù)犬绒,控制梯度大小,因?yàn)橛?jì)算的時(shí)候是根據(jù)gradient-based算法兑凿。
注3:我們討論的是的情況凯力,在時(shí),Logistic Loss有不同的形式(詳見(jiàn)Which loss function is correct for logistic regression?)礼华,
而后者的標(biāo)簽與Adaboost推導(dǎo)時(shí)默認(rèn)的標(biāo)簽相同咐鹤,Logistic Loss與Adaboost的Exponential Loss也有一定相似性,在底數(shù)為的情況下圣絮,祈惶,Logistic Loss的圖像在Exponential Loss下方,甚至還可以將Adaboost修改為優(yōu)化Logistic Loss(詳見(jiàn)Logistic Regression)扮匠。