Logistic Regression(邏輯回歸)中的損失函數(shù)理解

問(wèn)題:線(xiàn)性回歸中朵诫,當(dāng)我們有m個(gè)樣本的時(shí)候猴抹,我們用的是損失函數(shù)是
J_{(\theta)} = \frac{1}{m}\sum_{i=1}^m\frac{1}{2}(h_{\theta}(x^{(i)}) - y^{(i)})^2
但是,到了邏輯回歸中恃轩,損失函數(shù)一下子變成
J_{(\theta)} = -\frac{1}{m}\sum_{i=1}^m[y^{(i)}log(h_{\theta}(x^{(i)})) + (1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]
那么结洼,邏輯回歸的損失函數(shù)為什么是這個(gè)呢?


本文目錄

1. 前置數(shù)學(xué)知識(shí):最大似然估計(jì)

1.1 似然函數(shù)

1.2 最大似然估計(jì)

2. 邏輯回歸損失函數(shù)理解

2.1 邏輯回歸前置知識(shí)

2.2 理解方式1(ML課程的講解方式)

2.3 理解方式2


1. 前置數(shù)學(xué)知識(shí):最大似然估計(jì)

1.1 似然函數(shù)

若總體X屬離散型叉跛,其分布律P\{X=x\} = p(x;\theta), \theta\in\Theta的形式已知松忍,\theta為待估參數(shù),\Theta\theta的可能取值范圍筷厘。設(shè)X_1, X_2, ..., X_n是來(lái)自X的樣本鸣峭,則X_1, X_2, ..., X_n的聯(lián)合概率分布為
\prod_{i=1}^np(x_i;\theta)
設(shè)x_1, x_2, ..., x_n是相應(yīng)于樣本X_1, X_2, ..., X_n的一個(gè)樣本值。則樣本X_1, X_2, ..., X_n取到觀察值x_1, x_2, ..., x_n的概率酥艳,也就是事件\{X_1=x_1, X_2=x_2, ..., X_n=x_n\}發(fā)生的概率為
L(\theta)=L(x_1, x_2, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) ,\quad \theta\in\Theta
L(\theta)稱(chēng)為樣本的似然函數(shù)摊溶,它是\theta的函數(shù)。(注意:這里x_1, x_2, ..., x_n是已知的樣本值充石,都是常數(shù))

1.2 最大似然估計(jì)

關(guān)于最大似然估計(jì)莫换,我們可以有以下的直觀想法:
現(xiàn)在已經(jīng)去到樣本值x_1, x_2, ..., x_n了,這表明取到這一樣本值的概率L(\theta)比較大,而取到其他樣本值概率比較小拉岁。由費(fèi)希爾(R.A.Fisher)引進(jìn)的最大似然估計(jì)坷剧,就是固定樣本觀察值x_1, x_2, ..., x_n,在\theta取值的可能范圍\Theta內(nèi)挑選使似然函數(shù)L(x_1, x_2, ..., x_n;\theta)達(dá)到最大的參數(shù)值\hat{\theta}使
L(x_1, x_2, ..., x_n;\hat{\theta})= \max_{\theta\in\Theta}L(x_1, x_2, ..., x_n;\theta)
這樣得到的\hat{\theta}與樣本值x_1, x_2, ..., x_n有關(guān)喊暖,常記為\hat{\theta}(x_1, x_2, ..., x_n)惫企,稱(chēng)為參數(shù)\theta最大似然估計(jì)值,相應(yīng)的統(tǒng)計(jì)量\hat{\theta}(X_1, X_2, ..., X_n)稱(chēng)為參數(shù)\theta的最大似然估計(jì)量陵叽。
確定最大似然估計(jì)量的問(wèn)題狞尔,就可以歸結(jié)為求最大值的問(wèn)題了。一般的求最大似然估計(jì)巩掺,都是轉(zhuǎn)化為對(duì)數(shù)形式的似然函數(shù)來(lái)進(jìn)行求解偏序。
似然函數(shù):
L(\theta)=L(x_1, x_2, ..., x_n;\theta)=\prod_{i=1}^np(x_i;\theta) ,\quad \theta\in\Theta
對(duì)數(shù)形式的似然函數(shù)(這里是自然對(duì)數(shù),底數(shù)為e)
logL(\theta)= \sum_{i=1}^nlog\left(p(x_i;\theta)\right) ,\quad \theta\in\Theta
簡(jiǎn)單總結(jié):
上面的數(shù)學(xué)知識(shí)說(shuō)的通俗一點(diǎn)锌半,就是通過(guò)樣本來(lái)預(yù)測(cè)總體的分布禽车,怎么來(lái)預(yù)測(cè)呢?
讓總體分布盡量與樣本的分布趨同刊殉,就是總體的分布與樣本分布具有最大的相似性殉摔,然后再來(lái)求取分布中的參數(shù)\theta


2. 邏輯回歸損失函數(shù)理解

2.1 邏輯回歸前置知識(shí)

回歸:輸出的是連續(xù)數(shù)據(jù)记焊,目的是找到最優(yōu)的擬合逸月。(例如:預(yù)測(cè)氣溫)
分類(lèi):輸出的是離散數(shù)據(jù),目的是找到?jīng)Q策邊界遍膜。(例如:預(yù)測(cè)硬幣正反)
邏輯回歸是用來(lái)解決分類(lèi)問(wèn)題的碗硬,這里有一個(gè)前提假設(shè),就是樣本服從0-1分布瓢颅,也就是伯努利分布n=1的情況恩尾。
0-1分布的分布律為:

X(隨機(jī)變量) 0 1
P(概率) 1-p p

下面介紹一下sigmoid函數(shù)如下:
y=\frac{1}{1+e^{(-x)}}

sigmoid函數(shù).png

這個(gè)函數(shù)的輸出結(jié)果是一種概率,介于0到1之間挽懦。

2.2 理解方式1(ML課程的講解方式)

邏輯回歸中sigmoid函數(shù)為h_{\theta}(x)=\frac{1}{1+e^{(-\theta^T x)}} (其中\theta^T x=\sum_{i=0}^{n}\theta_ix_i)
可以用sigmoid函數(shù)表示0-1中取1的概率翰意。所以我們的損失函數(shù)可以定義為
當(dāng)y=0時(shí),Cost(h_\theta(x),y)=-log(1-h_\theta(x))
當(dāng)y=1時(shí)信柿,Cost(h_\theta(x),y)=-log(h_\theta(x))
當(dāng)我們把損失函數(shù)與0-1分布的分布律對(duì)應(yīng)起來(lái)的時(shí)候冀偶,p=h_{\theta}(x),損失函數(shù)就是在0-1分布的基礎(chǔ)上取對(duì)數(shù)然后再取負(fù)數(shù)渔嚷。這也好理解进鸠,損失函數(shù)的要求就是預(yù)測(cè)結(jié)果與真實(shí)結(jié)果越相近,函數(shù)值越小形病,所以會(huì)在前面加上負(fù)號(hào)客年。當(dāng)y=0時(shí)霞幅,1-p的概率會(huì)比較大,在前面加上負(fù)號(hào)搀罢,Cost值就會(huì)很谢柔侥猩;當(dāng)y=1時(shí)榔至,p的概率會(huì)比較大,在前面加上負(fù)號(hào)欺劳,Cost值就會(huì)很小唧取。至于取對(duì)數(shù),就是跟最大似然函數(shù)有關(guān)系划提,取對(duì)數(shù)不影響原本函數(shù)的單調(diào)性枫弟,而且會(huì)放大概率之間的差異,更好的區(qū)分各個(gè)樣本的類(lèi)別鹏往。
把上面損失函數(shù)寫(xiě)成統(tǒng)一的形式:
J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]
好了淡诗,至此,我們得到了邏輯回歸的損失函數(shù)伊履。雖然大家都是這么講的韩容,但是,總是感覺(jué)沒(méi)有太懂為什么最后得到了這個(gè)損失函數(shù)唐瀑。如果想從數(shù)學(xué)的角度推導(dǎo)群凶,可以繼續(xù)往下看。

2.3 理解方式2

對(duì)于0-1分布的似然函數(shù)

0-1分布的分布律為
P\{X=k\}=p^{k}(1-p)^{1-k}, k=0,1 (0<p<1)
當(dāng)x_1, x_2, ..., x_n是來(lái)自于樣本X_1, X_2, ..., X_n的一個(gè)樣本值哄辣,X的分布律為
P\{X=x\}=p^{x}(1-p)^{1-x}, x=0,1 (0<p<1)
它的似然函數(shù)為
L(p) = \prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}
似然函數(shù)的對(duì)數(shù)形式為
logL(p) = (\sum_{i=1}^{n}{x_i})log\ p+ (\sum_{i=1}^{n}{(1-x_i)})log(1-p)

對(duì)于邏輯回歸的似然函數(shù)

邏輯回歸中sigmoid函數(shù)為h_{\theta}(x)=\frac{1}{1+e^{(-\theta^T x)}}请梢,可以用sigmoid函數(shù)表示0-1中取1的概率,在這里用于表示邏輯回歸中的概率力穗。邏輯回歸中的樣本值為((x^1, y^1), (x^2, y^2) ..., (x^m, y^m))毅弧,樣本中的x^i是用來(lái)求概率h_{\theta}(x)的,y^i是樣本的真實(shí)值当窗,也就是真實(shí)類(lèi)別够坐。在機(jī)器學(xué)習(xí)中,習(xí)慣稱(chēng)x^i為特征值超全,y^i為標(biāo)簽咆霜。
h_{\theta}(x)對(duì)應(yīng)于0-1分布中的概率py^i對(duì)應(yīng)于0-1分布中的x_i嘶朱,也就是樣本值蛾坯。這樣我們就把邏輯回歸和0-1分布對(duì)應(yīng)起來(lái)了。我們用邏輯回歸來(lái)作為分類(lèi)模型疏遏,需要用最大似然估計(jì)的方法來(lái)評(píng)判模型的好壞脉课。讓總體分布盡量與樣本的分布趨同救军,就是總體的分布與樣本分布具有最大的相似性,然后再來(lái)求取模型中的參數(shù)\theta倘零,這樣就可以得到比較符合最大似然估計(jì)的模型唱遭。這個(gè)模型其實(shí)就是h_{\theta}(x)
根據(jù)0-1分布的似然函數(shù)呈驶,我們可以寫(xiě)出邏輯回歸的似然函數(shù)
L(p) = \prod_{i=1}^{m}h_{\theta}(x^{(i)})^{y^{(i)}}(1-h_{\theta}(x^{(i)}))^{1-y^{(i)}}
對(duì)數(shù)形式為
logL(p) = \sum_{i=1}^{m}{y^{(i)}}log\ h_{\theta}(x^{(i)})+\sum_{i=1}^{m}(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))
邏輯回歸的損失函數(shù)為
J(\theta)=-\frac{1}{m}\sum_{i=1}^m[y^{(i)}logh_{\theta}(x^{(i)})+(1-y^{(i)})log(1-h_{\theta}(x^{(i)}))]
J(\theta) = -\frac{1}{m}logL(p)
損失函數(shù)跟對(duì)數(shù)形式的似然函數(shù)很像拷泽,只是在前面乘以-\frac{1}{m}。最大似然估計(jì)的方法要求logL(p)的最大值袖瞻,損失函數(shù)在其前面加上負(fù)號(hào)司致,就是求最小值,這個(gè)跟損失函數(shù)的特性剛好吻合聋迎。1/m是用來(lái)對(duì)m個(gè)樣本值的損失函數(shù)值取平均脂矫,不會(huì)影響函數(shù)功能。
因此霉晕,邏輯回歸的損失函數(shù)求最小值庭再,就是根據(jù)最大似然估計(jì)的方法來(lái)的。


參考資料:

  1. 盛驟, 謝式千等.《概率論與數(shù)理統(tǒng)計(jì)》(第四版). 高等教育出版社.
  2. 吳恩達(dá)機(jī)器學(xué)習(xí)視頻
    .
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末牺堰,一起剝皮案震驚了整個(gè)濱河市拄轻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌萌焰,老刑警劉巖哺眯,帶你破解...
    沈念sama閱讀 211,123評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異扒俯,居然都是意外死亡奶卓,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評(píng)論 2 384
  • 文/潘曉璐 我一進(jìn)店門(mén)撼玄,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)夺姑,“玉大人,你說(shuō)我怎么就攤上這事掌猛≌嫡悖” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 156,723評(píng)論 0 345
  • 文/不壞的土叔 我叫張陵荔茬,是天一觀的道長(zhǎng)废膘。 經(jīng)常有香客問(wèn)我,道長(zhǎng)慕蔚,這世上最難降的妖魔是什么丐黄? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,357評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮孔飒,結(jié)果婚禮上灌闺,老公的妹妹穿的比我還像新娘艰争。我一直安慰自己,他們只是感情好桂对,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,412評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布甩卓。 她就那樣靜靜地躺著,像睡著了一般蕉斜。 火紅的嫁衣襯著肌膚如雪逾柿。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,760評(píng)論 1 289
  • 那天蛛勉,我揣著相機(jī)與錄音鹿寻,去河邊找鬼。 笑死诽凌,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的坦敌。 我是一名探鬼主播侣诵,決...
    沈念sama閱讀 38,904評(píng)論 3 405
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼狱窘!你這毒婦竟也來(lái)了杜顺?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 37,672評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蘸炸,失蹤者是張志新(化名)和其女友劉穎躬络,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體搭儒,經(jīng)...
    沈念sama閱讀 44,118評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡穷当,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,456評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了淹禾。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片馁菜。...
    茶點(diǎn)故事閱讀 38,599評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖铃岔,靈堂內(nèi)的尸體忽然破棺而出汪疮,到底是詐尸還是另有隱情,我是刑警寧澤毁习,帶...
    沈念sama閱讀 34,264評(píng)論 4 328
  • 正文 年R本政府宣布智嚷,位于F島的核電站,受9級(jí)特大地震影響纺且,放射性物質(zhì)發(fā)生泄漏盏道。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,857評(píng)論 3 312
  • 文/蒙蒙 一隆檀、第九天 我趴在偏房一處隱蔽的房頂上張望摇天。 院中可真熱鬧粹湃,春花似錦、人聲如沸泉坐。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,731評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)腕让。三九已至孤钦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間纯丸,已是汗流浹背偏形。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,956評(píng)論 1 264
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留觉鼻,地道東北人俊扭。 一個(gè)月前我還...
    沈念sama閱讀 46,286評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像坠陈,于是被迫代替她去往敵國(guó)和親萨惑。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,465評(píng)論 2 348