問(wèn)題:線(xiàn)性回歸中朵诫,當(dāng)我們有m個(gè)樣本的時(shí)候猴抹,我們用的是損失函數(shù)是
但是,到了邏輯回歸中恃轩,損失函數(shù)一下子變成
那么结洼,邏輯回歸的損失函數(shù)為什么是這個(gè)呢?
本文目錄
1. 前置數(shù)學(xué)知識(shí):最大似然估計(jì)
1.1 似然函數(shù)
1.2 最大似然估計(jì)
2. 邏輯回歸損失函數(shù)理解
2.1 邏輯回歸前置知識(shí)
2.2 理解方式1(ML課程的講解方式)
2.3 理解方式2
1. 前置數(shù)學(xué)知識(shí):最大似然估計(jì)
1.1 似然函數(shù)
若總體屬離散型叉跛,其分布律, 的形式已知松忍,為待估參數(shù),是的可能取值范圍筷厘。設(shè)是來(lái)自的樣本鸣峭,則的聯(lián)合概率分布為
設(shè)是相應(yīng)于樣本的一個(gè)樣本值。則樣本取到觀察值的概率酥艳,也就是事件發(fā)生的概率為
稱(chēng)為樣本的似然函數(shù)摊溶,它是的函數(shù)。(注意:這里是已知的樣本值充石,都是常數(shù))
1.2 最大似然估計(jì)
關(guān)于最大似然估計(jì)莫换,我們可以有以下的直觀想法:
現(xiàn)在已經(jīng)去到樣本值了,這表明取到這一樣本值的概率比較大,而取到其他樣本值概率比較小拉岁。由費(fèi)希爾(R.A.Fisher)引進(jìn)的最大似然估計(jì)坷剧,就是固定樣本觀察值,在取值的可能范圍內(nèi)挑選使似然函數(shù)達(dá)到最大的參數(shù)值使
這樣得到的與樣本值有關(guān)喊暖,常記為惫企,稱(chēng)為參數(shù)的最大似然估計(jì)值,相應(yīng)的統(tǒng)計(jì)量稱(chēng)為參數(shù)的最大似然估計(jì)量陵叽。
確定最大似然估計(jì)量的問(wèn)題狞尔,就可以歸結(jié)為求最大值的問(wèn)題了。一般的求最大似然估計(jì)巩掺,都是轉(zhuǎn)化為對(duì)數(shù)形式的似然函數(shù)來(lái)進(jìn)行求解偏序。
似然函數(shù):
對(duì)數(shù)形式的似然函數(shù)(這里是自然對(duì)數(shù),底數(shù)為e)
簡(jiǎn)單總結(jié):
上面的數(shù)學(xué)知識(shí)說(shuō)的通俗一點(diǎn)锌半,就是通過(guò)樣本來(lái)預(yù)測(cè)總體的分布禽车,怎么來(lái)預(yù)測(cè)呢?
讓總體分布盡量與樣本的分布趨同刊殉,就是總體的分布與樣本分布具有最大的相似性殉摔,然后再來(lái)求取分布中的參數(shù)。
2. 邏輯回歸損失函數(shù)理解
2.1 邏輯回歸前置知識(shí)
回歸:輸出的是連續(xù)數(shù)據(jù)记焊,目的是找到最優(yōu)的擬合逸月。(例如:預(yù)測(cè)氣溫)
分類(lèi):輸出的是離散數(shù)據(jù),目的是找到?jīng)Q策邊界遍膜。(例如:預(yù)測(cè)硬幣正反)
邏輯回歸是用來(lái)解決分類(lèi)問(wèn)題的碗硬,這里有一個(gè)前提假設(shè),就是樣本服從0-1分布瓢颅,也就是伯努利分布n=1的情況恩尾。
0-1分布的分布律為:
X(隨機(jī)變量) | 0 | 1 |
---|---|---|
P(概率) | 1-p | p |
下面介紹一下sigmoid函數(shù)如下:
這個(gè)函數(shù)的輸出結(jié)果是一種概率,介于0到1之間挽懦。
2.2 理解方式1(ML課程的講解方式)
邏輯回歸中sigmoid函數(shù)為 (其中)
可以用sigmoid函數(shù)表示0-1中取1的概率翰意。所以我們的損失函數(shù)可以定義為
當(dāng)我們把損失函數(shù)與0-1分布的分布律對(duì)應(yīng)起來(lái)的時(shí)候冀偶,,損失函數(shù)就是在0-1分布的基礎(chǔ)上取對(duì)數(shù)然后再取負(fù)數(shù)渔嚷。這也好理解进鸠,損失函數(shù)的要求就是預(yù)測(cè)結(jié)果與真實(shí)結(jié)果越相近,函數(shù)值越小形病,所以會(huì)在前面加上負(fù)號(hào)客年。當(dāng)y=0時(shí)霞幅,1-p的概率會(huì)比較大,在前面加上負(fù)號(hào)搀罢,Cost值就會(huì)很谢柔侥猩;當(dāng)y=1時(shí)榔至,p的概率會(huì)比較大,在前面加上負(fù)號(hào)欺劳,Cost值就會(huì)很小唧取。至于取對(duì)數(shù),就是跟最大似然函數(shù)有關(guān)系划提,取對(duì)數(shù)不影響原本函數(shù)的單調(diào)性枫弟,而且會(huì)放大概率之間的差異,更好的區(qū)分各個(gè)樣本的類(lèi)別鹏往。
把上面損失函數(shù)寫(xiě)成統(tǒng)一的形式:
好了淡诗,至此,我們得到了邏輯回歸的損失函數(shù)伊履。雖然大家都是這么講的韩容,但是,總是感覺(jué)沒(méi)有太懂為什么最后得到了這個(gè)損失函數(shù)唐瀑。如果想從數(shù)學(xué)的角度推導(dǎo)群凶,可以繼續(xù)往下看。
2.3 理解方式2
對(duì)于0-1分布的似然函數(shù)
0-1分布的分布律為
當(dāng)是來(lái)自于樣本的一個(gè)樣本值哄辣,X的分布律為
它的似然函數(shù)為
似然函數(shù)的對(duì)數(shù)形式為
對(duì)于邏輯回歸的似然函數(shù)
邏輯回歸中sigmoid函數(shù)為请梢,可以用sigmoid函數(shù)表示0-1中取1的概率,在這里用于表示邏輯回歸中的概率力穗。邏輯回歸中的樣本值為毅弧,樣本中的是用來(lái)求概率的,是樣本的真實(shí)值当窗,也就是真實(shí)類(lèi)別够坐。在機(jī)器學(xué)習(xí)中,習(xí)慣稱(chēng)為特征值超全,為標(biāo)簽咆霜。
對(duì)應(yīng)于0-1分布中的概率,對(duì)應(yīng)于0-1分布中的嘶朱,也就是樣本值蛾坯。這樣我們就把邏輯回歸和0-1分布對(duì)應(yīng)起來(lái)了。我們用邏輯回歸來(lái)作為分類(lèi)模型疏遏,需要用最大似然估計(jì)的方法來(lái)評(píng)判模型的好壞脉课。讓總體分布盡量與樣本的分布趨同救军,就是總體的分布與樣本分布具有最大的相似性,然后再來(lái)求取模型中的參數(shù)倘零,這樣就可以得到比較符合最大似然估計(jì)的模型唱遭。這個(gè)模型其實(shí)就是。
根據(jù)0-1分布的似然函數(shù)呈驶,我們可以寫(xiě)出邏輯回歸的似然函數(shù)
對(duì)數(shù)形式為
邏輯回歸的損失函數(shù)為
損失函數(shù)跟對(duì)數(shù)形式的似然函數(shù)很像拷泽,只是在前面乘以。最大似然估計(jì)的方法要求的最大值袖瞻,損失函數(shù)在其前面加上負(fù)號(hào)司致,就是求最小值,這個(gè)跟損失函數(shù)的特性剛好吻合聋迎。1/m是用來(lái)對(duì)m個(gè)樣本值的損失函數(shù)值取平均脂矫,不會(huì)影響函數(shù)功能。
因此霉晕,邏輯回歸的損失函數(shù)求最小值庭再,就是根據(jù)最大似然估計(jì)的方法來(lái)的。
參考資料:
- 盛驟, 謝式千等.《概率論與數(shù)理統(tǒng)計(jì)》(第四版). 高等教育出版社.
-
吳恩達(dá)機(jī)器學(xué)習(xí)視頻
.