機(jī)器學(xué)習(xí)筆記--邏輯回歸

如果感覺(jué)邏輯跳躍,請(qǐng)先閱讀機(jī)器學(xué)習(xí)筆記--線性回歸

1嘶是、先假設(shè)一個(gè)要解決的問(wèn)題

有一組數(shù)據(jù)集钙勃,包含腫瘤的大小和腫瘤類型(惡性/良性),要求根據(jù)這組數(shù)據(jù)集聂喇,輸入腫瘤大小辖源,輸出腫瘤類型和概率。


image.png
分析

將數(shù)據(jù)集可視化如上圖希太,小腫瘤基本上為良性克饶,大腫瘤為惡性,希望換一條線來(lái)根據(jù)tumor size來(lái)區(qū)分腫瘤類型誊辉,并且找到一個(gè)計(jì)算概率的方法矾湃。

2、尋找一個(gè)合適的假設(shè)函數(shù)

很明顯在直線x + θ = 0(x = 腫瘤大卸槌巍)左邊邀跃,腫瘤類型為良性,右邊為惡性蛙紫。即x+ θ < 0 時(shí)拍屑,腫瘤為良性,x+ θ > 0時(shí)惊来,腫瘤為惡性丽涩。(x+ θ = 0時(shí)良性或者惡性我們看心情定義)
剩下概率計(jì)算問(wèn)題了棺滞,我們希望曲線左邊的x越小惡性腫瘤概率越小裁蚁,反之曲線右邊x越大則腫瘤概率越大,并且直覺(jué)上腫瘤大小中腫瘤惡性概率并非線性關(guān)系(實(shí)際上自然界中的概率分布都不是線性的)继准。
腫瘤大小與惡性概率的函數(shù)曲線形狀大致如下:

image.png

那么將x + θ 套入概率函數(shù)枉证,尋找假設(shè)函數(shù)的問(wèn)題就解決了,就是這個(gè)思路移必,其實(shí)問(wèn)題不難室谚。
像這樣的分類問(wèn)題就是邏輯回歸,線性回歸解決的是假設(shè)函數(shù)對(duì)于數(shù)據(jù)集的擬合問(wèn)題,邏輯回歸解決分類概率問(wèn)題秒赤。
下面展開來(lái)說(shuō)猪瞬。

3、尋找更加通用的假設(shè)函數(shù)

實(shí)際上腫瘤是否為惡性還有和其他特性有關(guān)入篮,譬如臟器部位陈瘦、形狀等,如果腫瘤有N個(gè)特征潮售,分別是x1痊项、x2、x3...xn酥诽,那么這條直線可以使用更加通用的方式:θ0 + x1·θ1 + x2·θ2 + x3·θ3 + .... + xn·θn = 0
此時(shí)問(wèn)題就變成了尋找θ0·····θn的最優(yōu)解鞍泉,如果把θ0·····θn看做一個(gè)向量,x0····xn也看做一個(gè)向量(x0=1)肮帐,則θ0 + x1·θ1 + x2·θ2 + x3·θ3 + .... + xn·θn可以表示為θ(轉(zhuǎn)置)· x咖驮。
如果再把概率曲線定義為g(z),套入z得:

image.png

上面就是邏輯回歸的假設(shè)函數(shù)训枢。
再具體一些游沿,一般g(z)可以定義為
image.png

這個(gè)函數(shù)曲線的形狀符合我們的要求,并且輸出變量范圍始終在0和1之間:
image.png

并且它的導(dǎo)數(shù)很容易計(jì)算:g(z)的導(dǎo)數(shù) = g(z)·( 1-g(z) )
實(shí)際上它也成為sigmoid函數(shù)肮砾,也叫[Logistic函數(shù)]诀黍,優(yōu)點(diǎn)是平滑以求導(dǎo),使用很廣泛仗处。

此時(shí)假設(shè)函數(shù)可以更具體的表示為:
image.png

我們已經(jīng)找到了邏輯回歸通用假設(shè)函數(shù)眯勾,以終為始,目標(biāo)是尋找θ0·····θn的最優(yōu)解婆誓。和線性歸回一樣吃环,先找到損失函數(shù),在對(duì)損失函數(shù)使用梯度下降算法洋幻,老套路郁轻。

4、尋找邏輯回歸的損失函數(shù)

線性回歸的代價(jià)函數(shù)為:

image.png

對(duì)于線性回歸模型文留,我們定義的損失函數(shù)是所有模型誤差的平方和好唯。理論上來(lái)說(shuō),我們也可以對(duì)邏輯回歸模型沿用這個(gè)定義燥翅,但是問(wèn)題在于骑篙,當(dāng)我們將邏輯回歸的假設(shè)函數(shù)帶入到這樣定義了的損失函數(shù)中時(shí),我們得到的損失函數(shù)將是一個(gè)非凸函數(shù)(non-convexfunction)森书。
image.png

而我們希望損失函數(shù)是凸函數(shù)(convex)靶端,處處可導(dǎo)且只有一個(gè)極值點(diǎn):
image.png

我們重新定義邏輯回歸的損失函數(shù)為:
image.png

這里的y是二分類樣本中某一組特征對(duì)應(yīng)的具體結(jié)果谎势,譬如特征是abcd的腫瘤是惡性。
當(dāng)結(jié)果是1時(shí)杨名,損失函數(shù)的形狀為:
image.png

也就是說(shuō)假設(shè)函數(shù)為1時(shí)損失函數(shù)的結(jié)果為0脏榆,這時(shí)假設(shè)函數(shù)完美擬合這一組數(shù)據(jù);而假設(shè)函數(shù)為0時(shí)台谍,損失函數(shù)非常大姐霍,這就意味著假設(shè)函數(shù)背離了這一組數(shù)據(jù),將接受很大的懲罰典唇,這個(gè)懲罰有可能導(dǎo)致此時(shí)帶入計(jì)算的θ喪失競(jìng)爭(zhēng)最優(yōu)解的機(jī)會(huì)镊折。
上面的分段函數(shù)我們換一種寫法:
image.png

解釋:當(dāng)y(i)=1時(shí),只有前半部分介衔;當(dāng)y(i)=0時(shí)恨胚,則只有后半部分。

最后我們需要將所有數(shù)據(jù)樣本集合的損失函數(shù)結(jié)果相加:


image.png

image.png

最后的問(wèn)題就簡(jiǎn)化為求最小損失函數(shù)炎咖,同線性回歸套路一樣:


image.png

5赃泡、使用梯度下降求θ0·····θn的最優(yōu)解

這里的邏輯同線性回歸一樣,只不過(guò)損失函數(shù)不同:


image.png

對(duì)損失函數(shù)求θ偏導(dǎo):


image.png

找到梯度下降最快的方向乘盼,迭代θ:
image.png

極值點(diǎn)即為θ的最優(yōu)解升熊。

6、總結(jié)

同線性回歸一樣绸栅,邏輯回歸的假設(shè)函數(shù)為:


image.png

損失函數(shù)為:


image.png

使用梯度下降算法:
image.png

迭代θ找到樣本數(shù)據(jù)集合的最小損失函數(shù)级野,得到θ最優(yōu)解。

7粹胯、思考

Q:上面腫瘤的例子樣本數(shù)據(jù)分布很容易使用一條直線來(lái)劃定界限蓖柔,如果樣本數(shù)據(jù)這樣怎么辦:

image.png

A:把樣本正確分類的一條邊界,稱為決策界限(decision boundaries)风纠,決策邊界主要有線性決策邊界(linear decision boundaries)和非線性決策邊界(non-linear decision boundaries)况鸣,即上面兩個(gè)圖。注意:決策邊界是假設(shè)函數(shù)的屬性竹观,由參數(shù)決定镐捧,而不是由數(shù)據(jù)集的特征決定。
非線性決策邊界的情況我們可以使用高階多項(xiàng)式來(lái)表示臭增,譬如上圖決策邊界可以表示為一個(gè)圓:θ0 + θ1·x1·x1 + θ2·x2·x2 = 0懂酱。
高階多項(xiàng)式可以表達(dá)很奇怪的形狀,N階多項(xiàng)式只要N足夠大就可以表示的足夠精準(zhǔn)速址,但是過(guò)大的N也會(huì)帶來(lái)大計(jì)算量和過(guò)擬合的問(wèn)題玩焰。

Q:上述腫瘤良性/惡性是二分類問(wèn)題由驹,如果多分類問(wèn)題可以使用邏輯歸回嗎芍锚,有何差異昔园?
A:利用上述二分類的思路,多分類可以簡(jiǎn)化為多個(gè)二分類并炮。

image.png

image.png

如上圖默刚,使用一個(gè)訓(xùn)練集,將其分成 3 個(gè)二元分類問(wèn)題逃魄。我們先從用三角形代表的類別 1 開始荤西,實(shí)際上我們可以創(chuàng)建一個(gè),新的"偽"訓(xùn)練集伍俘,類
型 2 和類型 3 定為負(fù)類邪锌,類型 1 設(shè)定為正類,我們創(chuàng)建一個(gè)新的訓(xùn)練集癌瘾,如下圖所示的那樣觅丰,我們要擬合出一個(gè)合適的分類器。
最后妨退,在我們需要做預(yù)測(cè)時(shí)妇萄,我們將所有的分類機(jī)都運(yùn)行一遍,然后對(duì)每一個(gè)輸入變量咬荷,都選擇最高可能性的輸出變量冠句。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市幸乒,隨后出現(xiàn)的幾起案子懦底,更是在濱河造成了極大的恐慌,老刑警劉巖罕扎,帶你破解...
    沈念sama閱讀 222,627評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件基茵,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡壳影,警方通過(guò)查閱死者的電腦和手機(jī)拱层,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)宴咧,“玉大人根灯,你說(shuō)我怎么就攤上這事〔粽ぃ” “怎么了烙肺?”我有些...
    開封第一講書人閱讀 169,346評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)氧卧。 經(jīng)常有香客問(wèn)我桃笙,道長(zhǎng),這世上最難降的妖魔是什么沙绝? 我笑而不...
    開封第一講書人閱讀 60,097評(píng)論 1 300
  • 正文 為了忘掉前任搏明,我火速辦了婚禮鼠锈,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘星著。我一直安慰自己购笆,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,100評(píng)論 6 398
  • 文/花漫 我一把揭開白布虚循。 她就那樣靜靜地躺著同欠,像睡著了一般。 火紅的嫁衣襯著肌膚如雪横缔。 梳的紋絲不亂的頭發(fā)上铺遂,一...
    開封第一講書人閱讀 52,696評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音茎刚,去河邊找鬼娃循。 笑死,一個(gè)胖子當(dāng)著我的面吹牛斗蒋,可吹牛的內(nèi)容都是我干的捌斧。 我是一名探鬼主播,決...
    沈念sama閱讀 41,165評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼泉沾,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼捞蚂!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起跷究,我...
    開封第一講書人閱讀 40,108評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤姓迅,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后俊马,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體丁存,經(jīng)...
    沈念sama閱讀 46,646評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,709評(píng)論 3 342
  • 正文 我和宋清朗相戀三年柴我,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了解寝。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,861評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡艘儒,死狀恐怖聋伦,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情界睁,我是刑警寧澤觉增,帶...
    沈念sama閱讀 36,527評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站翻斟,受9級(jí)特大地震影響逾礁,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜访惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,196評(píng)論 3 336
  • 文/蒙蒙 一嘹履、第九天 我趴在偏房一處隱蔽的房頂上張望腻扇。 院中可真熱鬧,春花似錦植捎、人聲如沸衙解。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至舌剂,卻和暖如春济锄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背霍转。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工荐绝, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人避消。 一個(gè)月前我還...
    沈念sama閱讀 49,287評(píng)論 3 379
  • 正文 我出身青樓低滩,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親岩喷。 傳聞我的和親對(duì)象是個(gè)殘疾皇子恕沫,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,860評(píng)論 2 361