一、算法介紹
????????邏輯回歸是一種與線性回歸非常類(lèi)似的算法髓抑,但是咙崎,從本質(zhì)上講,線型回歸處理的問(wèn)題類(lèi)型與邏輯回歸不一致吨拍。線性回歸處理的是數(shù)值問(wèn)題褪猛,也就是最后預(yù)測(cè)出的結(jié)果是數(shù)字,例如房?jī)r(jià)羹饰。而邏輯回歸屬于分類(lèi)算法伊滋,也就是說(shuō),邏輯回歸預(yù)測(cè)結(jié)果是離散的分類(lèi)队秩,例如判斷這封郵件是否是垃圾郵件笑旺,以及用戶(hù)是否會(huì)點(diǎn)擊此廣告等等。所以邏輯回歸是一種經(jīng)典的二分類(lèi)算法馍资。
????????實(shí)現(xiàn)方面的話筒主,邏輯回歸只是對(duì)對(duì)線性回歸的計(jì)算結(jié)果加上了一個(gè)Sigmoid函數(shù),將數(shù)值結(jié)果轉(zhuǎn)化為了0到1之間的概率(Sigmoid函數(shù)的圖像一般來(lái)說(shuō)并不直觀鸟蟹,你只需要理解對(duì)數(shù)值越大乌妙,函數(shù)越逼近1,數(shù)值越小建钥,函數(shù)越逼近0)藤韵,接著我們根據(jù)這個(gè)概率可以做預(yù)測(cè),例如概率大于0.5熊经,則這封郵件就是垃圾郵件泽艘,或者腫瘤是否是惡性的等等。從直觀上來(lái)說(shuō)镐依,邏輯回歸是畫(huà)出了一條分類(lèi)線悉盆,見(jiàn)下圖。
????????假設(shè)我們有一組腫瘤患者的數(shù)據(jù)馋吗,這些患者的腫瘤中有些是良性的(圖中的藍(lán)色點(diǎn))焕盟,有些是惡性的(圖中的紅色點(diǎn))。這里腫瘤的紅藍(lán)色可以被稱(chēng)作數(shù)據(jù)的“標(biāo)簽”。同時(shí)每個(gè)數(shù)據(jù)包括兩個(gè)“特征”:患者的年齡與腫瘤的大小脚翘。我們將這兩個(gè)特征與標(biāo)簽映射到這個(gè)二維空間上灼卢,形成了我上圖的數(shù)據(jù)。
????????當(dāng)我有一個(gè)綠色的點(diǎn)時(shí)来农,我該判斷這個(gè)腫瘤是惡性的還是良性的呢鞋真?根據(jù)紅藍(lán)點(diǎn)我們訓(xùn)練出了一個(gè)邏輯回歸模型,也就是圖中的分類(lèi)線沃于。這時(shí)涩咖,根據(jù)綠點(diǎn)出現(xiàn)在分類(lèi)線的左側(cè),因此我們判斷它的標(biāo)簽應(yīng)該是紅色繁莹,也就是說(shuō)屬于惡性腫瘤檩互。
????????邏輯回歸算法劃出的分類(lèi)線基本都是線性的(也有劃出非線性分類(lèi)線的邏輯回歸,不過(guò)那樣的模型在處理數(shù)據(jù)量較大的時(shí)候效率會(huì)很低)咨演,這意味著當(dāng)兩類(lèi)之間的界線不是線性時(shí)闸昨,邏輯回歸的表達(dá)能力就不足。