邏輯回歸(Logistic Regression)是一種用于解決二分類(lèi)(0 or 1)問(wèn)題的機(jī)器學(xué)習(xí)方法章喉,用于估計(jì)某種事物的可能性。比如某用戶(hù)購(gòu)買(mǎi)某商品的可能性伴郁,某病人患有某種疾病的可能性耿战,以及某廣告被用戶(hù)點(diǎn)擊的可能性等。
其中焊傅,二元的分類(lèi)問(wèn)題是指判斷標(biāo)準(zhǔn)只有兩個(gè)值:0和1昆箕。標(biāo)記為0的類(lèi)叫做負(fù)類(lèi) (negative class)鸦列,標(biāo)記為1的類(lèi)也叫做正類(lèi) (positive class)。舉例來(lái)說(shuō)鹏倘, 0可能代表良性腫瘤薯嗤,1可能標(biāo)記一個(gè)惡性腫瘤。
問(wèn)題是:什么樣的算法可以進(jìn)行分類(lèi)纤泵?
我們那腫瘤分類(lèi)進(jìn)行說(shuō)明骆姐。對(duì)于一個(gè)原始數(shù)據(jù)訓(xùn)練集,我們將線(xiàn)性回歸用于這組數(shù)據(jù)捏题,嘗試用一條直線(xiàn)來(lái)擬合數(shù)據(jù)
線(xiàn)性模型可以預(yù)測(cè)連續(xù)值玻褪,而對(duì)于二元分類(lèi)問(wèn)題,我們可以假設(shè):1. 當(dāng)hθ大于等于0.5時(shí),預(yù)測(cè)y=1公荧;2. ?當(dāng)hθ小于0.5時(shí),預(yù)測(cè)y=0带射。
對(duì)于上圖所示的數(shù)據(jù),這樣的一個(gè)線(xiàn)性模型似乎能很好地完成分類(lèi)任務(wù)。假使我們又觀測(cè)到一個(gè)非常大尺寸的惡性腫瘤,也就是說(shuō)在很遠(yuǎn)的右邊那里將其作為實(shí)例加入到我們的訓(xùn)練集中來(lái),這將使得我們獲得一條新的直線(xiàn)循狰。
這時(shí),再使用0.5作為閥值來(lái)預(yù)測(cè)腫瘤是良性還是惡性便不合適了窟社。可以看出,線(xiàn)性回歸模型因?yàn)槠漕A(yù)測(cè)的值可以超越[0,1]的范圍,并不適合解決這樣的問(wèn)題绪钥。
因此:邏輯回歸模型的假設(shè)是:hθ(x)=g(θTX)我們引入一個(gè)新的模型,邏輯回歸,該模型的輸出變量范圍始終在0和1之間灿里。邏輯回歸模型的假設(shè)是:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?hθ(x)=g(θTX)
其中:
1. X代表特征向量
2. g代表邏輯函數(shù)(logistic function)是一個(gè)常用的邏輯函數(shù)為S形函數(shù)(Sigmoid function),公式為:
該函數(shù)的圖像為:
從上圖可以看到sigmoid函數(shù)是一個(gè)s形的曲線(xiàn),它的取值在[0, 1]之間程腹,在遠(yuǎn)離0的地方函數(shù)的值會(huì)很快接近0/1匣吊。這個(gè)性質(zhì)使我們能夠以概率的方式來(lái)解釋。
一個(gè)機(jī)器學(xué)習(xí)的模型寸潦,實(shí)際上是把決策函數(shù)限定在某一組條件下色鸳,這組限定條件就決定了模型的假設(shè)空間。當(dāng)然见转,我們還希望這組限定條件簡(jiǎn)單而合理缕碎。而邏輯回歸模型所做的假設(shè)是:
這里的 g(h) 是上邊提到的 sigmoid 函數(shù),相應(yīng)的決策函數(shù)為:
選擇0.5作為閾值是一個(gè)一般的做法池户,實(shí)際應(yīng)用時(shí)特定的情況可以選擇不同閾值咏雌,如果對(duì)正例的判別準(zhǔn)確性要求高,可以選擇閾值大一些校焦,對(duì)正例的召回要求高赊抖,則可以選擇閾值小一些。
總結(jié)下:hθ(x)的作用是,對(duì)于給定的輸入變量,根據(jù)選擇的參數(shù)計(jì)算輸出變量=1的可能性(estimatedprobablity)寨典,例如,如果對(duì)于給定的x,通過(guò)已經(jīng)確定的參數(shù)計(jì)算得出hθ(x)=0.7,則表示有百分之70的概率y為正向類(lèi),相應(yīng)地y為負(fù)向類(lèi)的幾率為1-0.7=0.3氛雪。
注意:這里用的是“可能性”,而非數(shù)學(xué)上的“概率”耸成,logisitc回歸的結(jié)果并非數(shù)學(xué)定義中的概率值报亩,不可以直接當(dāng)做概率值來(lái)用浴鸿。該結(jié)果往往用于和其他特征值加權(quán)求和,而非直接相乘弦追。
那么邏輯回歸與線(xiàn)性回歸是什么關(guān)系呢岳链?
邏輯回歸(Logistic Regression)與線(xiàn)性回歸(Linear Regression)都是一種廣義線(xiàn)性模型(generalized linear model)。邏輯回歸假設(shè)因變量 y 服從伯努利分布劲件,而線(xiàn)性回歸假設(shè)因變量 y 服從 高斯分布掸哑。因此與線(xiàn)性回歸有很多相同之處,去除Sigmoid映射函數(shù)的話(huà)零远,算法就是一個(gè)線(xiàn)性回歸苗分。可以說(shuō)牵辣,邏輯回歸是以線(xiàn)性回歸為理論支持的摔癣,但是邏輯回歸通過(guò)Sigmoid函數(shù)引入了非線(xiàn)性因素,因此可以輕松處理0/1分類(lèi)問(wèn)題纬向。