logistic回歸又稱logistic回歸分析,是一種廣義的線性回歸分析模型尘喝,常用于數(shù)據(jù)挖掘,疾病自動(dòng)診斷斋陪,經(jīng)濟(jì)預(yù)測(cè)等領(lǐng)域朽褪。
自變量既可以是連續(xù)的,也可以是分類的无虚。
1.理論推導(dǎo)
2.怎么使用邏輯回歸進(jìn)行多分類:
我們已經(jīng)知道缔赠,普通的logistic回歸只能針對(duì)二分類(Binary Classification)問題,要想實(shí)現(xiàn)多個(gè)類別的分類骑科,我們必須要改進(jìn)logistic回歸,讓其適應(yīng)多分類問題构拳。
關(guān)于這種改進(jìn)咆爽,有兩種方式可以做到。
(1)第一種方式是直接根據(jù)每個(gè)類別置森,都建立一個(gè)二分類器斗埂,帶有這個(gè)類別的樣本標(biāo)記為1,帶有其他類別的樣本標(biāo)記為0凫海。假如我們有k個(gè)類別呛凶,最后我們就得到了k個(gè)針對(duì)不同標(biāo)記的普通的logistic二分類器。(本質(zhì)上就是ovr的做法)
(2)第二種方式是修改logistic回歸的損失函數(shù)行贪,讓其適應(yīng)多分類問題漾稀。這個(gè)損失函數(shù)不再籠統(tǒng)地只考慮二分類非1就0的損失,而是具體考慮每個(gè)樣本標(biāo)記的損失建瘫。這種方法叫做softmax回歸崭捍,即logistic回歸的多分類版本。
ovr
橄浓,其中hc 表示一個(gè)二分類模型粒梦,其判斷樣本 x屬于第c 類的概率值。
對(duì)于 hc 的訓(xùn)練荸实,我們挑選出帶有標(biāo)記為 c的樣本標(biāo)記為1匀们,將剩下的不帶標(biāo)記 c
的樣本標(biāo)記為0。針對(duì)每個(gè)分類器准给,都按上述步驟構(gòu)造訓(xùn)練集進(jìn)行訓(xùn)練昼蛀。
針對(duì)每一個(gè)測(cè)試樣本宴猾,我們需要找到這k個(gè)分類函數(shù)輸出值最大的那一個(gè),即為測(cè)試樣本的標(biāo)記
softmax
該模型將邏輯回歸推廣到分類問題叼旋,其中類標(biāo)簽y可以采用兩個(gè)以上的可能值仇哆。這對(duì)于諸如MNIST數(shù)字分類之類的問題將是有用的,其中目標(biāo)是區(qū)分10個(gè)不同的數(shù)字夫植。Softmax回歸是一種監(jiān)督學(xué)習(xí)算法讹剔,但我們稍后會(huì)將其與我們的深度學(xué)習(xí)/無監(jiān)督特征學(xué)習(xí)方法結(jié)合使用。
在softmax回歸設(shè)置中详民,我們對(duì)多類分類感興趣(而不是僅對(duì)二元分類)延欠,所以y
可以取k
個(gè)不同的取值。因此沈跨,在我們的訓(xùn)練集
給定測(cè)試輸入x,我們希望我們的模型估計(jì)每個(gè)類別的概率饿凛。因此狞玛,我們的模型將輸出k維向量(其元素總和為1),給出我們的k個(gè)類別的估計(jì)概率涧窒。具體地說心肪,我們的假設(shè)采用以下形式:
是歸一化項(xiàng)硬鞍。
為方便起見,我們還會(huì)向量法來表示模型的所有參數(shù)戴已。當(dāng)你實(shí)現(xiàn)softmax回歸時(shí)固该,將θ表示為通過堆疊 [圖片上傳失敗...(image-3da094-1584342852734)]
成行獲得的k-by(n + 1)矩陣通常很方便,這樣
損失函數(shù)
求導(dǎo)后糖儡,可得
更新參數(shù)
ovr vs. softmax
假設(shè)您正在處理音樂分類應(yīng)用程序蹬音,并且您正在嘗試識(shí)別k種類型的音樂。您應(yīng)該使用softmax分類器休玩,還是應(yīng)該使用邏輯回歸構(gòu)建k個(gè)單獨(dú)的二元分類器著淆?這取決于這四個(gè)類是否相互排斥。例如拴疤,如果您的四個(gè)類是經(jīng)典永部,鄉(xiāng)村,搖滾和爵士樂呐矾,那么假設(shè)您的每個(gè)訓(xùn)練樣例都標(biāo)有這四個(gè)類別標(biāo)簽中的一個(gè)苔埋,那么您應(yīng)該構(gòu)建一個(gè)k = 4的softmax分類器。(如果有'還有一些不屬于上述四個(gè)類的例子蜒犯,那么你可以在softmax回歸中設(shè)置k = 5组橄,并且還有第五個(gè)荞膘,“以上都不是”類。)但是玉工,如果你的類別是has_vocals羽资,舞蹈,配樂遵班,流行音樂屠升,那么這些課程并不相互排斥;例如,可以有一段來自音軌的流行音樂狭郑,另外還有人聲腹暖。在這種情況下,構(gòu)建4個(gè)二元邏輯回歸分類器更合適翰萨。這樣脏答,對(duì)于每個(gè)新的音樂作品,您的算法可以單獨(dú)決定它是否屬于四個(gè)類別中的每一個(gè)∧豆恚現(xiàn)在殖告,考慮一個(gè)計(jì)算機(jī)視覺示例,您嘗試將圖像分為三個(gè)不同的類辛孵。(i)假設(shè)您的課程是indoor_scene丛肮,outdoor_urban_scene和outdoor_wilderness_scene赡磅。你會(huì)使用sofmax回歸還是三個(gè)邏輯回歸分類器魄缚?(ii)現(xiàn)在假設(shè)你的課程是indoor_scene,black_and_white_image和image_has_people焚廊。您會(huì)使用softmax回歸或多重邏輯回歸分類器嗎冶匹?在第一種情況下,類是互斥的咆瘟,因此softmax回歸分類器是合適的嚼隘。在第二種情況下,構(gòu)建三個(gè)單獨(dú)的邏輯回歸分類器更為合適袒餐。
總結(jié)就是飞蛹,如果類別之間是互斥的,那么用softmax會(huì)比較合適灸眼,如果類別之間不是互斥的卧檐,用ovr比較合適。
注:源自:邏輯回歸(百度百科)
多分類部分來源于:https://zhuanlan.zhihu.com/p/45230536
Softmax函數(shù)詳解與推導(dǎo)
原理推導(dǎo)參考:周志華的《機(jī)器學(xué)習(xí)》