機(jī)器學(xué)習(xí)入門(mén)(13)--邏輯回歸(1)

邏輯回歸(Logistic Regression)是一種用于解決二分類(lèi)(0 or 1)問(wèn)題的機(jī)器學(xué)習(xí)方法章喉,用于估計(jì)某種事物的可能性。比如某用戶(hù)購(gòu)買(mǎi)某商品的可能性伴郁,某病人患有某種疾病的可能性耿战,以及某廣告被用戶(hù)點(diǎn)擊的可能性等。

其中焊傅,二元的分類(lèi)問(wèn)題是指判斷標(biāo)準(zhǔn)只有兩個(gè)值:0和1昆箕。標(biāo)記為0的類(lèi)叫做負(fù)類(lèi) (negative class)鸦列,標(biāo)記為1的類(lèi)也叫做正類(lèi) (positive class)。舉例來(lái)說(shuō)鹏倘, 0可能代表良性腫瘤薯嗤,1可能標(biāo)記一個(gè)惡性腫瘤。

問(wèn)題是:什么樣的算法可以進(jìn)行分類(lèi)纤泵?

我們那腫瘤分類(lèi)進(jìn)行說(shuō)明骆姐。對(duì)于一個(gè)原始數(shù)據(jù)訓(xùn)練集,我們將線(xiàn)性回歸用于這組數(shù)據(jù)捏题,嘗試用一條直線(xiàn)來(lái)擬合數(shù)據(jù)

線(xiàn)性模型可以預(yù)測(cè)連續(xù)值玻褪,而對(duì)于二元分類(lèi)問(wèn)題,我們可以假設(shè):1. 當(dāng)hθ大于等于0.5時(shí),預(yù)測(cè)y=1公荧;2. ?當(dāng)hθ小于0.5時(shí),預(yù)測(cè)y=0带射。

對(duì)于上圖所示的數(shù)據(jù),這樣的一個(gè)線(xiàn)性模型似乎能很好地完成分類(lèi)任務(wù)。假使我們又觀測(cè)到一個(gè)非常大尺寸的惡性腫瘤,也就是說(shuō)在很遠(yuǎn)的右邊那里將其作為實(shí)例加入到我們的訓(xùn)練集中來(lái),這將使得我們獲得一條新的直線(xiàn)循狰。

這時(shí),再使用0.5作為閥值來(lái)預(yù)測(cè)腫瘤是良性還是惡性便不合適了窟社。可以看出,線(xiàn)性回歸模型因?yàn)槠漕A(yù)測(cè)的值可以超越[0,1]的范圍,并不適合解決這樣的問(wèn)題绪钥。

因此:邏輯回歸模型的假設(shè)是:hθ(x)=g(θTX)我們引入一個(gè)新的模型,邏輯回歸,該模型的輸出變量范圍始終在0和1之間灿里。邏輯回歸模型的假設(shè)是:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?hθ(x)=g(θTX)

其中:

1. X代表特征向量

2. g代表邏輯函數(shù)(logistic function)是一個(gè)常用的邏輯函數(shù)為S形函數(shù)(Sigmoid function),公式為:

該函數(shù)的圖像為:

從上圖可以看到sigmoid函數(shù)是一個(gè)s形的曲線(xiàn),它的取值在[0, 1]之間程腹,在遠(yuǎn)離0的地方函數(shù)的值會(huì)很快接近0/1匣吊。這個(gè)性質(zhì)使我們能夠以概率的方式來(lái)解釋。

一個(gè)機(jī)器學(xué)習(xí)的模型寸潦,實(shí)際上是把決策函數(shù)限定在某一組條件下色鸳,這組限定條件就決定了模型的假設(shè)空間。當(dāng)然见转,我們還希望這組限定條件簡(jiǎn)單而合理缕碎。而邏輯回歸模型所做的假設(shè)是:

這里的 g(h) 是上邊提到的 sigmoid 函數(shù),相應(yīng)的決策函數(shù)為:

選擇0.5作為閾值是一個(gè)一般的做法池户,實(shí)際應(yīng)用時(shí)特定的情況可以選擇不同閾值咏雌,如果對(duì)正例的判別準(zhǔn)確性要求高,可以選擇閾值大一些校焦,對(duì)正例的召回要求高赊抖,則可以選擇閾值小一些。

總結(jié)下:hθ(x)的作用是,對(duì)于給定的輸入變量,根據(jù)選擇的參數(shù)計(jì)算輸出變量=1的可能性(estimatedprobablity)寨典,例如,如果對(duì)于給定的x,通過(guò)已經(jīng)確定的參數(shù)計(jì)算得出hθ(x)=0.7,則表示有百分之70的概率y為正向類(lèi),相應(yīng)地y為負(fù)向類(lèi)的幾率為1-0.7=0.3氛雪。

注意:這里用的是“可能性”,而非數(shù)學(xué)上的“概率”耸成,logisitc回歸的結(jié)果并非數(shù)學(xué)定義中的概率值报亩,不可以直接當(dāng)做概率值來(lái)用浴鸿。該結(jié)果往往用于和其他特征值加權(quán)求和,而非直接相乘弦追。

那么邏輯回歸與線(xiàn)性回歸是什么關(guān)系呢岳链?

邏輯回歸(Logistic Regression)與線(xiàn)性回歸(Linear Regression)都是一種廣義線(xiàn)性模型(generalized linear model)。邏輯回歸假設(shè)因變量 y 服從伯努利分布劲件,而線(xiàn)性回歸假設(shè)因變量 y 服從 高斯分布掸哑。因此與線(xiàn)性回歸有很多相同之處,去除Sigmoid映射函數(shù)的話(huà)零远,算法就是一個(gè)線(xiàn)性回歸苗分。可以說(shuō)牵辣,邏輯回歸是以線(xiàn)性回歸為理論支持的摔癣,但是邏輯回歸通過(guò)Sigmoid函數(shù)引入了非線(xiàn)性因素,因此可以輕松處理0/1分類(lèi)問(wèn)題纬向。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末择浊,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子罢猪,更是在濱河造成了極大的恐慌近她,老刑警劉巖叉瘩,帶你破解...
    沈念sama閱讀 211,948評(píng)論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件膳帕,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡薇缅,警方通過(guò)查閱死者的電腦和手機(jī)危彩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,371評(píng)論 3 385
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)泳桦,“玉大人汤徽,你說(shuō)我怎么就攤上這事【淖” “怎么了谒府?”我有些...
    開(kāi)封第一講書(shū)人閱讀 157,490評(píng)論 0 348
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)浮毯。 經(jīng)常有香客問(wèn)我完疫,道長(zhǎng),這世上最難降的妖魔是什么债蓝? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 56,521評(píng)論 1 284
  • 正文 為了忘掉前任壳鹤,我火速辦了婚禮,結(jié)果婚禮上饰迹,老公的妹妹穿的比我還像新娘芳誓。我一直安慰自己余舶,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,627評(píng)論 6 386
  • 文/花漫 我一把揭開(kāi)白布锹淌。 她就那樣靜靜地躺著匿值,像睡著了一般。 火紅的嫁衣襯著肌膚如雪葛圃。 梳的紋絲不亂的頭發(fā)上千扔,一...
    開(kāi)封第一講書(shū)人閱讀 49,842評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音库正,去河邊找鬼曲楚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛褥符,可吹牛的內(nèi)容都是我干的龙誊。 我是一名探鬼主播,決...
    沈念sama閱讀 38,997評(píng)論 3 408
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼喷楣,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼趟大!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起铣焊,我...
    開(kāi)封第一講書(shū)人閱讀 37,741評(píng)論 0 268
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤逊朽,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后曲伊,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體叽讳,經(jīng)...
    沈念sama閱讀 44,203評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,534評(píng)論 2 327
  • 正文 我和宋清朗相戀三年坟募,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了岛蚤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,673評(píng)論 1 341
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡懈糯,死狀恐怖涤妒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情赚哗,我是刑警寧澤她紫,帶...
    沈念sama閱讀 34,339評(píng)論 4 330
  • 正文 年R本政府宣布,位于F島的核電站屿储,受9級(jí)特大地震影響贿讹,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扩所,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,955評(píng)論 3 313
  • 文/蒙蒙 一围详、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦助赞、人聲如沸买羞。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,770評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)畜普。三九已至,卻和暖如春群叶,著一層夾襖步出監(jiān)牢的瞬間吃挑,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,000評(píng)論 1 266
  • 我被黑心中介騙來(lái)泰國(guó)打工街立, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留舶衬,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,394評(píng)論 2 360
  • 正文 我出身青樓赎离,卻偏偏與公主長(zhǎng)得像逛犹,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子梁剔,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,562評(píng)論 2 349

推薦閱讀更多精彩內(nèi)容