連載 | 機(jī)器學(xué)習(xí)基石 Lec10:Logistics Regression & 梯度下降

Tips:符號(hào)主要參照 Lec1缤底,部分參照其他Lec~


上一節(jié)介紹了線性回歸顾患,線性回歸是輸出一個(gè) score,可以用來判斷用戶的信用額度等……這一節(jié)將介紹另一種 回歸 算法:logistic regression 个唧。


Lec 10:Logistic Regression

上一節(jié)線性回歸的Hypothesis是 ?h = wx江解,錯(cuò)誤衡量是 squared error ,輸出是正實(shí)數(shù)集徙歼,最終的解可以通過求 pseudo-inverse 得到犁河,簡單高效。這一節(jié)要講的回歸是什么樣子的呢魄梯?

1桨螺、Logistic Hypothesis

問題描述:已有病人的一些數(shù)據(jù),例如年齡酿秸、血壓灭翔、體重等等,判斷病人是否患有心臟怖彼铡肝箱?哄褒!這是一個(gè)我們已經(jīng)很熟悉的二元分類問題。

根據(jù)前面章節(jié)可知煌张,理想的函數(shù) f 也是一種目標(biāo)分布读处,在這個(gè)問題中可以寫成:

為什么這樣寫?因?yàn)樵诙诸惱锩骊P(guān)注的是 0/1 err 唱矛,所以根據(jù)概率偏向判斷 0 罚舱、1 。

再看一個(gè)類似的問題:類似上一個(gè)問題绎谦,只是此時(shí)不是關(guān)注是否有心臟病管闷,而是關(guān)注得心臟病的幾率、患病的可能性是多少窃肠?包个!這時(shí)候,就不是binary classification了冤留,f 應(yīng)該寫成:

這種情景也稱為 soft binary classification 碧囊,因?yàn)榇藭r(shí)不是直接給出確定的 0 或 1,而是給出 是 0 的概率 或 是1的概率纤怒。這就是這節(jié)要探討的問題糯而!

要解決這個(gè)問題,理想中的數(shù)據(jù)是什么樣的泊窘?如圖熄驼,沒有noise的數(shù)據(jù)。當(dāng)然這是不可能得到的數(shù)據(jù)烘豹。

實(shí)際中能獲得的數(shù)據(jù)并沒有概率值瓜贾,是和做 binary classification 的時(shí)候是一樣的,y 都是 患心臟病 和 沒患心臟病携悯,但是最終想得到的 target function 不一樣祭芦。

這節(jié)要探討的問題就是:target function 是輸出為 [0,1] 回歸函數(shù),已知的data和之前的二元分類一樣憔鬼,應(yīng)該如何求呢龟劲?!

先設(shè)計(jì)一下Hypothesis:

已知輸入x = (x1逊彭,x2咸灿,…,xd)侮叮,前面都有計(jì)算score 避矢,這里同樣是這樣,先計(jì)算一個(gè)加權(quán)分?jǐn)?shù):

這樣做解釋的通:分?jǐn)?shù)高必然風(fēng)險(xiǎn)高,分?jǐn)?shù)低風(fēng)險(xiǎn)也低审胸,如何把score轉(zhuǎn)化到 [0,1] 之間呢亥宿?

這時(shí)就要用到 logistic function :θ(s),hypothesis 就是:h(x)= θ(wT x)砂沛,圖形為:

進(jìn)一步了解下logistic function烫扼,表達(dá)式為:

并且存在一些特殊取值,與預(yù)期一致:

則碍庵,logistic regression 的 h 為:

我們要想辦法用這個(gè)h(x)去逼近目標(biāo)函數(shù) f(x)= P(y|x)映企。

2、Likelihood & Cross-Entropy Error

前面提到過静浴,設(shè)計(jì)一個(gè)算法堰氓,要有Hypothesis,還要有一個(gè)衡量標(biāo)準(zhǔn)Ein苹享,然后去最優(yōu)化這個(gè)衡量標(biāo)準(zhǔn)双絮。那么LogReg的Ein是怎么樣的呢?得问!

先回憶并對(duì)比一下三個(gè)線性模型囤攀,共同的地方是都會(huì)計(jì)算 score:s = wT x (這三個(gè)圖很重要,之間的關(guān)系也很重要宫纬,后面還會(huì)多次提到)

LogReg的err定義有一種特殊的方法:Likelihood

先給出f的另一種表達(dá)方式:

圖1

現(xiàn)在看一組data:

考慮產(chǎn)生這組data的概率焚挠!(重點(diǎn))

對(duì)于 f , 產(chǎn)生各個(gè)data的概率是:

根據(jù)圖1的表達(dá)哪怔,用 f 替換 P :

由于我們希望 h 接近 f 宣蔚,所以這里用 h “假裝”(取代) f ,對(duì)于 h 认境,產(chǎn)生各個(gè)data的概率(可能性,likelihood)是:

現(xiàn)在想想挟鸠,如果 h 接近 f叉信,那么 h 產(chǎn)生這些data的 likelihood 也應(yīng)該接近 f 產(chǎn)生這些data的概率;并且 f 產(chǎn)生這些 data的幾率通常很大(恩艘希,這是當(dāng)然了硼身,data就是從f那來的,只不過會(huì)存在一些noise干擾)覆享。

所以佳遂!就得到一個(gè)特別的 error measure ,我們希望最大化 likelihood(h)撒顿!

給出一個(gè)關(guān)于 h(x)= θ(wT x)的性質(zhì):對(duì)稱性丑罪,即 1 - h(x)= h(-x),根據(jù) θ 函數(shù)圖形也可以看出,不解釋吩屹。

這時(shí)跪另, likelihood(h)可以寫成:

根據(jù)對(duì)稱性,可以進(jìn)一步簡化為:

P(x)用灰色是因?yàn)閷?duì)于所有 h 來說 P(x)一樣煤搜,所以 likelihood(h)正比于 h(yx)連乘:

所以現(xiàn)在就是要求解一個(gè)h使得likelihood(h)最大:

因?yàn)?h(x)= θ(wT x)免绿,所以可以寫成:

取 ln 將連乘換成連加:

取負(fù)將最大化變?yōu)樽钚』?/N 是常數(shù),不影響擦盾,為了后續(xù)計(jì)算方便:

進(jìn)一步變換表達(dá)式:

至此嘲驾,將 err(w,x迹卢,y)= ln(1 + exp(-y w x))叫做 Cross-Entropy Error距淫,取平均就得到了 Ein 。

3婶希、Minimize Ein(w)& 迭代優(yōu)化

得到了Ein(w)榕暇,下面就是得到一個(gè)w使得Ein最小了!

這個(gè)Ein(w)是 連續(xù)的(continuous)喻杈、可微分的differentiable彤枢、二次可微(twice-differentiable)、凸函數(shù)(convex)筒饰。

和LinReg思路一樣缴啡,找到“谷底”,讓Ein的梯度等于0.瓷们。所以首先业栅,求出Ein(w)的梯度。過程略谬晕,結(jié)果為:

讓梯度等于0碘裕。什么時(shí)候等于0?θ(-y w x)= 0的時(shí)候攒钳。如果θ為0帮孔,則需要(y w x)正無限大,也代表 y 和 (w x)同號(hào)…這就意味著data需要是線性可分的不撑。如果data不是線性可分的時(shí)候文兢,很難得出結(jié)果。Ein的梯度是非線性的等式焕檬,需要一種新的方法求解:迭代優(yōu)化姆坚。

求解思路可以從PLA中(參看Lec 2)獲得啟發(fā)实愚,PLA是一步一步的修正(LinReg是一步登天)兼呵。PLA算法可以用一個(gè)等式表示出來:

即遇到錯(cuò)誤時(shí)就去更新w兔辅,正確的話就是加上0。更新部分可以看成兩部分:η 和 v萍程。v是更新的方向(向量)幢妄,η是在更新的方向上走多遠(yuǎn)。(這個(gè)思路后面會(huì)常常用到)

類似PLA茫负,選擇(η蕉鸳,v)終止條件一輪一輪的優(yōu)化的方式叫做 iterative optimization 忍法。(重要3背ⅰ!)

4饿序、Gradient Descent

這一節(jié)將介紹在LogReg里面用到的一種 迭代優(yōu)化 方法:梯度下降勉失!(這個(gè)方法也很重要,不是只適用于這種情況)

進(jìn)行迭代優(yōu)化需要找出方向v原探,已知Ein是一個(gè)convex怕午、continuous的曲線穷娱,如圖:

要得到最小的Ein(w)飒硅,可以想象成有一個(gè)小球在半山腰胎挎,要往谷底走……這里固定v是單位長度的,一次走多大步全由η決定型型。

如果用貪心的方法(即最快的滾下去)段审,該向什么方向走呢?這里用 泰勒展開(Taylor expansion)將Ein(w)變成一個(gè)關(guān)于v的線性的式子:

當(dāng)η夠小的時(shí)候闹蒜,上式成立∷峦鳎現(xiàn)在問題就變?yōu)椋?/p>

現(xiàn)在就只剩下確定 v 。v和Ein兩個(gè)向量相乘绷落,怎么樣最欣焉痢?反向的時(shí)候最負(fù)嘱函。(可以這樣想:如果一條直線的k>0甘畅,說明直線向右上升,應(yīng)該向左走往弓,反之,向右走)蓄氧,所以:

這時(shí)候函似,對(duì)于small η :

這種方法就是 Gradient Descent,這是一個(gè)簡單通用的工具喉童!

確定了方向v撇寞,η如何確定?什么樣的η是好的?看圖

從圖上可以形象的看出蔑担,太大太小都不好牌废,要適中。從第三張圖可以看出啤握,坡度大的時(shí)候可以跨大步鸟缕,坡度小的時(shí)候跨小步,使用變化的η較好排抬。所以有一種方法懂从,就是取η與坡度大小正相關(guān)。梯度大小也可以反映出距離谷底的遠(yuǎn)近蹲蒲。

帶入w的更新式子番甩,可以約掉 || Ein(wt)|| ,注意:紫色的η和紅色的η不是同一個(gè)η届搁,新的更新式子為:

η 叫做 fixed learning rate 缘薛。η 小會(huì)學(xué)的慢,η大會(huì)學(xué)的快一點(diǎn)卡睦。

現(xiàn)在就可以給出完整的LogReg 算法了:

in practice宴胧,終止條件通常取 ≈ 0

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市么翰,隨后出現(xiàn)的幾起案子牺汤,更是在濱河造成了極大的恐慌,老刑警劉巖浩嫌,帶你破解...
    沈念sama閱讀 218,451評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件檐迟,死亡現(xiàn)場離奇詭異,居然都是意外死亡码耐,警方通過查閱死者的電腦和手機(jī)追迟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,172評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來骚腥,“玉大人敦间,你說我怎么就攤上這事∈” “怎么了廓块?”我有些...
    開封第一講書人閱讀 164,782評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長契沫。 經(jīng)常有香客問我带猴,道長,這世上最難降的妖魔是什么懈万? 我笑而不...
    開封第一講書人閱讀 58,709評(píng)論 1 294
  • 正文 為了忘掉前任拴清,我火速辦了婚禮靶病,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘口予。我一直安慰自己娄周,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,733評(píng)論 6 392
  • 文/花漫 我一把揭開白布沪停。 她就那樣靜靜地躺著煤辨,像睡著了一般。 火紅的嫁衣襯著肌膚如雪牙甫。 梳的紋絲不亂的頭發(fā)上掷酗,一...
    開封第一講書人閱讀 51,578評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音窟哺,去河邊找鬼泻轰。 笑死,一個(gè)胖子當(dāng)著我的面吹牛且轨,可吹牛的內(nèi)容都是我干的浮声。 我是一名探鬼主播,決...
    沈念sama閱讀 40,320評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼旋奢,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼泳挥!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起至朗,我...
    開封第一講書人閱讀 39,241評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤屉符,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后锹引,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體矗钟,經(jīng)...
    沈念sama閱讀 45,686評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,878評(píng)論 3 336
  • 正文 我和宋清朗相戀三年嫌变,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吨艇。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,992評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡腾啥,死狀恐怖东涡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情倘待,我是刑警寧澤疮跑,帶...
    沈念sama閱讀 35,715評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站凸舵,受9級(jí)特大地震影響祸挪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜贞间,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,336評(píng)論 3 330
  • 文/蒙蒙 一贿条、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧增热,春花似錦整以、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,912評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至摄咆,卻和暖如春凡蚜,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背吭从。 一陣腳步聲響...
    開封第一講書人閱讀 33,040評(píng)論 1 270
  • 我被黑心中介騙來泰國打工朝蜘, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人涩金。 一個(gè)月前我還...
    沈念sama閱讀 48,173評(píng)論 3 370
  • 正文 我出身青樓谱醇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親步做。 傳聞我的和親對(duì)象是個(gè)殘疾皇子副渴,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,947評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容