機器學(xué)習(xí)02-從線性回歸到邏輯斯蒂回歸

之前一節(jié)霹琼,講了線性回歸的一些理解, 其實傳統(tǒng)的機器學(xué)習(xí)方法冤留,和線性回歸或多或少都有關(guān)系碧囊。

線性回歸有三個特點树灶, 線性纤怒,全局性, 數(shù)據(jù)未加工天通, 我們依次來看這個問題泊窘。

(1)線性方面

a.屬性線性,f(x) 和 x各個特征是線性關(guān)系像寒,例如f(x) = w1 * x1 + w2 *x2, 當(dāng)屬性線性不滿足的時候烘豹,就引入特征轉(zhuǎn)換了,例如多項式回歸模型诺祸。

b.全局線性携悯,f(x)只是一個線性組合,然后就直接輸出了結(jié)果筷笨,我們可以在線性方程后面加入一個非線性變換憔鬼,即引入一個非線性的激活函數(shù)龟劲,就可以得到新的模型,典型的有線性分類模型如感知機轴或,邏輯斯蒂回歸等

c.系數(shù)線性昌跌,f關(guān)于w也是線性的,系數(shù)本身不可能是多次的照雁,這個概念蚕愤,指的是對于模型而言,不同系數(shù)初始值下饺蚊,系數(shù)是會變化的萍诱,例如神經(jīng)網(wǎng)絡(luò),感知機污呼。

(2)全局性方面砂沛,最簡單的線性回歸,擬合出一條直線曙求,在整個特征空間上都是統(tǒng)一的碍庵。可以在不同區(qū)域引入不同的線性或非線性關(guān)系悟狱,打破全局性静浴,例如決策樹模型,線性樣條回歸

(3)原始數(shù)據(jù)方面挤渐,直接拿來做回歸苹享,沒有進行任何數(shù)據(jù)加工,例如維度高了可以進行PCA降維等浴麻。

其他的模型得问,其實就是在打破線性回歸這些特點中的一個或多個,這就構(gòu)建起了整個統(tǒng)計機器學(xué)習(xí)的架構(gòu)软免。


今天我們主要講線性分類宫纬,可以看到它是打破了線性回歸中的全局線性特點。

?線性分類可以分為兩大類膏萧,(1)硬分類 (2)軟分類漓骚。

簡單來說,硬分類就是直接給出label是0還是1的榛泛,軟分類給的是[0,1]的概率蝌蹂。

硬分類比如 線性判別分析(fisher判別分析),感知機等曹锨。

軟分類里可以繼續(xù)分為 生成式(例如樸素貝葉斯(離散變量)孤个, 高斯判別分析(連續(xù)變量))和 判別式(邏輯回歸),生成式和判別式的區(qū)別在于沛简,判別式是直接求概率的齐鲤,而生成式是求聯(lián)合概率的」杓保現(xiàn)在看可能有點暈,等碰到生成式的時候可能更好理解佳遂。


今天我們首先講邏輯斯蒂回歸营袜,雖然名字里是回歸,但它是一個分類模型丑罪, 是不滿足全局線性下的回歸演變而來荚板。簡單起見,我們先討論二分類問題吩屹。

首先介紹一下激活函數(shù) sigmoid函數(shù)?f(x) = \frac{1}{1+exp(-x)}


sigmoid函數(shù)

把激活函數(shù)和線性回歸結(jié)合起來跪另,?h_{\theta}(x) = f(\theta^Tx) = \frac{1}{1+exp(-\theta^Tx)}

首先來理解一下為什么sigmoid可以用來分類, h_{\theta}(x)其實就是label為1的概率煤搜,當(dāng)\theta^Tx的取值為0 的時候已烤, 值是0.5稽荧, 當(dāng)\theta^Tx越大娄涩, 值越接近1系忙,可以認(rèn)為label是1 的概率越大。

p(y=1) = h_\theta (x) = \frac{1}{1+exp(-\theta^Tx)} ,?p(y=0) = 1 - p(y=1) = \frac{exp(-\theta^Tx)}{1+exp(-\theta^Tx)}

回顧一下上一講的內(nèi)容迹卢,對于統(tǒng)計機器模型辽故,定義了模型了之后,第二步就是定義損失函數(shù)了腐碱。

我們從最大似然角度出發(fā)誊垢,?p(y) = \prod_{i=1}^n h_\theta(x_i)^{y_i} (1-h_\theta(x_i))^{1-y_i}

這個式子乍一看比較難理解, 其實在yi=1的時候症见,只留下前一項了喂走,當(dāng)yi=0的時候, 只剩下后一項了谋作。

對數(shù)似然函數(shù)?log(p(y)) = log(\prod_{i=1}^n h_\theta(x_i)^y_i * (1-h_\theta(x_i))^{1-y_i}) = \sum_{i=1}^n (y_ilogh_\theta(x_i) +(1-y_i)log(1-h_\theta(x_i)))

然后我們可以定義我們的損失函數(shù)了芋肠,最大化對數(shù)似然函數(shù),即最小化負(fù)的對數(shù)似然函數(shù)瓷们,

J(\theta) = -\frac{1}{n} \sum_{i=-1}^n y_ilogh_\theta (x_i) + (1-y_i)log(1-h_\theta (x_i)

上式其實是交叉熵业栅,這個概念之后會細(xì)講秒咐。這邊主要理解損失函數(shù)的由來就可以了谬晕。第三步就是通過算法求解最優(yōu)化問題了,即最小化損失函數(shù)携取,現(xiàn)在我們引出前一節(jié)沒講的梯度下降了攒钳。具體的梯度下降原理后續(xù)會新寫一篇來介紹各種優(yōu)化方法, 簡單理解雷滋,梯度是上升最快的方向不撑,沿著負(fù)梯度方向前進可以使目標(biāo)函數(shù)變小文兢,但是步伐如果過大,忽略的二階導(dǎo)項可能就不能忽略了焕檬。所以要定義一個學(xué)習(xí)率姆坚,避免步子太大。

我們首先講一下sigmoid函數(shù)的導(dǎo)數(shù)实愚,?f(x) = \frac{1}{1+e^{-x}}

f’(x) = -1(1+ e^{-x})^{-2}e^{-x}(-1) = (1+e^{-x})^{-2}e^{-x} = \frac{e^{-x}}{(1+e^{-x})^2}

=\frac{1+e^{-x}-1}{(1+e^{-x})^2}  = \frac{1}{1+e^{-x}} - \frac{1}{(1+e^{-x})^2}  =  \frac{1}{1+e^{-x}}(1- \frac{1}{1+e^{-x}}) = f(x)(1-f(x))

可以看出sigmoid的導(dǎo)數(shù)還是很漂亮的兼呵。

回到最小化損失函數(shù)上,我們對損失函數(shù)求梯度, 以參數(shù)\theta_j為例

\frac{\partial J(\theta)}{\partial\theta_j}  = -\frac{1}{n}\sum_{i=1}^n(y_i  \frac{1}{h_\theta(x_i)} - (1-y_i)\frac{1}{1-h_\theta(x_i)})\frac{\partial h_\theta(x_i)}{\partial \theta_j}

=  -\frac{1}{n}\sum_{i=1}^n(y_i  \frac{1}{h_\theta(x_i)} - (1-y_i)\frac{1}{1-h_\theta(x_i)})h_\theta (x_i)(1-h_\theta (x_i))x_i^j = -\frac{1}{n}\sum_{i=1}^n(y_i - h_\theta (x_i))x_i^j

= \frac{1}{n}\sum_{i=1}^n(h_\theta (x_i) - y_i)x_i^j

參數(shù)\theta的每一個維度都是一樣的求法腊敲,然后我們定義一個學(xué)習(xí)率击喂,沿著負(fù)梯度方向,就可以一步步收斂碰辅,求得模型的參數(shù)了懂昂。

LR模型暫時先講到這里,以后想到什么新的會繼續(xù)往上面添加没宾。

轉(zhuǎn)發(fā)請注明凌彬,謝謝。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末循衰,一起剝皮案震驚了整個濱河市饿序,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌羹蚣,老刑警劉巖原探,帶你破解...
    沈念sama閱讀 218,941評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異顽素,居然都是意外死亡咽弦,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評論 3 395
  • 文/潘曉璐 我一進店門胁出,熙熙樓的掌柜王于貴愁眉苦臉地迎上來型型,“玉大人,你說我怎么就攤上這事全蝶∧炙猓” “怎么了?”我有些...
    開封第一講書人閱讀 165,345評論 0 356
  • 文/不壞的土叔 我叫張陵抑淫,是天一觀的道長绷落。 經(jīng)常有香客問我,道長始苇,這世上最難降的妖魔是什么砌烁? 我笑而不...
    開封第一講書人閱讀 58,851評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮,結(jié)果婚禮上函喉,老公的妹妹穿的比我還像新娘避归。我一直安慰自己,他們只是感情好管呵,可當(dāng)我...
    茶點故事閱讀 67,868評論 6 392
  • 文/花漫 我一把揭開白布梳毙。 她就那樣靜靜地躺著,像睡著了一般捐下。 火紅的嫁衣襯著肌膚如雪顿天。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,688評論 1 305
  • 那天蔑担,我揣著相機與錄音牌废,去河邊找鬼。 笑死啤握,一個胖子當(dāng)著我的面吹牛鸟缕,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播排抬,決...
    沈念sama閱讀 40,414評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼懂从,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蹲蒲?” 一聲冷哼從身側(cè)響起番甩,我...
    開封第一講書人閱讀 39,319評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎届搁,沒想到半個月后缘薛,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,775評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡卡睦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年宴胧,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片表锻。...
    茶點故事閱讀 40,096評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡恕齐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出瞬逊,到底是詐尸還是另有隱情显歧,我是刑警寧澤,帶...
    沈念sama閱讀 35,789評論 5 346
  • 正文 年R本政府宣布确镊,位于F島的核電站士骤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏骚腥。R本人自食惡果不足惜敦间,卻給世界環(huán)境...
    茶點故事閱讀 41,437評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望束铭。 院中可真熱鬧廓块,春花似錦、人聲如沸契沫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽懈万。三九已至拴清,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間会通,已是汗流浹背口予。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留涕侈,地道東北人沪停。 一個月前我還...
    沈念sama閱讀 48,308評論 3 372
  • 正文 我出身青樓,卻偏偏與公主長得像裳涛,于是被迫代替她去往敵國和親木张。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,037評論 2 355