機(jī)器學(xué)習(xí)筆記1_邏輯回歸

@[toc]

1 Logistic Regression

Logistic Regression 邏輯回歸葱峡，簡(jiǎn)稱LR踩衩，適合于分類問(wèn)題

1.1 LR模型

對(duì)于線性回歸模型叭爱，需要擬合一個(gè) $Y=X\theta+b$ 的函數(shù)昆咽，回歸問(wèn)題適合于連續(xù)的問(wèn)題惜犀，而對(duì)于分類問(wèn)題躬厌，需要得到一系列離散的標(biāo)簽马昨，以二分類為例，需要預(yù)測(cè)的類別為0，1.可以使用sigmoid函數(shù)將連續(xù)問(wèn)題轉(zhuǎn)化為離散問(wèn)題:

$g(z) = \frac{1}{1+e^{-z}}$

sigmoid函數(shù)的圖像為：

sigmoid

其中鸿捧，時(shí)抢呆，，時(shí)笛谦，. Sigmoid函數(shù)的導(dǎo)數(shù)為：

令抱虐，則有:

對(duì)于二分類問(wèn)題，該函數(shù)的輸出可以理解為分類為1的概率饥脑，如果把X記為, 記為為要估計(jì)的模型參數(shù)恳邀，則LR的矩陣形式為：

1.2 損失函數(shù)

由于 $h_\theta (x)$ 表示的是被分類為1的概率，而被分類為0的概率則為 $1-h_\theta(x)$ 灶轰，對(duì)于離散隨機(jī)變量谣沸，我們可以寫(xiě)出分布列：

y	1	0
	$h_\theta (x)$	$1-h_\theta(x)$

用一個(gè)式子表示就是
$p(y|x,\theta) = h_\theta(x)^y(1-h_\theta(x))^{1-y}$
這就是 $y$ 的分布函數(shù)，函數(shù)中的\theta表示要估計(jì)的參數(shù)笋颤，熟悉概率論的都知道乳附，要估計(jì)分布函數(shù)中的參數(shù)可以有矩估計(jì)和極大似然法兩種，這里選極大似然法伴澄，也叫最大似然法赋除，這里把他的概念寫(xiě)出來(lái)：

極大似然法

也就是說(shuō)，假設(shè)所有的訓(xùn)練樣本所對(duì)應(yīng)的隨機(jī)變量是獨(dú)立同分布的非凌，其分布函數(shù)為举农，獨(dú)立同分布的隨機(jī)變量的聯(lián)合分布函數(shù)就是每個(gè)分布函數(shù)的乘積，把這個(gè)聯(lián)合分布函數(shù)稱為似然函數(shù)敞嗡，表示為：

因?yàn)樗迫缓瘮?shù)取對(duì)數(shù)后達(dá)到最大值時(shí)候的與本身達(dá)到最大值后的是相同的颁糟，即：

所以我們一般用對(duì)數(shù)似然函數(shù)，似然函數(shù)取反就是損失函數(shù)喉悴，而最大化似然函數(shù)就是最小化損失函數(shù)：

那損失函數(shù)什么時(shí)候取最小值呢棱貌？當(dāng)然就是其導(dǎo)數(shù)取0的時(shí)候啦。注意這里的 $\theta$ 表示m個(gè)待估計(jì)的參數(shù) $\theta_1,\theta_2,...,\theta_m$ 箕肃，取極值時(shí)要求每個(gè)偏導(dǎo)都為0. 損失函數(shù)的矩陣表達(dá)方法為：
$J(\theta) = -Y^T\log h_\theta(X)-(E-Y)^T \log (E-h_\theta(X))$
其中 $E$ 為單位矩陣

1.3 優(yōu)化方法

對(duì)于二分類的LR婚脱，可以使用梯度下降法，坐標(biāo)軸下降法突雪，牛頓法等起惕。梯度下降法容易理解涡贱，就是參數(shù)按照梯度減小的方向更新（形式上的推導(dǎo)）咏删，
$\theta = \theta - \alpha \frac{\partial J(\theta)}{\partial \theta}$
在LR中，我們?cè)谧铋_(kāi)始給出了SIgmoid的導(dǎo)數(shù)问词，因此用梯度下降法更新參數(shù)可以表示為：
$\theta = \theta -\alpha X^T(h_\theta(X)-Y)$
而牛頓法最初是用來(lái)求解函數(shù)零點(diǎn)的督函，而極值代表一階導(dǎo)數(shù)的零點(diǎn)，因此可以用牛頓法。記 $J'(\theta)$ 為一階偏導(dǎo)數(shù)辰狡， $J''(\theta)$ 為二階偏導(dǎo)數(shù)锋叨，則有：
$\theta = \theta - \alpha \frac{J'(\theta)}{J''(\theta)}$
坐標(biāo)軸下降法則是固定一個(gè)坐標(biāo)，沿著另外一個(gè)坐標(biāo)尋找最優(yōu)點(diǎn)宛篇，適合于導(dǎo)數(shù)不連續(xù)的情況娃磺。

1.4 Regulization(正則化)

為什么要正則化，這是因?yàn)闄C(jī)器學(xué)習(xí)模型中叫倍，學(xué)習(xí)到的參數(shù) $\theta$ 是直接與特征向量 $X$ 相乘的偷卧，如LR中有：
$h_\theta(x) = \frac{1}{1+e^{-\theta x+b}}$
在 $X$ 不變的情況下，如果 $\theta$ 特別大吆倦，那乘積就會(huì)特別大听诸，假如在測(cè)試的時(shí)候，某個(gè)測(cè)試樣本跟訓(xùn)練樣本的分布不太一樣蚕泽，那么經(jīng)過(guò)參數(shù) $\theta$ 放大后可能得到一個(gè)非常離譜的值晌梨。參數(shù)的取值過(guò)大會(huì)讓模型異常敏感，也容易過(guò)擬合须妻，那么如何避免這種情況呢仔蝌？一種可行的方法就是，我們不希望學(xué)習(xí)到的參數(shù) $\theta={\theta_1,\theta_2,...,\theta_m}$ 取值太大荒吏，那就讓他們盡量接近于0掌逛，即：
$\min \sum_{i=1}^{m} ||\theta_i||$
矩陣表達(dá)就是 $\min ||\theta||_1$ ，我們稱為L(zhǎng)1正則項(xiàng)司倚，同樣的豆混，也有L2正則項(xiàng)，
$\frac{1}{2}||\theta||_2^2=\frac{1}{2}\sum_{i=1}^{m} ||\theta_i||^2$
因?yàn)檎齽t項(xiàng)也是關(guān)于 $\theta$ 的函數(shù)动知，也是我們要優(yōu)化的目標(biāo)之一(目標(biāo)是讓它最小)皿伺，這樣就可以合并到損失函數(shù)中：
$J(\theta) = -Y^T\log h_\theta(X)-(E-Y)^T \log (E-h_\theta(X))+\lambda_1 ||\theta||_1$

$\lambda_1$ 是正則項(xiàng)的權(quán)重。加入正則項(xiàng)后盒粮，學(xué)習(xí)到的參數(shù)就不會(huì)太大鸵鸥，模型也就沒(méi)那么敏感。當(dāng)然丹皱，如果正則項(xiàng)的權(quán)重過(guò)大妒穴，那所有的參數(shù) $\theta$ 會(huì)很小，模型會(huì)異常不敏感摊崭，基本所有的輸入都會(huì)得到一個(gè)差不多的輸出讼油，所有這個(gè)權(quán)重也要仔細(xì)考慮。
此外呢簸，由于 $b$ 是直接加到優(yōu)化函數(shù)后的矮台，相當(dāng)于對(duì)函數(shù)做平移乏屯，我們并不需要正則化這個(gè)參數(shù)。

1.5多元邏輯回歸

多元邏輯回歸是二元情況的推廣瘦赫，每個(gè)類的概率用Softmax函數(shù)計(jì)算辰晕。假設(shè)要分K類，每個(gè)要學(xué)習(xí)的參數(shù)為 $(\theta_1,b_1),(\theta_2,b_2)...,(\theta_k,b_k)$ 記
$z_1 = \theta_1x+b_1 \\ z_2 = \theta_2x+b_2 \\ ...\\ z_k = \theta_kx+b_k$
則x屬于每個(gè)類的概率可以計(jì)算為：
$y_1 = \frac{e^{z_1}}{\sum_{i=1}^{k}e^{z_k}} \\ y_2 = \frac{e^{z_2}}{\sum_{i=1}^{k}e^{z_k}} \\ ... \\ y_k = \frac{e^{z_k}}{\sum_{i=1}^{k}e^{z_k}} \\$
如下圖：

在這里插入圖片描述

softmax其實(shí)就相當(dāng)于把輸入放大后再做歸一化确虱。
在多個(gè)類計(jì)算損失函數(shù)時(shí)含友，用到的是多個(gè)類的entropy，這時(shí)要用到One-hot矩陣校辩，也就是：

具體計(jì)算的時(shí)候唱较，使用：

1.6 總結(jié)

自己的實(shí)驗(yàn)數(shù)據(jù)集中有23萬(wàn)條數(shù)據(jù)，從結(jié)果看召川，LR的準(zhǔn)確率算很高的南缓，最關(guān)鍵的是訓(xùn)練速度很快。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末荧呐，一起剝皮案震驚了整個(gè)濱河市汉形，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌倍阐，老刑警劉巖概疆，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異峰搪，居然都是意外死亡岔冀，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門概耻，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)使套，“玉大人，你說(shuō)我怎么就攤上這事鞠柄≌旄撸” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵厌杜，是天一觀的道長(zhǎng)奉呛。經(jīng)常有香客問(wèn)我，道長(zhǎng)夯尽，這世上最難降的妖魔是什么瞧壮？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮匙握，結(jié)果婚禮上咆槽，老公的妹妹穿的比我還像新娘。我一直安慰自己肺孤，他們只是感情好罗晕，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布济欢。她就那樣靜靜地躺著赠堵，像睡著了一般小渊。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上茫叭，一...
開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天酬屉，我揣著相機(jī)與錄音，去河邊找鬼揍愁。笑死呐萨，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的莽囤。我是一名探鬼主播谬擦，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼朽缎！你這毒婦竟也來(lái)了惨远？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤话肖，失蹤者是張志新（化名）和其女友劉穎北秽，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體最筒，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡贺氓，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了床蜘。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片辙培。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖邢锯，靈堂內(nèi)的尸體忽然破棺而出虏冻，到底是詐尸還是另有隱情，我是刑警寧澤弹囚，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布厨相，位于F島的核電站，受9級(jí)特大地震影響鸥鹉，放射性物質(zhì)發(fā)生泄漏蛮穿。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一毁渗、第九天我趴在偏房一處隱蔽的房頂上張望践磅。院中可真熱鬧，春花似錦灸异、人聲如沸府适。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)檐春。三九已至逻淌，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間疟暖，已是汗流浹背卡儒。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留俐巴，地道東北人骨望。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像欣舵，于是被迫代替她去往敵國(guó)和親擎鸠。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353