第二十二章 logistic regression 算法（上）

邏輯回歸（LogisticRegression）

Logistic regression（邏輯回歸）是當(dāng)前業(yè)界比較常用的機(jī)器學(xué)習(xí)方法缘挑，用于估計(jì)某種事物的可能性迈喉。類似某用戶購(gòu)買某商品的可能性绍刮，某病人患有某種疾病的可能性啊等等。這個(gè)世界是隨機(jī)的（當(dāng)然了挨摸，人為的確定性系統(tǒng)除外孩革，但也有可能有噪聲或產(chǎn)生錯(cuò)誤的結(jié)果，只是這個(gè)錯(cuò)誤發(fā)生的可能性太小了得运，小到千萬年不遇膝蜈，小到忽略不計(jì)而已），所以萬物的發(fā)生都可以用可能性或者幾率（Odds）來表達(dá)熔掺”ゲ“幾率”指的是某事物發(fā)生的可能性與不發(fā)生的可能性的比值。

Logistic regression可以用來回歸置逻，也可以用來分類推沸，主要是二分類。它給我們提供的就是你的這個(gè)樣本屬于正類的可能性是多少券坞。

假設(shè)我們的樣本是{x, y}鬓催，y是0或者1，表示正類或者負(fù)類报慕，x是我們的m維的樣本特征向量深浮。那么這個(gè)樣本x屬于正類压怠，也就是y=1的“概率”可以通過下面的邏輯函數(shù)來表示：

這里θ是模型參數(shù)眠冈，也就是回歸系數(shù)，σ是sigmoid函數(shù)。實(shí)際上這個(gè)函數(shù)是由下面的對(duì)數(shù)幾率（也就是x屬于正類的可能性和負(fù)類的可能性的比值的對(duì)數(shù)）變換得到的：

換句話說蜗顽，y也就是我們關(guān)系的變量布卡，我們將這些對(duì)應(yīng)x1,x2,…, xm的權(quán)值叫做回歸系數(shù)，表達(dá)為θ1, θ2,…, θm雇盖。他們的加權(quán)和就是你的總得分了忿等。

所以說上面的logistic回歸就是一個(gè)線性分類模型，它與線性回歸的不同點(diǎn)在于：為了將線性回歸輸出的很大范圍的數(shù)崔挖，例如從負(fù)無窮到正無窮贸街，壓縮到0和1之間，這樣的輸出值表達(dá)為“可能性”才能說服廣大民眾狸相。當(dāng)然了薛匪，把大值壓縮到這個(gè)范圍還有個(gè)很好的好處，就是可以消除特別冒尖的變量的影響脓鹃。而實(shí)現(xiàn)這個(gè)偉大的功能其實(shí)就只需要平凡一舉逸尖，也就是在輸出加一個(gè)logistic函數(shù)。另外瘸右，對(duì)于二分類來說娇跟，可以簡(jiǎn)單的認(rèn)為：如果樣本x屬于正類的概率大于0.5，那么就判定它是正類太颤，否則就是負(fù)類苞俘。

所以說，LogisticRegression 就是一個(gè)被logistic方程歸一化后的線性回歸龄章，僅此而已苗胀。

歸入到正統(tǒng)的機(jī)器學(xué)習(xí)框架下，模型選好了瓦堵，只是模型的參數(shù)θ還是未知的基协，我們需要用我們收集到的數(shù)據(jù)來訓(xùn)練求解得到它。那我們下一步要做的事情就是建立代價(jià)函數(shù)了菇用。

LogisticRegression最基本的學(xué)習(xí)算法是最大似然澜驮。

假設(shè)我們有n個(gè)獨(dú)立的訓(xùn)練樣本{(x1, y1) ,(x2, y2),…, (xn, yn)}，y={0, 1}惋鸥。那每一個(gè)觀察到的樣本(xi, yi)出現(xiàn)的概率是：

上面為什么是這樣呢杂穷？當(dāng)y=1的時(shí)候，后面那一項(xiàng)是不是沒有了卦绣，那就只剩下x屬于1類的概率耐量，當(dāng)y=0的時(shí)候，第一項(xiàng)是不是沒有了滤港，那就只剩下后面那個(gè)x屬于0的概率（1減去x屬于1的概率）廊蜒。所以不管y是0還是1趴拧，上面得到的數(shù)，都是(x,y)出現(xiàn)的概率山叮。那我們的整個(gè)樣本集著榴，也就是n個(gè)獨(dú)立的樣本出現(xiàn)的似然函數(shù)為（因?yàn)槊總€(gè)樣本都是獨(dú)立的，所以n個(gè)樣本出現(xiàn)的概率就是他們各自出現(xiàn)的概率相乘）：

那最大似然法就是求模型中使得似然函數(shù)最大的系數(shù)取值θ*屁倔。這個(gè)最大似然就是我們的代價(jià)函數(shù)（cost function）了脑又。

OK，那代價(jià)函數(shù)有了锐借，我們下一步要做的就是優(yōu)化求解了问麸。我們先嘗試對(duì)上面的代價(jià)函數(shù)求導(dǎo)，看導(dǎo)數(shù)為0的時(shí)候可不可以解出來钞翔，也就是有沒有解析解口叙，有這個(gè)解的時(shí)候，就皆大歡喜了嗅战，一步到位妄田。如果沒有就需要通過迭代了，耗時(shí)耗力驮捍。

我們先變換下L(θ)：取自然對(duì)數(shù)疟呐，然后化簡(jiǎn)（不要看到一堆公式就害怕哦，很簡(jiǎn)單的哦东且，只需要耐心一點(diǎn)點(diǎn)启具，自己動(dòng)手推推就知道了。注：有xi的時(shí)候珊泳，表示它是第i個(gè)樣本鲁冯，下面沒有做區(qū)分了，相信你的眼睛是雪亮的）色查，得到：

這時(shí)候薯演，用L(θ)對(duì)θ求導(dǎo)，得到：

然后我們令該導(dǎo)數(shù)為0秧了，你會(huì)很失望的發(fā)現(xiàn)跨扮，它無法解析求解。不信你就去嘗試一下验毡。所以沒辦法了衡创，只能借助高大上的迭代來搞定了。這里選用了經(jīng)典的梯度下降算法晶通。

優(yōu)化求解

梯度下降(gradient descent)

Gradient descent 又叫 steepest descent璃氢，是利用一階的梯度信息找到函數(shù)局部最優(yōu)解的一種方法，也是機(jī)器學(xué)習(xí)里面最簡(jiǎn)單最常用的一種優(yōu)化方法狮辽。它的思想很簡(jiǎn)單一也，和我開篇說的那樣巢寡，要找最小值，我只需要每一步都往下走（也就是每一步都可以讓代價(jià)函數(shù)小一點(diǎn)）塘秦，然后不斷的走讼渊，那肯定能走到最小值的地方动看，例如下圖所示：

但尊剔，我同時(shí)也需要更快的到達(dá)最小值啊，怎么辦呢菱皆？我們需要每一步都找下坡最快的地方须误，也就是每一步我走某個(gè)方向，都比走其他方法仇轻，要離最小值更近京痢。而這個(gè)下坡最快的方向，就是梯度的負(fù)方向了篷店。

對(duì)logistic Regression來說祭椰，梯度下降算法新鮮出爐，如下：

其中疲陕，參數(shù)α叫學(xué)習(xí)率方淤，就是每一步走多遠(yuǎn)，這個(gè)參數(shù)蠻關(guān)鍵的蹄殃，該參數(shù)前的正負(fù)號(hào)分別表示梯度上升或梯度下降携茂。

梯度上升、隨機(jī)梯度上升算法的python2實(shí)現(xiàn)：

from numpy import *

def loadDataSet():#打開文本文件并逐行讀取

dataMat = []; labelMat = []

fr = open('C:/Users/HZF/Desktop/machinelearninginaction/Ch05/testSet.txt')

for line in fr.readlines():

lineArr = line.strip().split()

dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])

labelMat.append(int(lineArr[2]))

return dataMat,labelMat

def sigmoid(inX):#sigmoid函數(shù)

return 1.0/(1+exp(-inX))

def gradAscent(dataMatIn, classLabels):#梯度上升函數(shù)诅岩，dataMatIn 為特征列

dataMatrix = mat(dataMatIn) ? ? ? #convert to NumPy matrix讳苦，X0假定為1.0，x1,x2為testSet.txt的前兩列數(shù)據(jù)

labelMat = mat(classLabels).transpose() #convert to NumPy matrix吩谦，將類標(biāo)簽的矩陣行向量轉(zhuǎn)置成列向量

m,n = shape(dataMatrix)#計(jì)算矩陣大小

alpha = 0.001

maxCycles = 500#maxCycles是迭代次數(shù)

weights = ones((n,1))

for k in range(maxCycles): ? ? ? #heavy on matrix operations

h = sigmoid(dataMatrix*weights) ? #matrix mult鸳谜，計(jì)算了m*n次，因?yàn)橛?jì)算量大式廷，所以若應(yīng)用在真實(shí)數(shù)據(jù)時(shí)卿堂，需要對(duì)該方法改進(jìn)

error = (labelMat - h) ? ? ? #vector subtraction

weights = weights + alpha * dataMatrix.transpose()* error #matrix mult，梯度上升算法推導(dǎo)

return weights

def plotBestFit(weights):#畫出數(shù)據(jù)集和logistic回歸最佳擬合直線的函數(shù),此處的weights=weights(調(diào)用函數(shù)梯度上升里的weights).getA(),

import matplotlib.pyplot as plt

dataArr = array(dataMat)

n = shape(dataArr)[0]

xcord1 = []; ycord1 = []

xcord2 = []; ycord2 = []

for i in range(n):

if int(labelMat[i])== 1:

xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])

else:

xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])

fig = plt.figure()

ax = fig.add_subplot(111)

ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')

ax.scatter(xcord2, ycord2, s=30, c='green')

x = arange(-3.0, 3.0, 0.1)

y = (-weights[0]-weights[1]*x)/weights[2]#最佳擬合直線懒棉，y=0,因?yàn)?是兩個(gè)分類0/1的分界處

ax.plot(x, y)

plt.xlabel('X1'); plt.ylabel('X2');

plt.show()#畫出x1與x2特征數(shù)據(jù)散點(diǎn)圖的分界線草描，x0默認(rèn)是1.0

#梯度上升算法的改進(jìn)算法——隨機(jī)梯度上升算法（一次僅用一個(gè)樣本點(diǎn)更新回歸系數(shù)，減少計(jì)算復(fù)雜度）

def stocGradAscent0(dataMatrix, classLabels):#隨機(jī)梯度上升算法策严，該算法是一個(gè)在線學(xué)習(xí)算法穗慕。

m,n = shape(dataMatrix)

alpha = 0.01

weights = ones(n) ?#initialize to all ones

maxCycles = 200

for k in range(maxCycles):#此行為自己實(shí)驗(yàn)添加代碼，經(jīng)實(shí)驗(yàn)妻导，隨機(jī)梯度上升算法迭代了200次后效果才可與梯度上升算法效果相近且都比較好

for i in range(m):

h = sigmoid(sum(dataMatrix[i]*weights))#h為具體值

error = classLabels[i] - h#error為具體值

weights = weights + alpha * error * dataMatrix[i]

return weights

def classifyVector(inX, weights):#分類函數(shù)

prob = sigmoid(sum(inX*weights))#weights取自前面幾種最優(yōu)化的weights,InX為測(cè)試集上的特征向量

if prob > 0.5: return 1.0

else: return 0.0

if __name__=="__main__":

#dataMat,labelMat=loadDataSet()

#weights=gradAscent(dataMat, labelMat)

#print weights

#wei=weights.getA()

dataMat,labelMat=loadDataSet()

dataArr = array(dataMat)

#weights=gradAscent(dataMat, labelMat)#迭代500次

#plotBestFit(weights.getA())

weights=stocGradAscent0(array(dataMat), labelMat)#迭代200次逛绵，讀者可以不用迭代看看效果

plotBestFit(weights)

classifyVector(inX, weights)

上篇就寫邏輯回歸算法的基本理論怀各、梯度上升，隨機(jī)梯度上升的代碼實(shí)現(xiàn)這么多术浪！

參考文獻(xiàn)：

1瓢对、機(jī)器學(xué)習(xí)-邏輯回歸理論簡(jiǎn)介 - xietingcandice的專欄 - 博客頻道 - CSDN.NET

2、《機(jī)器學(xué)習(xí)》（書）

最后編輯于：2017.12.06 20:59:36

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末胰苏，一起剝皮案震驚了整個(gè)濱河市硕蛹，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌硕并，老刑警劉巖法焰，帶你破解...
沈念sama閱讀 221,820評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異倔毙，居然都是意外死亡埃仪，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,648評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門陕赃，熙熙樓的掌柜王于貴愁眉苦臉地迎上來卵蛉，“玉大人，你說我怎么就攤上這事么库∩邓浚” “怎么了？”我有些...
開封第一講書人閱讀 168,324評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵廊散，是天一觀的道長(zhǎng)桑滩。經(jīng)常有香客問我，道長(zhǎng)允睹，這世上最難降的妖魔是什么运准？我笑而不...
開封第一講書人閱讀 59,714評(píng)論 1贊 297
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮缭受，結(jié)果婚禮上胁澳，老公的妹妹穿的比我還像新娘。我一直安慰自己米者，他們只是感情好韭畸，可當(dāng)我...
茶點(diǎn)故事閱讀 68,724評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著蔓搞，像睡著了一般胰丁。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上喂分，一...
開封第一講書人閱讀 52,328評(píng)論 1贊 310
城市分裂傳說
那天锦庸，我揣著相機(jī)與錄音，去河邊找鬼蒲祈。笑死甘萧，一個(gè)胖子當(dāng)著我的面吹牛萝嘁，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播扬卷，決...
沈念sama閱讀 40,897評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼牙言，長(zhǎng)吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來了怪得？” 一聲冷哼從身側(cè)響起咱枉，我...
開封第一講書人閱讀 39,804評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎汇恤，沒想到半個(gè)月后庞钢，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拔恰，經(jīng)...
沈念sama閱讀 46,345評(píng)論 1贊 318
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡因谎，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,431評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了颜懊。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片财岔。...
茶點(diǎn)故事閱讀 40,561評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖河爹，靈堂內(nèi)的尸體忽然破棺而出匠璧，到底是詐尸還是另有隱情，我是刑警寧澤咸这，帶...
沈念sama閱讀 36,238評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布夷恍，位于F島的核電站，受9級(jí)特大地震影響媳维，放射性物質(zhì)發(fā)生泄漏酿雪。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,928評(píng)論 3贊 334
男人毒藥：我在死后第九天來索命
文/蒙蒙一侄刽、第九天我趴在偏房一處隱蔽的房頂上張望指黎。院中可真熱鬧，春花似錦州丹、人聲如沸醋安。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,417評(píng)論 0贊 24
一樁弒父案墓毒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)吓揪。三九已至，卻和暖如春所计，著一層夾襖步出監(jiān)牢的瞬間柠辞，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,528評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國(guó)打工醉箕，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留钾腺，地道東北人徙垫。一個(gè)月前我還...
沈念sama閱讀 48,983評(píng)論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像放棒，于是被迫代替她去往敵國(guó)和親姻报。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,573評(píng)論 2贊 359

第二十二章 logistic regression 算法（上）

推薦閱讀更多精彩內(nèi)容