[CS229]Notes One

監(jiān)督學(xué)習(xí)

首先通過(guò)討論監(jiān)督學(xué)習(xí)的一些例子來(lái)開(kāi)始。假設(shè)有份關(guān)于房?jī)r(jià)的數(shù)據(jù)集躲舌,包括居住面積和房?jī)r(jià):



將這份數(shù)據(jù)集可視化:



像上面這份數(shù)據(jù)集,我們?cè)撊绾晤A(yù)測(cè)其他不同面積房屋的價(jià)格呢?為了后續(xù)學(xué)習(xí)更容易講解一些概念晤郑,這里約定一些符號(hào)表示的意義永脓。
符號(hào) 意義
x(i) 輸入變量袍辞,輸入特征
y(i) 輸出/目標(biāo),label常摧,準(zhǔn)備去預(yù)測(cè)的量
(x(i),y(i)) 單個(gè)訓(xùn)練樣本
{(x(i),y(i));i=1,...,m} 訓(xùn)練集搅吁,包含m個(gè)樣本
i 上表i表示訓(xùn)練集中的m個(gè)樣本的索引
輸入空間
輸出空間

上面的例子中

以更正式的形式描述監(jiān)督學(xué)習(xí)問(wèn)題,我們的目標(biāo)是落午,對(duì)于給定訓(xùn)練集谎懦,去學(xué)習(xí)一個(gè)假設(shè)函數(shù)h(輸入空間到輸出空間的映射),假設(shè)函數(shù)可以對(duì)目標(biāo)值做個(gè)很好的預(yù)測(cè)溃斋。過(guò)程大致如下:


當(dāng)我們嘗試預(yù)測(cè)的值是連續(xù)的界拦,稱(chēng)為回歸問(wèn)題;若是離散的梗劫,即分類(lèi)問(wèn)題享甸。

第一部分: 線性回歸

為了使我們的房?jī)r(jià)預(yù)測(cè)樣本更有趣截碴,在每一個(gè)房屋樣本里面增加一個(gè)臥室num這個(gè)feature。



這樣蛉威,輸入空間(R^2)變?yōu)槎S向量日丹。x(i)_1表示第i個(gè)樣本的第一個(gè)feature(居住面積),x(i)_2表示其臥室num蚯嫌。為了實(shí)現(xiàn)監(jiān)督學(xué)習(xí)聚凹,我們必須要決定如何表示假設(shè)函數(shù)h,作為最初的選擇齐帚,決定用輸入的線性函數(shù)來(lái)估計(jì)目標(biāo)值y:



這兒θ_i為參數(shù)妒牙,也稱(chēng)權(quán)重。為了簡(jiǎn)化表達(dá)对妄,引入x_0=1湘今,則上式可簡(jiǎn)化為:

n為輸入變量的個(gè)數(shù)及feature num(不包括x_0)

現(xiàn)在的問(wèn)題歸結(jié)為,給我們一個(gè)數(shù)據(jù)集剪菱,我們?nèi)绾芜x擇學(xué)習(xí)這些參數(shù)θ_i摩瞎?一個(gè)合理直觀的方法就是讓我們的假設(shè)函數(shù)值h(x)接近真實(shí)的值 y,至少對(duì)于我們訓(xùn)練集的樣本要這樣做孝常。為了更好的描述旗们,定義代價(jià)函數(shù)cost function:


最小均方算法(LMS)

我們的目標(biāo)很直接,就是選擇合適的θ构灸,使得代價(jià)函數(shù)J(θ)最小化上渴。這兒考慮用梯度下降算法,首先隨即初始化θ值喜颁,然后按照下面公式重復(fù)更新θ:


這兒值得注意的是θ_j稠氮,j=0,...,n更新要同時(shí)進(jìn)行,這里α稱(chēng)為學(xué)習(xí)率半开。

這是一個(gè)非常自然的算法隔披,它重復(fù)地向J的最急劇下降的方向邁出了一步。為了實(shí)現(xiàn)這個(gè)算法寂拆,先算出公式右邊的偏導(dǎo)項(xiàng)奢米。簡(jiǎn)單起見(jiàn)麦萤,假設(shè)訓(xùn)練集只有一個(gè)樣本(x褒繁,y)屯伞,這樣可以忽略求和:



對(duì)于單樣本訓(xùn)練集萌衬,更新規(guī)則很簡(jiǎn)單:



這個(gè)更新方法稱(chēng)為最小均方更新規(guī)則。這個(gè)更新規(guī)則有一些性質(zhì)很自然直觀:
  • 每次更新的幅度和誤差項(xiàng){y(i)-h(x(i))}成比例拗慨。因此如果遇到一個(gè)樣本目標(biāo)真實(shí)值和預(yù)測(cè)值很接近鹅经,我們只會(huì)小幅度更新;反之類(lèi)似茂装。

上面是單個(gè)樣本集的最小均方更新規(guī)則(LMS rule)怠蹂,更改上面公式可獲得多樣本集的最小均方更新規(guī)則(LMS rule)。



這種方法在每個(gè)步驟上考慮了整個(gè)訓(xùn)練集中的每個(gè)例子少态,稱(chēng)為批量梯度下降城侧。

注意,雖然梯度下降通常容易受到局部極小值的影響彼妻,但我們這里針對(duì)線性回歸提出的優(yōu)化問(wèn)題只有一個(gè)全局最優(yōu)嫌佑,而沒(méi)有其他局部最優(yōu),因此梯度下降總是收斂(假設(shè)學(xué)習(xí)速率α不太大)到全局最優(yōu)侨歉。事實(shí)上屋摇,J是一個(gè)凸二次函數(shù)。

這里是一個(gè)梯度下降的例子幽邓,因?yàn)樗沁\(yùn)行最小化二次函數(shù)炮温。


上面所示的橢圓是二次函數(shù)的等值線。還顯示了由(48,30)處初始化的梯度下降所獲得的軌跡牵舵。圖中的X(用直線連接)標(biāo)記連續(xù)梯度下降通過(guò)的值柒啤。
當(dāng)我們運(yùn)行批量梯度下降來(lái)擬合我們之前的數(shù)據(jù)集上的θ,學(xué)習(xí)預(yù)測(cè)房?jī)r(jià)作為居住面積的函數(shù)畸颅,我們得到θ0=71.27担巩,θ1=0.1345。如果我們繪制h(x)作為x(面積)的函數(shù)没炒,包括訓(xùn)練數(shù)據(jù)涛癌,我們得到以下圖:



以上結(jié)果用批量梯度下降法得到,有一種替代批量梯度下降的算法也很好送火∽婧埽考慮下面的算法:


在該算法中,我們重復(fù)地遍歷訓(xùn)練集漾脂,并且每次遇到一個(gè)訓(xùn)練樣本時(shí)假颇,我們只根據(jù)與單個(gè)訓(xùn)練樣本有關(guān)的誤差梯度來(lái)更新參數(shù)。該算法稱(chēng)為隨機(jī)梯度下降(也稱(chēng)為增量梯度下降)骨稿。然而笨鸡,批量梯度下降在采取一次更新迭代之前必須掃描整個(gè)訓(xùn)練集,如果m很大的話(huà)則每次迭代代價(jià)較高坦冠,隨機(jī)梯度下降可以立即開(kāi)始取得進(jìn)展形耗,并且繼續(xù)以其所查看的每個(gè)樣本取得進(jìn)展。通常辙浑,隨機(jī)梯度下降比批量梯度下降更快地將J(θ)“接近”到最小值激涤。由于這些原因,特別是當(dāng)訓(xùn)練集較大時(shí)判呕,隨機(jī)梯度下降通常比批量梯度下降更優(yōu)選倦踢。

正規(guī)方程

梯度下降給出了使J最小化的一種方法送滞。我們來(lái)討論第二種方法,這次顯式地執(zhí)行最小化辱挥,而不使用迭代算法犁嗅。在這個(gè)方法中,我們將通過(guò)顯式地取其相對(duì)于θj的導(dǎo)數(shù)晤碘,并將它們?cè)O(shè)置為零來(lái)最小化J褂微。為了使我們能夠做到這一點(diǎn),讓我們介紹一些用矩陣進(jìn)行微積分的符號(hào)园爷。

矩陣偏導(dǎo)

對(duì)于函數(shù)f:R^(m×n) ---》R宠蚂,從m×n矩陣到實(shí)數(shù)的映射,我們定義f關(guān)于A的導(dǎo)數(shù)為:



因此梯度本身就是一個(gè)m×n矩陣童社,第(i,j)項(xiàng)等于

舉個(gè)例子肥矢,假設(shè)A是個(gè)2*2矩陣,f如下所示:



A_ij表示A的i行j列元素叠洗,可以得到:



我們還引入了跡算子甘改,用tr.表示,它表示一個(gè)方陣對(duì)角線元素的和:

性質(zhì):

  • 當(dāng)兩個(gè)矩陣A灭抑、B十艾,AB是方陣,trAB=trBA.


  • 當(dāng)A,B為方陣腾节,a是一個(gè)實(shí)數(shù)有如下公式成立忘嫉。

總結(jié)下矩陣導(dǎo)數(shù)的一些事實(shí),方程(4)僅適用于非奇異方陣A案腺,其中|A|表示A的行列式庆冕。


回到最小二乘法

借助于矩陣導(dǎo)數(shù)的工具,現(xiàn)在讓我們繼續(xù)以封閉形式找到使J(θ)最小的θ值劈榨。我們首先用矩陣向量表示法重新編寫(xiě)J访递。
給定訓(xùn)練集,將設(shè)計(jì)矩陣X定義m*n矩陣(實(shí)際上m*n+1同辣,如果我們包括截距項(xiàng)),每行是一個(gè)訓(xùn)練樣本的所有feature:



同樣處理拷姿,將y設(shè)計(jì)為m維向量包括所有的目標(biāo)值:



因?yàn)椋?br>

所以:

可得到代價(jià)函數(shù)如下:



為了最小化J,對(duì)參數(shù)θ求偏導(dǎo)旱函。結(jié)合公式(2)(3)响巢,可得:

因此:


為了最小化J,我們令偏導(dǎo)數(shù)為0棒妨,即可獲得正規(guī)方程踪古。



那么,使得J(θ)取最小值得θ為:


概率解釋

當(dāng)面對(duì)回歸問(wèn)題時(shí),為什么線性回歸伏穆,特別是為什么最小二乘成本函數(shù)J可能是一個(gè)合理的選擇拘泞?在本節(jié)中,我們將給出一組概率假設(shè)蜈出,在此假設(shè)下田弥,最小二乘回歸被導(dǎo)出為非常自然的算法涛酗。

讓我們假設(shè)目標(biāo)變量和輸入滿(mǎn)足下面等式:


ε(i)是一個(gè)誤差項(xiàng)铡原,它捕捉了未建模的特征(例如,如果存在與預(yù)測(cè)房?jī)r(jià)非常相關(guān)的一些特征商叹,但是我們沒(méi)有考慮進(jìn)來(lái))燕刻,或者是隨機(jī)噪聲。我們進(jìn)一步假設(shè)ε(i)是獨(dú)立同分布的剖笙,而且都滿(mǎn)足均值為0方差為σ^2的高斯分布卵洗。ε(i)的概率密度函數(shù)如下:


進(jìn)一步可得到:

上面公式表示在給定x(i)而且由θ參數(shù)化的y(i)分布,注意這里θ是參數(shù)不是隨機(jī)變量弥咪。

給定X和θ过蹂,y(i)的分布是什么?數(shù)據(jù)的概率由p(y|X;θ)決定聚至。對(duì)于固定的θ這個(gè)量通常是看做y的函數(shù)酷勺。當(dāng)我們希望明確的將此視為θ的函數(shù),我們將這稱(chēng)之為似然函數(shù):

注意因?yàn)榍懊婕僭O(shè)ε(i)獨(dú)立同分布扳躬,進(jìn)一步簡(jiǎn)化可得:

現(xiàn)在脆诉,給出了關(guān)于x(i)和y(i)的概率模型,選擇參數(shù)θ的最佳合理方法是什么贷币?最大似然原理告訴我們击胜,我們應(yīng)該選擇θ,以便使數(shù)據(jù)盡可能高的概率役纹。所以我們應(yīng)該將通過(guò)最大化L(θ)選擇θ偶摔。
我們也可以最大化L(θ)的任何嚴(yán)格增長(zhǎng)函數(shù)。特別地促脉,如果我們以最大化對(duì)數(shù)似然為例:


因此最大化?(θ)和最下化下面式子是等價(jià)的:


我們認(rèn)識(shí)到它就是我們的代價(jià)函數(shù)J(θ)啰挪,我們?cè)瓉?lái)的最小二乘代價(jià)函數(shù)。

綜上所述:在之前關(guān)于數(shù)據(jù)的概率假設(shè)下嘲叔,最小二乘回歸對(duì)應(yīng)于尋找θ的最大似然估計(jì)亡呵。因此,這是一組假設(shè)硫戈,根據(jù)這些假設(shè)锰什,最小二乘回歸可以作為一種非常自然的方法,僅僅進(jìn)行最大似然估計(jì)。

還要注意汁胆,在我們之前的討論中梭姓,我們對(duì)θ的最終選擇并不取決于方差σ,實(shí)際上嫩码,即使σ未知誉尖,我們也會(huì)得到相同的結(jié)果。稍后我們將再次使用這個(gè)事實(shí)铸题,當(dāng)我們討論指數(shù)族和廣義線性模型時(shí)铡恕。

局部加權(quán)線性回歸

考慮到x∈R預(yù)測(cè)y的問(wèn)題。下面的最左邊圖顯示了將y=θ0+θ1x擬合到數(shù)據(jù)集的結(jié)果丢间。我們看到數(shù)據(jù)不是直線的探熔,所以擬合不是很好。

相反烘挫,如果我們添加了一個(gè)額外的特征x2诀艰,并且擬合y=θ0+θ1x+θ2x2,那么我們就獲得了對(duì)數(shù)據(jù)稍微更好的擬合(中間圖)饮六。天真地說(shuō)其垄,好像我們添加的feature越多越好。然而添加過(guò)多新的feature也有危險(xiǎn)(過(guò)擬合)卤橄。最右邊的圖是擬合五階多項(xiàng)式的結(jié)果绿满。我們看到,即使擬合曲線完美地通過(guò)數(shù)據(jù)虽风,我們也不會(huì)期望這是對(duì)不同居住區(qū)(x)的房?jī)r(jià)(y)的非常好的預(yù)測(cè)棒口。沒(méi)有正式定義這些術(shù)語(yǔ)的含義,我們將左邊的圖形稱(chēng)為欠擬合的實(shí)例辜膝,其中數(shù)據(jù)清楚地顯示了模型未捕獲的結(jié)構(gòu)无牵,而右邊的圖形是過(guò)擬合的實(shí)例。

如前所述厂抖,并且如上面的示例所示茎毁,特征的選擇對(duì)于確保學(xué)習(xí)算法的良好性能非常重要。在本部分中忱辅,讓我們簡(jiǎn)要地討論局部加權(quán)線性回歸(LWR)算法七蜘,它假設(shè)有足夠的訓(xùn)練數(shù)據(jù),使得特征選擇不那么關(guān)鍵墙懂。這種處理將非常簡(jiǎn)單橡卤,因?yàn)槟鷮⒂袡C(jī)會(huì)在作業(yè)中親自探索LWR算法的一些特性。

在原始線性回歸算法中损搬,為了在x處(即碧库,評(píng)估h(x))進(jìn)行預(yù)測(cè)柜与,我們將:

  1. 通過(guò)最小化代價(jià)函數(shù)擬合參數(shù)θ;
  2. 輸出θ'x嵌灰。

相比之下喂窟,局部加權(quán)線性回歸算法執(zhí)行以下操作:


這里恋拍,w(i)是非負(fù)值權(quán)重嚣镜。直觀地看豆同,如果對(duì)于第i個(gè)樣本w(i)很大,那么在選擇θ時(shí)將盡可能的使得[y(i)-θ'x(i)]^2 小驹溃。反之城丧,若對(duì)于第i個(gè)樣本w(i)很小,那么在擬合θ時(shí)這一項(xiàng)[y(i)-θ'x(i)]^2 會(huì)被忽略吠架。

權(quán)重的一個(gè)標(biāo)準(zhǔn)的選擇如下:


請(qǐng)注意芙贫,權(quán)重取決于我們嘗試評(píng)估x的特定feature x搂鲫。此外傍药,如果|x(i)-x|很小,那么w(i)接近1; 如果|x(i)-x| 很大魂仍,那么w(i)很小拐辽。因此,選擇θ時(shí)給予接近特定feature x的訓(xùn)練樣本更高的“權(quán)重”擦酌。參數(shù)τ控制訓(xùn)練樣例的權(quán)重隨著其x(i)距特定feature x的距離而下降的速度俱诸;τ被稱(chēng)為帶寬參數(shù),也是您在作業(yè)中嘗試的東西赊舶。

局部加權(quán)線性回歸是我們看到的非參數(shù)算法的第一個(gè)例子睁搭。我們之前看到的(未加權(quán))線性回歸算法被稱(chēng)為參數(shù)學(xué)習(xí)算法,因?yàn)樗哂泄潭ǖ牧剑邢迶?shù)量的參數(shù)(θi)园骆。一旦我們擬合了θi并將它們存儲(chǔ)起來(lái),我們進(jìn)行未來(lái)的預(yù)測(cè)就需要保留訓(xùn)練數(shù)據(jù)寓调。相反锌唾,為了使用局部加權(quán)線性回歸進(jìn)行預(yù)測(cè),我們需要保持整個(gè)訓(xùn)練集夺英。術(shù)語(yǔ)“非參數(shù)”(粗略地)指的是我們?yōu)榱吮硎炯僭O(shè)函數(shù)而需要保留的data量隨著訓(xùn)練集的大小線性增長(zhǎng)晌涕。

第二部分:分類(lèi)和對(duì)數(shù)幾率回歸

現(xiàn)在我們來(lái)討論分類(lèi)問(wèn)題。這與回歸問(wèn)題類(lèi)似痛悯,只是我們現(xiàn)在要預(yù)測(cè)的值y僅具有少量的離散值∮嗬瑁現(xiàn)在,我們將重點(diǎn)討論二分類(lèi)問(wèn)題载萌,其中y只能取兩個(gè)值惧财,0和1亲族。例如,如果我們?cè)噲D為電子郵件構(gòu)建垃圾郵件分類(lèi)器可缚,那么x(i)可能是一封電子郵件的一些特征霎迫,如果它是一封垃圾郵件,y可以是1帘靡,否則為0知给。0也被稱(chēng)為負(fù)類(lèi),1為正類(lèi)描姚。給定x(i)涩赢,相應(yīng)的y(i)也被稱(chēng)為樣本的標(biāo)簽。

對(duì)數(shù)幾率回歸

我們可以忽略y是離散值的事實(shí)來(lái)處理分類(lèi)問(wèn)題轩勘,并使用我們舊的線性回歸算法來(lái)嘗試預(yù)測(cè)給定x的y筒扒。然而,很容易構(gòu)造此方法性能非常差的樣本绊寻。直觀地花墩,當(dāng)我們知道h(x)取大于1或小于0的值時(shí),它也沒(méi)有意義澄步。
為了解決這個(gè)問(wèn)題冰蘑,讓我們改變我們的假設(shè)函數(shù)h(x)的形式。我們會(huì)選擇:



函數(shù)g(z):



這就是對(duì)數(shù)幾率函數(shù)村缸,或者稱(chēng)為(Sigmoid函數(shù))祠肥。函數(shù)圖形如下:

當(dāng)自變量z趨向于正無(wú)窮,函數(shù)值趨向于1梯皿;自變量z趨向于負(fù)無(wú)窮仇箱,函數(shù)值趨向于0。因此东羹,假設(shè)函數(shù)的值域也在(0,1)之間剂桥。為了使下面變換依然成立,和前面類(lèi)似百姓,令x_0==1:

在繼續(xù)之前渊额,介紹下關(guān)于sigmoid函數(shù)導(dǎo)數(shù)的一個(gè)有用性質(zhì):



那么,在對(duì)數(shù)幾率回歸模型下垒拢,我們?cè)撊绾未_定參數(shù)θ旬迹?我們給分類(lèi)模型賦予一組概率假設(shè),然后通過(guò)最大似然來(lái)擬合參數(shù)求类。讓我們假設(shè):

簡(jiǎn)化上面公式:

假設(shè)m個(gè)樣本是獨(dú)立的奔垦,那么我們可以將參數(shù)的可能性寫(xiě)為:

如前所述,更容易最大化對(duì)數(shù)似然性:

我們?nèi)绾巫畲蠡厦婀侥厥亢椭熬€性回歸推導(dǎo)類(lèi)似椿猎,可以使用梯度上升惶岭。向量化表示的更新公式如下:

注意更新公式中的正號(hào)而不是負(fù)號(hào),因?yàn)槲覀儸F(xiàn)在正在最大化犯眠,而不是最小化函數(shù)按灶。

讓我們從一個(gè)訓(xùn)練樣本(x,y)開(kāi)始,并利用導(dǎo)數(shù)推導(dǎo)隨機(jī)梯度上升規(guī)則:


因此筐咧,隨機(jī)的梯度上升公式如下:


如果我們把這個(gè)與LMS更新規(guī)則進(jìn)行比較鸯旁,就會(huì)發(fā)現(xiàn)它看起來(lái)是相同的;但是這不是相同的算法量蕊,因?yàn)閔(x(i))現(xiàn)在被定義為θ'x(i)的非線性函數(shù)铺罢。盡管如此,對(duì)于完全不同的算法和學(xué)習(xí)問(wèn)題残炮,我們最終會(huì)得到相同的更新規(guī)則韭赘,這有點(diǎn)令人驚訝。這是巧合势就,還是背后有更深層次的原因泉瞻?當(dāng)我們到達(dá)GLM模型時(shí),我們會(huì)回答這個(gè)問(wèn)題蛋勺。

感知機(jī)學(xué)習(xí)算法

現(xiàn)在我們岔開(kāi)話(huà)題來(lái)簡(jiǎn)要地討論一些具有歷史意義的算法瓦灶,稍后我們?cè)儆懻搶W(xué)習(xí)理論鸠删”辏考慮修改對(duì)數(shù)幾率回歸方法,“強(qiáng)制”它輸出0或1或準(zhǔn)確的值刃泡。為此巧娱,很自然的將g的定義改變?yōu)殚撝岛瘮?shù):


如果我們和前面一樣讓h(x)=g(θ'x),但是g使用這個(gè)新的定義烘贴,并且如果我們使用更新規(guī)則:


然后就得到感知器學(xué)習(xí)算法禁添。

在20世紀(jì)60年代,這種“感知器”被認(rèn)為是大腦中單個(gè)神經(jīng)元如何工作的一個(gè)粗略模型桨踪。鑒于該算法很簡(jiǎn)單老翘,當(dāng)我們?cè)诒菊n后面討論學(xué)習(xí)理論時(shí),它也將為我們的分析提供一個(gè)起點(diǎn)锻离。然而铺峭,請(qǐng)注意,盡管感知器可能與我們討論的其他算法看起來(lái)相似汽纠,但它實(shí)際上是一種與對(duì)數(shù)幾率回歸和最小二乘線性回歸非常不同的算法卫键;特別地,很難給感知器的預(yù)測(cè)賦予有意義的概率解釋?zhuān)蛘邔?dǎo)出感知器作為最大似然估計(jì)算法虱朵。

求?(θ)極大值的另一種算法

回到以sigmoid函數(shù)為g(z)的對(duì)數(shù)幾率回歸莉炉,現(xiàn)在讓我們討論最大化(θ)的另一種算法钓账。

首先,讓我們考慮一下用牛頓迭代法求函數(shù)零點(diǎn)的方法絮宁。特別地梆暮,假設(shè)我們有一個(gè)函數(shù)f:R->R,我們希望找到一個(gè)θ的值绍昂,使得f(θ)=0惕蹄。這里,θ是一個(gè)實(shí)數(shù)治专。牛頓的方法執(zhí)行以下迭代:


牛頓法具有很明顯的幾何意義卖陵。迭代格式就是用在θ處切線與x軸的交點(diǎn)代替f的零點(diǎn)。下面牛頓的迭代方法的參考過(guò)程圖:

在最左邊的圖中张峰,我們看到函數(shù)f和y=0線一起繪制泪蔫。
我們?cè)噲D找到θ,使得f(θ)=0喘批;從圖中可以看出零點(diǎn)
大約是1.3撩荣。假設(shè)我們用θ=4.5初始化算法。牛頓法求出一個(gè)在θ=4.5與f相切的直線饶深,并求解將該切線與y=0的交點(diǎn)橫坐標(biāo)(中圖)餐曹。這給了我們下一次迭代
的θ值,約為2.8敌厘。最右邊的圖片顯示了進(jìn)行完下一次迭代的結(jié)果台猴,θ更新為1.8左右。再過(guò)幾次迭代俱两,我們將快速接近1.3附近饱狂。

牛頓方法給出了f(θ)=0的一種方法。如果我們想用它來(lái)最大化某個(gè)函數(shù)呢宪彩?最大化某個(gè)函數(shù)即是求函數(shù)倒數(shù)的零點(diǎn)休讳,所以令f(θ) = ?′(θ),我們可以用牛頓迭代去最大化?尿孔,迭代公式如下:


最后俊柔,在我們的對(duì)數(shù)幾率回歸中,θ是向量值活合,因此我們需要將牛頓方法推廣成向量形式雏婶。將牛頓方法推廣到這種多維設(shè)置(也稱(chēng)為牛頓-拉普森方法)迭代方法如下:


H是一個(gè)nn矩陣(實(shí)際上是n+1n+1,如果我們包括截距項(xiàng))芜辕,稱(chēng)為Hessian尚骄,由下面式子得出:

牛頓的方法通常比(批)梯度下降具有更快的收斂性,并且需要更少的迭代來(lái)接近最小值侵续。然而倔丈,牛頓的一次迭代可能比一次梯度下降的迭代更昂貴憨闰,因?yàn)樗枰蠼獠⑶髇*n Hessian的逆矩陣;但是只要n不是太大需五,總體上它通常要快得多鹉动。當(dāng)用牛頓法使對(duì)數(shù)幾率回歸對(duì)數(shù)似然函數(shù)最大化時(shí),所得方法也稱(chēng)為Fisher scoring法宏邮。

第三部分:廣義線性模型

到目前為止泽示,我們已經(jīng)分別看到一個(gè)回歸和一個(gè)分類(lèi)的例子。在回歸模型中蜜氨,我們有(y|x;θ)服從正態(tài)分布械筛;在分類(lèi)模型中,我們有(y|x;θ)服從伯努利分布飒炎,分布參數(shù)為x,θ的函數(shù)埋哟。在本節(jié)中,我們將展示這兩個(gè)方法都是更廣泛的模型族(稱(chēng)為廣義線性模型(GLM))的特殊情況郎汪。我們還將展示如何導(dǎo)出GLM家族中的其他模型并將其應(yīng)用于其他分類(lèi)和回歸問(wèn)題赤赊。

指數(shù)族

為了了解廣義線性模型,我們將首先定義指數(shù)族煞赢。我們可以說(shuō)抛计,如果它可以寫(xiě)成下面的形式,即是指數(shù)族:


這兒照筑,η稱(chēng)為分布的自然參數(shù) natural parameter (又叫典范參數(shù) canonical parameter)吹截;T(y)為充分統(tǒng)計(jì)量 sufficient statistic(對(duì)于我們考慮的分布,常常是T(y)=y(tǒng)的情況朦肘。)饭弓;a(η)是對(duì)數(shù)劃分函數(shù) log partition function。exp(-a(η)) 起著歸一化常數(shù)的作用媒抠,確保分布p(y;η)在y到1之間求和/積分。

如果固定T,a,b就會(huì)定義一個(gè)以η為參數(shù)的分布族咏花;當(dāng)改變?chǔ)菚r(shí)趴生,將會(huì)得到這一族內(nèi)的不同分布。

下面我們證明伯努利分布和高斯分布是指數(shù)族的特例昏翰。期望為φ的伯努利分布表示為Bernoulli(φ)苍匆,即0-1分布,所以:


隨著我們改變?chǔ)张锞眨梢缘玫讲煌谕牟植剂觥N覀儸F(xiàn)在要證明這一系列通過(guò)改變?chǔ)盏牟植紝儆谥笖?shù)分布晋控,因此肯定會(huì)存在相應(yīng)的T,a澜建,b使得等式(6)是伯努利分布。下面重寫(xiě)伯努利分布:


因而楷兽,自然參數(shù)natural parameter:



如果你變換上面式,你會(huì)驚奇的發(fā)現(xiàn)正好是sigmod函數(shù)g(z)。當(dāng)我們將對(duì)數(shù)幾率回歸作為廣義線性模型特例時(shí)另假,這將再次出現(xiàn)。為了說(shuō)明伯努利分布是指數(shù)族分布的特例怕犁,我們令:


這就說(shuō)明伯努利分布是可以表示成等式(6)的形式边篮,這就證明了伯努利分布即是指數(shù)族分布的特例。
下面我們接著證明高斯分布奏甫「杲危回憶一下,在討論線性模型的概率解釋時(shí)阵子,高斯分布的方差對(duì)參數(shù)θ和假設(shè)函數(shù)的選擇沒(méi)有影響凶杖。因此,我們可以選擇一個(gè)任意的方差款筑,為了簡(jiǎn)化智蝠,我們令方差為1:


那么,我們看到高斯分布也屬于指數(shù)族:


其實(shí)還有許多別的分布也是屬于指數(shù)族:多項(xiàng)式分布奈梳,泊松分布等等杈湾。下一部分,我們將描述用于構(gòu)造模型的一般“配方”攘须,其中y(給定x和θ)來(lái)自這些分布中的任何一個(gè)漆撞。

構(gòu)建廣義線性模型

假設(shè)你想要構(gòu)建一個(gè)模型,以基于某些特征x(如商店促銷(xiāo)于宙、最近的廣告浮驳、天氣、星期幾等)來(lái)估計(jì)在任何給定小時(shí)內(nèi)到達(dá)你的商店的客戶(hù)數(shù)量(或網(wǎng)站上的頁(yè)面瀏覽數(shù)量)捞魁。我們知道泊松分布通常為訪問(wèn)者的數(shù)量提供了一個(gè)很好的模型至会。知道這一點(diǎn),我們?cè)趺茨芟氤鲆粋€(gè)模型來(lái)解決我們的問(wèn)題谱俭?幸運(yùn)的是奉件,泊松是一個(gè)指數(shù)族分布,所以我們可以應(yīng)用一個(gè)廣義線性模型昆著。在本節(jié)中县貌,我們將描述針對(duì)諸如此類(lèi)問(wèn)題構(gòu)造廣義線性模型(GLM)的方法。
更一般地凑懂,考慮分類(lèi)或回歸問(wèn)題煤痕,其中我們希望預(yù)測(cè)一些作為x的函數(shù)隨機(jī)變量y的值。為了推導(dǎo)這個(gè)問(wèn)題的GLM,我們將對(duì)給定x的y條件分布和我們的模型作出以下三個(gè)假設(shè):

  1. y|x;θ ~ 指數(shù)族摆碉,給定x和θ塘匣,y的分布服從參數(shù)為η的指數(shù)族分布。
  2. 給定x兆解,我們的目標(biāo)是預(yù)測(cè)給定x的T(y)的期望值馆铁。在我們的大多數(shù)示例中,我們有T(y)=y锅睛,因此這意味著我們希望由我們學(xué)習(xí)的假設(shè)函數(shù)輸出的預(yù)測(cè)h(x)滿(mǎn)足h(x)=E(y|x)埠巨。(注意,對(duì)于對(duì)數(shù)幾率回歸和線性回歸现拒,h(x)的選擇都滿(mǎn)足這個(gè)假設(shè)辣垒。比如,對(duì)數(shù)幾率回歸中印蔬,h(x)=p(y=1|x;θ)=0p(y=0|x;θ)+1p(y=1|x;θ)=E(y|x))
  3. 自然參數(shù)η和輸入x是線性相關(guān)的:η = θ'x.

這些假設(shè)中的第三個(gè)似乎對(duì)上述假設(shè)最沒(méi)有道理勋桶,并且在我們?cè)O(shè)計(jì)GLM的配方中,它可能被更好地視為“設(shè)計(jì)選擇”侥猬,而不是作為假設(shè)本身例驹。這三個(gè)假設(shè)/設(shè)計(jì)選擇將允許我們導(dǎo)出非常優(yōu)雅的一類(lèi)學(xué)習(xí)算法,即GLM退唠,其具有許多好的特性鹃锈,例如易于學(xué)習(xí)。此外瞧预,所得到的模型通常對(duì)于模擬y上的不同類(lèi)型的分布非常有效屎债;例如,我們很快將表明邏輯回歸和普通最小二乘都可以導(dǎo)出為GLM垢油。

普通最小二乘法

為了證明普通最小二乘法是廣義線性模型GLM族的一個(gè)特例盆驹,考慮目標(biāo)變量y(GLM術(shù)語(yǔ)中也稱(chēng)為響應(yīng)變量)是連續(xù)的設(shè)置,我們將給定x的y條件分布建模為高斯分布N(μ滩愁,σ^2)(這兒μ可能依賴(lài)x)躯喇。所以,我們將上面說(shuō)的指數(shù)族作為高斯分布惊楼。如前所述玖瘸,在高斯作為指數(shù)族分布的公式中,我們有μ=η檀咙。所以,

第一個(gè)等式源自上面的第二個(gè)假設(shè)璃诀;第二個(gè)等式很顯然成立弧可,μ是高斯分布的期望值;第三個(gè)等式滿(mǎn)足上面第一個(gè)假設(shè);最后一個(gè)等式滿(mǎn)足上面的假設(shè)3棕诵。

對(duì)數(shù)幾率回歸

我們現(xiàn)在考慮對(duì)數(shù)幾率回歸裁良。這里我們感興趣的是二元分類(lèi),所以y屬于{0,1}校套。由于y是二元值价脾,因此很自然地選擇伯努利Bernoulli分布族對(duì)y的條件分布建模。在伯努利分布作為指數(shù)族分布的公式中笛匙,我們有:


因此侨把,如果p(y|x;θ)~Bernoulli(φ),所以E(y|x;θ)=φ妹孙。所以和普通最小二乘類(lèi)似秋柄,可以得到:


最后我們得到假設(shè)函數(shù)的公式。如果你先前想知道我們是如何提出sigmoid函數(shù)的形式的蠢正,這兒給出了一個(gè)答案:一旦你假設(shè)y的條件分布滿(mǎn)足伯努利分布骇笔,它是由于廣義線性模型GLM和指數(shù)族分布的定義而產(chǎn)生的。

SoftMax回歸

我們?cè)賮?lái)討論廣義線性模型GLM更復(fù)雜一點(diǎn)的例子嚣崭”看ィ考慮一個(gè)分類(lèi)問(wèn)題,其中響應(yīng)變量y可以取k個(gè)值中的任何一個(gè)雹舀,所以y屬于{1,2,...,k}芦劣。例如,我們可能希望將電子郵件分類(lèi)為垃圾郵件葱跋,個(gè)人郵件和工作相關(guān)郵件等三類(lèi)持寄,而不是將電子郵件分類(lèi)為垃圾郵件或垃圾垃圾郵件這兩類(lèi)垃圾郵件。響應(yīng)變量仍然是離散的娱俺,但現(xiàn)在可以取得兩個(gè)以上的值稍味。 因此,我們將根據(jù)多項(xiàng)分布對(duì)其進(jìn)行建模荠卷。

讓我們派生一個(gè)廣義線性模型GLM來(lái)對(duì)這種類(lèi)型的多項(xiàng)數(shù)據(jù)建模模庐。 為此,我們將首先將多項(xiàng)式表示為指數(shù)族分布油宜。為了在k個(gè)可能的結(jié)果上參數(shù)化多項(xiàng)式掂碱,可以使用k參數(shù)φ1,...,φk來(lái)指定每個(gè)結(jié)果的概率。但是慎冤,這些參數(shù)是多余的疼燥,或者更正式地說(shuō),它們不是獨(dú)立的蚁堤。所以醉者,我們將僅使用k-1個(gè)參數(shù)φ1,...,φk-1來(lái)參數(shù)化多項(xiàng)式,其中φk = 1-∑φi(i=1,...,k-1)。
為了將多項(xiàng)式表示為指數(shù)族分布撬即,我們定義T(y)為k-1維:


與我們之前的例子不同立磁,這里我們沒(méi)有T(y)= y; 此外,T(y)現(xiàn)在是k-1維向量剥槐,而不是實(shí)數(shù)唱歧。我們將用(T(y))i來(lái)表示向量T(y)的第i個(gè)元素。
我們介紹一個(gè)非常有用的符號(hào)粒竖。 如果參數(shù)為真颅崩,則指示符函數(shù)1 {·}的值為1,否則為0(1{True} = 1,1{False} = 0)温圆。比如挨摸,1{2=3}=0,1{3=5-2}=1岁歉。所以我們也可以將T(y)和y之間的關(guān)系寫(xiě)成:


更進(jìn)一步得运,可以得到:


我們現(xiàn)在準(zhǔn)備證明多項(xiàng)式是指數(shù)族的成員。我們有:

這完成了我們將多項(xiàng)式作為指數(shù)族分布的公式锅移。鏈接函數(shù)(對(duì)于i = 1熔掺,...,k)如下:


為方便起見(jiàn)非剃,我們還定義了ηk= log(φk/φk)= 0置逻。為了反轉(zhuǎn)鏈接函數(shù)并導(dǎo)出響應(yīng)函數(shù),我們因此得到:


可以將其代入等式(7)去獲得響應(yīng)函數(shù):


從η到φ的映射函數(shù)稱(chēng)為softmax函數(shù)备绽。為了完成我們的模型券坞,我們使用前面給出的假設(shè)3,即ηi與x的線性相關(guān)肺素。所以恨锚,有ηi = θi'x(i = 1,...,k-1),這兒θi是n+1維向量倍靡,我們模型的參數(shù)猴伶。為了符號(hào)方便,我們還可以定義θk= 0塌西,以便ηk=θ'x = 0他挎,如前所述。因此捡需,我們的模型假設(shè)給定x的y的條件分布由下式給出:


該模型適用于分類(lèi)問(wèn)題办桨,其中y∈{1,...,k},是稱(chēng)為softmax回歸站辉。它是對(duì)數(shù)幾率回歸的推廣崔挖。我們的假設(shè)函數(shù)將輸出:

換句話(huà)說(shuō)贸街,對(duì)于i = 1,...,k的每個(gè)值庵寞,我們的假設(shè)將輸出p(y = i | x;θ)的估計(jì)概率狸相。

最后,讓我們討論參數(shù)擬合捐川。類(lèi)似于我們對(duì)普通最小二乘和邏輯回歸的原始推導(dǎo)脓鹃,如果我們有一個(gè)m個(gè)樣本的訓(xùn)練集{(x(i),y(i));i= 1,...,m}并想學(xué)習(xí)這個(gè)模型的參數(shù)θi古沥,我們首先寫(xiě)下對(duì)數(shù)似然:

為了獲得上面的第二行瘸右,我們使用等式(8)中給出的p(y | x;θ)的定義。 我們現(xiàn)在可以通過(guò)使用諸如梯度上升或牛頓方法之類(lèi)的方法岩齿,來(lái)最大化?(θ)來(lái)獲得參數(shù)θ的最大似然估計(jì)太颤。

筆記

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市盹沈,隨后出現(xiàn)的幾起案子龄章,更是在濱河造成了極大的恐慌,老刑警劉巖乞封,帶你破解...
    沈念sama閱讀 222,729評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件做裙,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡肃晚,警方通過(guò)查閱死者的電腦和手機(jī)锚贱,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,226評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)关串,“玉大人拧廊,你說(shuō)我怎么就攤上這事〗蓿” “怎么了吧碾?”我有些...
    開(kāi)封第一講書(shū)人閱讀 169,461評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)飞蚓。 經(jīng)常有香客問(wèn)我滤港,道長(zhǎng),這世上最難降的妖魔是什么趴拧? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 60,135評(píng)論 1 300
  • 正文 為了忘掉前任溅漾,我火速辦了婚禮,結(jié)果婚禮上著榴,老公的妹妹穿的比我還像新娘添履。我一直安慰自己,他們只是感情好脑又,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,130評(píng)論 6 398
  • 文/花漫 我一把揭開(kāi)白布暮胧。 她就那樣靜靜地躺著锐借,像睡著了一般。 火紅的嫁衣襯著肌膚如雪往衷。 梳的紋絲不亂的頭發(fā)上钞翔,一...
    開(kāi)封第一講書(shū)人閱讀 52,736評(píng)論 1 312
  • 那天,我揣著相機(jī)與錄音席舍,去河邊找鬼布轿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛来颤,可吹牛的內(nèi)容都是我干的汰扭。 我是一名探鬼主播,決...
    沈念sama閱讀 41,179評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼福铅,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼萝毛!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起滑黔,我...
    開(kāi)封第一講書(shū)人閱讀 40,124評(píng)論 0 277
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤笆包,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后拷沸,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體色查,經(jīng)...
    沈念sama閱讀 46,657評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,723評(píng)論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片有咨。...
    茶點(diǎn)故事閱讀 40,872評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖验毡,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情帝嗡,我是刑警寧澤晶通,帶...
    沈念sama閱讀 36,533評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站哟玷,受9級(jí)特大地震影響狮辽,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜巢寡,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,213評(píng)論 3 336
  • 文/蒙蒙 一喉脖、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧抑月,春花似錦树叽、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,700評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)洁仗。三九已至,卻和暖如春性锭,著一層夾襖步出監(jiān)牢的瞬間赠潦,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,819評(píng)論 1 274
  • 我被黑心中介騙來(lái)泰國(guó)打工篷店, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留祭椰,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,304評(píng)論 3 379
  • 正文 我出身青樓疲陕,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親钉赁。 傳聞我的和親對(duì)象是個(gè)殘疾皇子蹄殃,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,876評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容