機器學習筆記3: 廣義線性模型

牛頓方法

之前我們在最大化對數(shù)似然函數(shù)l(θ)時用到了梯度上升法夷磕,現(xiàn)在我們介紹另一種方法。

我們先來看下如何用牛頓方法(Newton's Method)求解θ使得f(θ)=0爬虱。如下圖所示米碰,首先我們選取一個初始點,比如說令θ=4.5漫萄,然后作出f(θ)在該點的切線腾窝,這條切線與x軸相交的點θ=2.8作為下一次迭代的點缀踪。下右圖又一次重復了一輪迭代,f(θ)在θ=2.8處的切線與x軸相交于θ=1.8處虹脯,然后再次迭代到θ=1.3處辜贵。

以此類推,我們得到迭代規(guī)則如下:

牛頓方法可以找到θ使得f(θ)=0归形,那么如何把它應用到最大化l(θ)上呢托慨?當l(θ)達到最大點時,其導數(shù)為0暇榴,因此問題轉(zhuǎn)化為找到θ使得l'(θ)=0厚棵。所以,令f(θ)=l'(θ)蔼紧,我們推導出迭代規(guī)則:

上式中的θ是參數(shù)為實數(shù)的情況婆硬,當θ為向量時,我們可以推導出更通用的公式:

其中?θl(θ)是指l(θ)的梯度奸例,H是一個n * n的矩陣彬犯,被稱為海森矩陣(Hessian Matrix)向楼。

和梯度下降法相比,牛頓方法收斂的速度更快谐区,迭代的次數(shù)也更少湖蜕。但是牛頓方法每次迭代的計算量更大,因為每次都要計算一個n階矩陣的逆宋列≌咽悖總體而言,當n不是很大時牛頓方法計算的速度更快炼杖。當牛頓方法用來求解最大化對數(shù)似然函數(shù)l(θ)時灭返,這個方法也被稱為Fisher Scoring

指數(shù)分布族

到目前為止坤邪,我們分別學習了分類(classification)和回歸(regression)兩類問題熙含。在回歸問題里,我們假設p(y|x;θ)服從高斯分布N(0,σ2)艇纺;在分類問題里婆芦,我們假設p(y|x;θ)服從伯努利分布B(φ)。后面我們會看到喂饥,這兩類問題可以被統(tǒng)一到一個更通用的模型,這個模型被稱為廣義線性模型(Generalized Linear Models, GLM)肠鲫。在介紹GLM前员帮,我們先引入一個概念:指數(shù)分布族(exponential family)。

指數(shù)分布族是指一類可以被表示為如下形式的概率分布:

其中η被稱為分布的自然參數(shù)(natural parameter)导饲,或者是標準參數(shù)(canonical parameter)捞高;T(y)是充分統(tǒng)計量(sufficient statistic),通常T(y)=y渣锦;a(η)是對數(shù)分割函數(shù)(log partition function)硝岗。e-a(η)通常起著歸一化的作用,使得整個分布的總和/積分為1袋毙。

如果固定參數(shù)T, a, b型檀,就定義了一個以η為參數(shù)的函數(shù)族。當η取不同的值听盖,我們就得到一個不同的分布函數(shù)胀溺。

現(xiàn)在我們來證明高斯分布(Gaussian distribution)和伯努利分布(Bernoulli distribution)都屬于指數(shù)分布族。

對于伯努利分布B(φ)皆看,其y值為0或1仓坞,因而有p(y=1;φ)=φ; p(y=0;φ)=1-φ 。所以可推導p(y;φ)如下:

對比指數(shù)分布族的定義腰吟,可得η=log(φ/(1-φ))无埃,進而可得φ=1/(1+e),而這正是sigmoid函數(shù)的定義。同樣對比其他參數(shù)嫉称,可得:

綜上可得侦镇,伯努利分布屬于指數(shù)分布族,且φ的形式與sigmoid函數(shù)一致澎埠。

接下來我們繼續(xù)來看高斯分布N(μ,σ2)虽缕。回憶下之前推導線性回歸的時候蒲稳,σ2的值與θ和hθ(x)無關氮趋,因此為了簡化證明,我們令σ2=1江耀,所以可推導p(y;μ)如下:

對比指數(shù)分布族的定義剩胁,進而可得:

因而我們證明了高斯分布也屬于指數(shù)分布族。事實上祥国,大多數(shù)概率分布都屬于指數(shù)分布族昵观,我們列舉一些如下:

  • 多項式分布(Multinomial distribution):對有k個離散結果的事件建模
  • 泊松分布(Poisson distribution):描述單位時間內(nèi)獨立事件發(fā)生次數(shù)的概率
  • 伽馬分布(Gamma distribution)與指數(shù)分布(Exponential distribution):描述獨立事件的時間間隔的概率
  • β分布(Beta distribution):在(0,1)區(qū)間的連續(xù)概率分布
  • Dirichlet分布(Dirichlet distribution):分布的分布(for distributions over probabilities)

廣義線性模型

介紹完指數(shù)分布族后,我們開始正式介紹廣義線性模型(GLM)舌稀。對回歸或者分類問題來說啊犬,我們都可以借助于廣義線性模型進行預測。廣義線性模型基于如下三個假設:

  • 假設1: p(y|x;θ) 服從以η為參數(shù)的指數(shù)分布族中的某個分布
  • 假設2: 給定x壁查,我們的目標是預測T(y)的期望值觉至,大多數(shù)情況下T(y)=y,所以假設函數(shù)可以寫為h(x)=E[T(y)|x]
  • 假設3: η與x是線性相關的睡腿,即η=θTx

依據(jù)這三個假設语御,我們可以推導出一個非常優(yōu)雅的學習算法,也就是GLM席怪。接下來我們分別看幾個通過GLM推導出來的算法应闯。

最小二乘法

假設p(y|x;θ)服從高斯分布N(μ,σ2),我們可以推導如下:

上式中第一個等號來自假設2挂捻,第二個等號是高斯分布的特性碉纺,第三個等號
來自上一節(jié)中我們已經(jīng)證明了η=μ,第四個等號來自假設3刻撒。

邏輯回歸

假設p(y|x;θ)服從伯努利分布B(φ)惜辑,我們可以推導如下:

上式中第一個等號來自假設2,第二個等號是伯努利分布的特性疫赎,第三個等號
來自上一節(jié)中我們已經(jīng)證明了φ=1/(1+e)盛撑,第四個等號來自假設3。

這里多介紹一些術語:將η與原始概率分布中的參數(shù)聯(lián)系起來的函數(shù)g(即g(η)=E[T(y);η])稱為標準響應函數(shù)(canonical response function)捧搞,它的逆函數(shù)g-1稱為標準關聯(lián)函數(shù)(canonical link function)抵卫。

Softmax回歸

接下來我們來看一個更復雜的模型狮荔。在分類問題上,我們不止預測0和1兩個值介粘,假設我們預測的值有k個殖氏,即y∈{1,2,…,k}。那么我們就不能再使用伯努利分布了姻采,我們考慮用多項式分布(Multinomial distribution)建模雅采。

我們用φ1, φ2, ... ,φk表示每個結果出現(xiàn)的概率,即P(y=k)=φk慨亲。由于所有結果概率之和為1婚瓜,所以實際上k個參數(shù)中有1個是多余的,即:

為了使多項式分布能表示成指數(shù)分布族的形式刑棵,我們定義T(y)如下:

和我們之前的例子不一樣巴刻,T(y)這次不等于y,而是一個k-1維的向量蛉签。我們用(T(y))i表示T(y)的第i個元素胡陪。

接下來我們引入指示函數(shù)(indicator function):1{·}。如果參數(shù)表達式為真碍舍,則指示函數(shù)取值為1柠座;表達式為假,指示函數(shù)取值為0片橡,即1{True} = 1, 1{False} = 0妈经。基于上述定義锻全,我們可以得到:(T(y))i = 1{y = i},進一步可得:

現(xiàn)在我們可以證明多項式分布也屬于指數(shù)分布族录煤,證明如下:

由η的表達式鳄厌,我們可以得到η和φ的對應關系:

這個從η和φ的映射函數(shù)被稱為softmax函數(shù)(softmax function)。有了softmax函數(shù)并結合假設3妈踊,我們可以求出p(y|x;θ)為:

這個k分類問題的算法被稱為softmax回歸(softmax regression)了嚎,它是邏輯回歸更一般化的形式。

最后我們可以求出假設函數(shù):

如果要求解參數(shù)θ廊营,我們可以先求出它的對數(shù)似然函數(shù)l(θ)歪泳,然后用梯度上升或牛頓方法進行迭代。

總結

  • 梯度上升和牛頓方法都能用于求解最大化l(θ)的問題露筒,區(qū)別是牛頓方法收斂速度更快呐伞,但是它每次迭代的計算量也更大,當數(shù)據(jù)規(guī)模不大時總體上性能更優(yōu)
  • 指數(shù)分布族描述了一大類我們常見的概率分布慎式,高斯分布伶氢、伯努利分布趟径、多項式分布等都屬于指數(shù)分布族
  • 廣義線性模型(GLM)描述了一種更通用的學習模型,最小二乘法和邏輯回歸都可以從GLM推導出來
  • k分類問題可以用softmax回歸建模癣防,邏輯回歸可以看作是softmax回歸的特例(k=2)

參考資料

  • 斯坦福大學機器學習課CS229講義 pdf
  • 網(wǎng)易公開課:機器學習課程 雙語字幕視頻
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末蜗巧,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子蕾盯,更是在濱河造成了極大的恐慌幕屹,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件级遭,死亡現(xiàn)場離奇詭異望拖,居然都是意外死亡,警方通過查閱死者的電腦和手機装畅,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門靠娱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人掠兄,你說我怎么就攤上這事像云。” “怎么了蚂夕?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵迅诬,是天一觀的道長。 經(jīng)常有香客問我婿牍,道長侈贷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任等脂,我火速辦了婚禮俏蛮,結果婚禮上,老公的妹妹穿的比我還像新娘上遥。我一直安慰自己搏屑,他們只是感情好,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布粉楚。 她就那樣靜靜地躺著辣恋,像睡著了一般。 火紅的嫁衣襯著肌膚如雪模软。 梳的紋絲不亂的頭發(fā)上伟骨,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天,我揣著相機與錄音燃异,去河邊找鬼携狭。 笑死,一個胖子當著我的面吹牛回俐,可吹牛的內(nèi)容都是我干的暑中。 我是一名探鬼主播壹瘟,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼鳄逾!你這毒婦竟也來了稻轨?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤雕凹,失蹤者是張志新(化名)和其女友劉穎殴俱,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體枚抵,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡线欲,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了汽摹。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片李丰。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖逼泣,靈堂內(nèi)的尸體忽然破棺而出趴泌,到底是詐尸還是另有隱情,我是刑警寧澤拉庶,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布嗜憔,位于F島的核電站,受9級特大地震影響氏仗,放射性物質(zhì)發(fā)生泄漏吉捶。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一皆尔、第九天 我趴在偏房一處隱蔽的房頂上張望呐舔。 院中可真熱鬧,春花似錦慷蠕、人聲如沸珊拼。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽杆麸。三九已至搁进,卻和暖如春浪感,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背饼问。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工影兽, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人莱革。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓峻堰,卻偏偏與公主長得像讹开,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子捐名,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容