StanFord 機(jī)器學(xué)習(xí)公開(kāi)課筆記(3):牛頓方法和廣義線性模型(GLM)

本講視頻及講義鏈接

牛頓方法

牛頓方法是一種比梯度下降更快的找到極值的算法喘批。

過(guò)程及原理

在前一章的講解中已經(jīng)知道了擬合的本質(zhì)是在給定x和 \theta 的條件下出現(xiàn)y的概率的極大似然估計(jì),最終通過(guò)對(duì)極大似然函數(shù)的對(duì)數(shù)使用梯度上升法來(lái)迭代求出極大值(可能是最大值)。

那么現(xiàn)在我們換種思路來(lái)求極大似然函數(shù)的局部最大值棋恼,我們知道極值點(diǎn)的導(dǎo)數(shù)(如果存在)都為0萎坷,因此我們只需要求出使得 l'(\theta) = 0\theta 即可。

而牛頓方法是用來(lái)求一個(gè)函數(shù)的零點(diǎn)的方法成艘,所謂牛頓方法就是通過(guò)某些步驟求出 l'(\theta) 的零點(diǎn)赏半,從而得到 \theta 的過(guò)程:

某個(gè)函數(shù) f(x) 的圖像如下:
{% asset_img markdown-img-paste-20180214170331655.png %}

由圖可知 f'(x_1) = \frac{f(x_1)}{\Delta} \rightarrow \Delta = \frac{f(x_1)}{f'(x_1)} ,因此x_2 = x_1 - \Delta = x_1 -\frac{f(x_1)}{f'(x_1)} y以此類推可以得到一個(gè)遞推公式:

x_{t+1} = x_t - \Delta = x_t -\frac{f(x_t)}{f'(x_t)}

按這個(gè)公式進(jìn)行迭代淆两,最終能夠得到這個(gè)函數(shù) f(x) 的零點(diǎn)除破。

上面就是牛頓法求函數(shù)零點(diǎn)的方法,現(xiàn)在我們用它來(lái)尋找 l’(\theta) 的零點(diǎn):

\theta_{t+1} = \theta_t - \frac{l'(\theta)}{l''(\theta)}

函數(shù)導(dǎo)數(shù)的零點(diǎn)就是函數(shù)的可能極值點(diǎn)琼腔。

牛頓法迭代的特點(diǎn)

  • 初始值影響不大(一般初始化為全零即可)

    這是Andrew的原話瑰枫,但是我覺(jué)得如果函數(shù)導(dǎo)數(shù)有多個(gè)零點(diǎn),則初始點(diǎn)的選取是能夠直接影響得到的結(jié)果的丹莲,不知道老師為什么要這么說(shuō)光坝。

  • 收斂速度快。這個(gè)方法的收斂速度是“二次收斂”甥材,即每次迭代結(jié)果和最終結(jié)果之間的誤差指數(shù)級(jí)減小盯另。

  • 這個(gè)方法不是對(duì)所有函數(shù)都適用,適用的函數(shù)有復(fù)雜的限制洲赵,這里不講鸳惯。

  • 當(dāng)參數(shù) \theta 是高維的情況下:

    \theta^{(t+1)} = \theta^{t} - H^{-1}\nabla_\theta l

    其中H是Hessian矩陣:H_{ij} = \frac{\partial ^{2}l}{\partial \theta_{i}\partial\theta_{j}}

    牛頓方法相比于梯度上升發(fā)的缺點(diǎn)是每次迭代都需要計(jì)算Hessian矩陣的逆矩陣,這是一個(gè) n+1 維的矩陣叠萍,因此一般只在特征較少時(shí)(十幾個(gè))使用牛頓法芝发。

廣義線性模型(Global Linear Model)

之前的課程中了解了兩類模型:

  • 線性回歸:

    y \in R^n 且符合高斯分布(正態(tài)分布)<- 線性函數(shù)

  • logistic回歸:

    y \in R^n 且符合伯努利分布(0-1分布)<- sigmod函數(shù)(或logistic函數(shù)):y = \frac{1}{1+e^{-x}}

上一份筆記的末尾留了一個(gè)問(wèn)題:為什么選擇logistic函數(shù)來(lái)建模伯努利分布呢?為什么線性回歸和logistic回歸使用的函數(shù)不同苛谷,迭代過(guò)程卻十分相似呢辅鲸?

這是因?yàn)樗鼈儍蓚€(gè)都是指數(shù)分布族的特殊情況。

指數(shù)分布族(Exponential Family)

\begin{align} P(y;&\eta) = b(y)exp(\eta^TT(y)-a(\eta))\\ & \eta \rightarrow natural \; paramater\\ & T(y) \rightarrow sufficient\;statistic\;value \end{align}
一般 T(y) = y腹殿。

伯努利分布還原為指數(shù)分布族形式

\begin{align} B(\phi) & =\phi^y(1-\phi)^{(1-y)}\\ & = exp(ln(\phi^y(1-\phi)^{(1-y)}))\\ & = exp(yln\phi + (1-y)ln(1-\phi))\\ & = exp(ln\frac{\phi}{1-\phi}y+ln(1-\phi)) \end{align}

從上面的結(jié)果可以看出独悴,伯努利分布是指數(shù)分布族在

\begin{align} & \eta = ln\frac{\phi}{1-\phi}\\ & a(\eta) = -log(1-\phi)\\ & b(y) = 1\\ & T(y) = y \end{align}

時(shí)的特殊情況例书。可以將 \phi\eta 表示出來(lái)再代入 a(\eta) 的表達(dá)式刻炒,這樣就可以得到變量統(tǒng)一的 a(\eta)
\begin{align} & \eta = ln(\frac{\phi}{1-\phi}) \rightarrow \phi = \frac{1}{1+e^{-\eta}}\\ & a(\eta) = -log(1-\phi) \rightarrow a(\eta) = log(1+e^{\eta})\\ \end{align}

高斯分布還原為為指數(shù)分布族形式

高斯分布: N(\mu,\sigma^2).

因?yàn)樵谥案咚狗植嫉膮?shù)擬合(梯度下降迭代)過(guò)程中决采,我們發(fā)現(xiàn)參數(shù) \sigma 的值并不影響迭代過(guò)程,也就不影響最終擬合出來(lái)的參數(shù)坟奥,因此為了簡(jiǎn)化推導(dǎo)過(guò)程树瞭,我們?cè)O(shè) \sigma = 1

\begin{align} N(\mu,\sigma^2) & = \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}(y-\mu)^2)\\ & = \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2)exp(\mu y-\frac{1}{2}\mu ^2) \end{align}

因此筏勒,高斯分布是指數(shù)分布族在

\begin{align} & \eta = \mu\\ & a(\eta) = -\frac{1}{2}\mu^2\\ & b(y) = \frac{1}{\sqrt{2\pi}}exp(-\frac{1}{2}y^2)\\ & T(y) = y \end{align}

時(shí)的特殊情況移迫。

不僅是高斯分布和伯努利分布,伽馬分布管行、泊松分布都能夠?qū)懗芍笖?shù)分布族的形式厨埋。

構(gòu)建廣義線性模型

廣義線性模型符合下述三個(gè)假設(shè):

  1. y|x;\theta \sim Exponential\;Family
  2. 給定 x, 目的是輸出一個(gè)期望 E[T(y)|x] 使得 h(x)=E[T(y)|x] 最大捐顷。
  3. \eta=\theta^T x荡陷,即x\eta之間是線性關(guān)系。更一般的情況下(\eta是向量)則:\eta_i = \theta^T_i x .

第三個(gè)假設(shè)迅涮,其實(shí)更準(zhǔn)確地說(shuō)是我們?cè)谠O(shè)計(jì)GLMs時(shí)的一種設(shè)計(jì)選擇(design choice)废赞。有了這些假設(shè)和設(shè)計(jì)選擇,我們才能夠推導(dǎo)出優(yōu)美的叮姑、具有許多有優(yōu)良性質(zhì)的學(xué)習(xí)算法唉地,也就是GLMs。

在GLMs的基礎(chǔ)上传透,我們?nèi)绾螐母怕誓P蜆?gòu)造出數(shù)學(xué)函數(shù)呢耘沼?下面以之前講過(guò)的兩個(gè)模型為例:

構(gòu)造出線性回歸問(wèn)題的函數(shù)

我們已經(jīng)分析過(guò),線性回歸問(wèn)題中的目標(biāo)變量 y (學(xué)術(shù)上稱 y為“響應(yīng)變量”)符合高斯分布,那么僅僅知道這一點(diǎn)朱盐,我們?nèi)绾螌⑦@個(gè)概率模型具體化為某個(gè)函數(shù)來(lái)模擬參數(shù)呢群嗤?下面用GLMs來(lái)做到這一點(diǎn):

  1. 之前已經(jīng)證明高斯分布是指數(shù)分布族的特殊情況。即 y|x;\theta \sim Exponential \; Family

  2. 對(duì)于給定的 x兵琳,算法預(yù)測(cè) T(y) (此處 T(y) = y)狂秘,因此輸出的是 E[y|x;\theta] = \mu = \eta

  3. \eta = \theta^Tx \rightarrow h_\theta(x) = \theta^Tx

構(gòu)造出二分類問(wèn)題中使用的logistic函數(shù)

下面使用GLMs從伯努利概率分布函數(shù)自然地推導(dǎo)出logistic函數(shù):

  1. y|x;\theta \sim Exponential \; Family。這個(gè)之前已經(jīng)推導(dǎo)過(guò)躯肌。

  2. 對(duì)于給定的x,\theta 者春,目標(biāo)是預(yù)測(cè)一個(gè)T(y) ,而在大多數(shù)情況下 T(y) = y 羡榴。因此算法輸出 h_\theta(x) = E[y|x;\theta] = P(y=1|x;\theta) = \phi = \frac{1}{1+e^{-\eta}}

  3. \eta = \theta^Tx \rightarrow h_\theta(x) = \frac{1}{1+e^{-\theta^Tx}}

正則響應(yīng)函數(shù)(canonical response function)

上述構(gòu)造過(guò)程中的
g(\eta) = E[y;\eta] = \frac{1}{1+e^{-\eta}} 也稱為正則響應(yīng)函數(shù)碧查。

正則關(guān)聯(lián)函數(shù)(canonical link function)

g^{-1}(\eta) 被稱為正則關(guān)聯(lián)函數(shù)。

Softmax Regression

課程中使用GLMs推導(dǎo)了二項(xiàng)分布模型的數(shù)學(xué)表達(dá)式校仑,由于過(guò)程復(fù)雜且本人學(xué)習(xí)重點(diǎn)不在這里忠售,因此就不記錄了,有興趣可以看講義迄沫,里面有詳細(xì)過(guò)程稻扬。

GLM是一個(gè)強(qiáng)大的建模工具

從上面的例子中我們可以看到,有了GLM之后羊瘩,我們所要做的僅僅是決定對(duì)某個(gè)問(wèn)題我們使用哪種概率模型即可泰佳。決定了之后,如果這個(gè)概率模型屬于是指數(shù)分布族(大多數(shù)情況下都是這樣)尘吗,那么就可以通過(guò)上述步驟“自動(dòng)地”得出用于模擬這個(gè)概率模型的含參數(shù)學(xué)表達(dá)式逝她。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末睬捶,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子臀晃,更是在濱河造成了極大的恐慌,老刑警劉巖介劫,帶你破解...
    沈念sama閱讀 219,490評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異蔽氨,居然都是意外死亡商模,警方通過(guò)查閱死者的電腦和手機(jī)宦棺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)渺氧,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)蹬屹,“玉大人,你說(shuō)我怎么就攤上這事贩耐〕碧” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,830評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)澡为。 經(jīng)常有香客問(wèn)我景埃,道長(zhǎng)谷徙,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,957評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮骗随,結(jié)果婚禮上鸿染,老公的妹妹穿的比我還像新娘涨椒。我一直安慰自己,他們只是感情好免猾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評(píng)論 6 393
  • 文/花漫 我一把揭開(kāi)白布猎提。 她就那樣靜靜地躺著锨苏,像睡著了一般棺聊。 火紅的嫁衣襯著肌膚如雪限佩。 梳的紋絲不亂的頭發(fā)上裸弦,一...
    開(kāi)封第一講書(shū)人閱讀 51,754評(píng)論 1 307
  • 那天理疙,我揣著相機(jī)與錄音沪斟,去河邊找鬼暇矫。 笑死李根,一個(gè)胖子當(dāng)著我的面吹牛房轿,可吹牛的內(nèi)容都是我干的所森。 我是一名探鬼主播焕济,決...
    沈念sama閱讀 40,464評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼晴弃,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了际邻?” 一聲冷哼從身側(cè)響起世曾,我...
    開(kāi)封第一講書(shū)人閱讀 39,357評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤轮听,失蹤者是張志新(化名)和其女友劉穎寿冕,沒(méi)想到半個(gè)月后驼唱,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,847評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡优俘,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評(píng)論 3 338
  • 正文 我和宋清朗相戀三年帆焕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了叶雹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片换吧。...
    茶點(diǎn)故事閱讀 40,137評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡沾瓦,死狀恐怖贯莺,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情魂莫,我是刑警寧澤豁鲤,帶...
    沈念sama閱讀 35,819評(píng)論 5 346
  • 正文 年R本政府宣布琳骡,位于F島的核電站讼溺,受9級(jí)特大地震影響怒坯,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜视译,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評(píng)論 3 331
  • 文/蒙蒙 一酷含、第九天 我趴在偏房一處隱蔽的房頂上張望椅亚。 院中可真熱鬧,春花似錦弥虐、人聲如沸霜瘪。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,023評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)琳拭。三九已至描验,卻和暖如春膘流,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背耕魄。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,149評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工吸奴, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留则奥,地道東北人狭园。 一個(gè)月前我還...
    沈念sama閱讀 48,409評(píng)論 3 373
  • 正文 我出身青樓唱矛,卻偏偏與公主長(zhǎng)得像俊戳,于是被迫代替她去往敵國(guó)和親抑胎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子渐北,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容