我的理解之 - 斯坦福機(jī)器學(xué)習(xí)第一課

這里直接從課程的第二課開始,其實(shí)視頻里的第一課Andrew(為了方便閱讀和書寫逝嚎,以后都把Andrew Ng簡(jiǎn)稱為Andrew了臭家,沒有不敬的意思呵恢,希望他的粉絲或者讀者勿噴)主要是分享了機(jī)器學(xué)習(xí)的一些故事和應(yīng)用場(chǎng)景,總的來說就是機(jī)器學(xué)習(xí)已經(jīng)貫穿到生活的點(diǎn)點(diǎn)滴滴赊颠,每行每業(yè)格二,會(huì)點(diǎn)機(jī)器學(xué)習(xí)的同志是很高大上的(現(xiàn)在回過頭看Andrew的話,還是很有預(yù)見性的竣蹦,IT工程師不會(huì)點(diǎn)機(jī)器學(xué)習(xí)真不好意思跟人打招呼)

線性回歸

顧名思義顶猜,線性回歸就是用一條線(線性)擬合(回歸)數(shù)據(jù)分布,在最簡(jiǎn)單的2維平面中痘括,這種擬合關(guān)系體現(xiàn)為一元一次方程:


公式 1.1

θ0代表截距长窄,θ1代表x1的系數(shù),這個(gè)就是我們接觸到的最早的線性函數(shù)表達(dá)式了纲菌。擴(kuò)展一下挠日,將2維擴(kuò)展到多維(假設(shè)為n維)情況,就成了線性回歸的一般表達(dá)式了:

公式 1.2

為了簡(jiǎn)單書寫翰舌,上式最后寫成了和符號(hào)∑形式嚣潜。

損失函數(shù)

線性回歸函數(shù)只是定義了模擬我們數(shù)據(jù)分布的關(guān)系式,那剩下的問題是我們?nèi)绾吻蠼庀禂?shù)(或者可以稱之為權(quán)重)椅贱?大部分童鞋肯定知道一元方程如何求解懂算,只要拿數(shù)據(jù)中的兩個(gè)point值,帶入到方程中解二元一次方程組就能解的θ0和θ1庇麦,但是在線性回歸中有兩個(gè)現(xiàn)實(shí)的問題计技,第一所有點(diǎn)未必真的都乖乖的落在我們擬定的線性路徑上,第二就是回歸本質(zhì)上是一個(gè)預(yù)測(cè)問題山橄,如果按照求解方程組的方式來求解系數(shù)垮媒,會(huì)導(dǎo)致不同的樣本有不同的系數(shù),所以充分考慮問題的本質(zhì)是“擬”和“預(yù)測(cè)”航棱,我們并不是真的要求出某個(gè)樣本的一個(gè)系數(shù)組合睡雇,而是找出一個(gè)能預(yù)測(cè)所有樣本(已知或者未來可能出現(xiàn)的)的函數(shù),故定義了回歸函數(shù)之后饮醇,我們需要一個(gè)叫做【損失函數(shù)】的東東來評(píng)估回歸函數(shù)的訓(xùn)練求解誤差入桂,當(dāng)和樣本的誤差在我們認(rèn)定可接受的范圍內(nèi)的時(shí)候,就可以考慮接受當(dāng)前求解到的一組系數(shù)驳阎。

由于在第一課中Andrew Ng并沒有提到損失函數(shù)的大小好壞的評(píng)判標(biāo)準(zhǔn)抗愁,這里先順帶提一句馁蒂,損失函數(shù)并不是越小越好(>= 0),正如我上面說的蜘腌,損失函數(shù)值越小可能會(huì)帶來的副作用是預(yù)測(cè)能力下降(過擬合問題沫屡,對(duì)樣本描述的越精確,函數(shù)的泛化能力也越弱)

Andrew選擇的損失函數(shù)是Mean Square Loss(Or Mean Square Error):

公式 2.1

看到這里撮珠,我相信機(jī)器學(xué)習(xí)初學(xué)者肯定會(huì)有一個(gè)問題沮脖,為什么選擇<差平方的均值>啊芯急?為什么不直接用<差絕對(duì)值的均值>呢勺届,其實(shí)有實(shí)際應(yīng)用中有很多的損失函數(shù),差的平方娶耍,差的絕對(duì)值免姿,logistic損失等等,這個(gè)里面也有很大的學(xué)問榕酒,這里不展開討論胚膊,有時(shí)間再寫一些關(guān)于這方面的筆記,暫且認(rèn)為我們只有一種評(píng)價(jià)損失的函數(shù)想鹰,就是MSE紊婉。

好,看到這里,我們已經(jīng)有一個(gè)很明確的損失函數(shù)方程了,回想下我們的目標(biāo)瑞筐,即“訓(xùn)練出一個(gè)可以擬合當(dāng)前數(shù)據(jù)分布的最優(yōu)函數(shù)”,什么是最優(yōu)肢础?能使得損失函數(shù)最小的分布函數(shù)就是最優(yōu)擬合函數(shù),換言之歌殃,我們本來的目標(biāo)是得到【最優(yōu)線性擬合函數(shù)】乔妈,現(xiàn)在變成了【最小化損失函數(shù)】(其實(shí)這一步可以認(rèn)為是一種問題建模蝙云,將實(shí)際問題轉(zhuǎn)變成可以求解的量化問題)氓皱,即:

公式 2.2

梯度下降

有了量化的最小化損失函數(shù),接下來需要找一種方法求解這個(gè)函數(shù)勃刨,這里順帶提醒一句波材,損失函數(shù)是以【參數(shù)θ】為自變量的函數(shù),不是樣本點(diǎn)x身隐,這個(gè)應(yīng)該很好理解廷区,我們最終的目的是求出符合數(shù)據(jù)分布的參數(shù),只要參數(shù)確定了贾铝,方程就確定了隙轻。Andrew給出的解決方案是【梯度下降】埠帕,即先隨便先設(shè)置一組θ值,然后每次迭代朝著梯度下降最大的方向更新θ值(有可能增加也可能減少玖绿,方向是朝著最優(yōu)的方向)敛瓷,直到J(θ)達(dá)到我們?cè)O(shè)置的閾值或者在一定范圍內(nèi)不再變化為止。

為什么【梯度下降最大】的方向就是最優(yōu)解的方向呢(注意一定是下降最大的方向斑匪,設(shè)想空間中的一點(diǎn)呐籽,它的四周都是梯度,而下降最大的梯度方向才是我們要找尋的)蚀瘸?一定能達(dá)到局部最優(yōu)或者是全局最優(yōu)么狡蝶?這里先暫時(shí)不討論這兩個(gè)問題,姑且認(rèn)為這是一種被證明過的求解最優(yōu)化問題的方法贮勃。那么如何求解呢 贪惹?迭代公式如下:

公式 3.1

如Andrew視頻中所說,符號(hào)“:=”是賦值更新的含義衙猪,將“:=”右邊的值賦給左邊的變量馍乙,而“=”指的是一種等式變化的斷言,“a=b”表示a就是等于b垫释,或者a可以等值變化成b丝格,α是學(xué)習(xí)率,可以理解為參數(shù)朝著梯度方向的單位步長(zhǎng)棵譬,從公式中可以看出所謂的【梯度下降】方向就是每個(gè)參數(shù)θ的偏導(dǎo)數(shù)方向显蝌,下面具體列出下求導(dǎo)的過程:

公式 3.2

公式3.2中,m代表有m個(gè)樣本點(diǎn)订咸,j代表某個(gè)向量的第j個(gè)維度曼尊,對(duì)于θ來說,θj代表第j個(gè)參數(shù)脏嚷,對(duì)于x向量來說骆撇,xj代表第j維的值,從公式中可以得出兩個(gè)信息父叙,一個(gè)是每次迭代神郊,θj是通過對(duì)應(yīng)維度上的x值來作為調(diào)整因子的,另一個(gè)是每次θ更新都要計(jì)算樣本中的所有點(diǎn)趾唱。

Andrew稱上面的梯度下降求解為batch gradient descent涌乳,即每次需要計(jì)算樣本中所有點(diǎn)來迭代更新參數(shù)θ值,為了方便快速的迭代甜癞,可以采用一種稱為stochastic gradient descent【隨機(jī)梯度下降】的方法夕晓,每次選取某一個(gè)點(diǎn)作為參數(shù)更新的輸入,如公式3.3所示:

公式 3.3

可見每個(gè)維度θj的迭代只需要計(jì)算某個(gè)點(diǎn)的y值差和相應(yīng)維度的xj乘積悠咱,速度大大提高了蒸辆,那為啥還需要批量梯度下降算法呢征炼,都用隨機(jī)梯度下降不就完了? 這里稍微總結(jié)了下這兩個(gè)算法的主要區(qū)別:

  • SGD(隨機(jī)梯度下降)每次結(jié)果不是確定的躬贡,因?yàn)槊看胃露际请S機(jī)挑選一個(gè)點(diǎn)作為更新的依據(jù)柒室,而BGD(批量梯度下降)在初始參數(shù)輸入一定的情況下,運(yùn)行的結(jié)果永遠(yuǎn)都是固定的逗宜。
  • BGD往往能找到局部或者全局最優(yōu)解雄右,而SGD很可能在最優(yōu)解附近徘徊震蕩
  • SGD由于其隨機(jī)性,往往能避免陷入到局部極值中纺讲,而BGD容易陷入到局部極值中

這里貼兩張Andrew課中的圖來形象化展示BGD和SGD的求解過程:

圖 3.1 - BGD

將3D的模型畫成平面等高線的話如下:

圖 3.2 - BGD等高線

而SGD的等高線應(yīng)該是:

圖 3.3 - SGD等高線

利用矩陣求解參數(shù)(Normal Equation)

在課中擂仍,Andrew最后還介紹了一個(gè)利用矩陣來直接求解參數(shù)的方法(不用迭代),估計(jì)很多人看的云里霧里熬甚,因?yàn)锳ndrew寫了很多定律逢渔,比如矩陣的偏導(dǎo)數(shù)公式,trace的定義乡括,trace矩陣時(shí)的一些特性公式肃廓,這里不再贅述Andrew的求解過程,而是從另外一個(gè)大家都熟知的方法得到Andrew最后給出的參數(shù)結(jié)果等式诲泌,即【最小二乘法】盲赊,什么?7笊ā哀蘑!原來Andrew列了那么多就是最小二乘法啊,且看下面我的求解:

課中最后給出的參數(shù)解:
公式 4.1
最小二乘法求解:

經(jīng)典最小二乘法的定義式如下:

公式 4.2

對(duì)公式求導(dǎo)得到極值點(diǎn)便是參數(shù)θ的解析解(聯(lián)系我們小時(shí)候?qū)W過的求極值方法葵第,不就是求導(dǎo)么_绘迁,但是注意不是每個(gè)函數(shù)都能求導(dǎo)的哦,這個(gè)就不在這詳細(xì)說了)卒密,詳細(xì)過程如下(這里用手寫的圖片了缀台,大家湊合看吧,順便吐槽下簡(jiǎn)書哮奇,不支持在線編輯latex簡(jiǎn)直是災(zāi)難疤鸥!屏镊!比zybuluo弱爆了R捞邸L等):

公式 4.3
公式 4.4
公式 4.5

帶*號(hào)的那一段等式是矩陣求導(dǎo)的范疇而芥,如果有不懂的可以詳細(xì)去看看矩陣如何求導(dǎo)的,這里舉一個(gè)例子來說明下:

公式 4.6
公式 4.7

由此膀值,所有證明完畢棍丐,可見通過最小二乘法的矩陣運(yùn)算也能得到和Andrew課中一樣的結(jié)論误辑。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市歌逢,隨后出現(xiàn)的幾起案子巾钉,更是在濱河造成了極大的恐慌,老刑警劉巖秘案,帶你破解...
    沈念sama閱讀 211,348評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件砰苍,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡阱高,警方通過查閱死者的電腦和手機(jī)赚导,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,122評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來赤惊,“玉大人吼旧,你說我怎么就攤上這事∥粗郏” “怎么了圈暗?”我有些...
    開封第一講書人閱讀 156,936評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)裕膀。 經(jīng)常有香客問我员串,道長(zhǎng),這世上最難降的妖魔是什么昼扛? 我笑而不...
    開封第一講書人閱讀 56,427評(píng)論 1 283
  • 正文 為了忘掉前任昵济,我火速辦了婚禮,結(jié)果婚禮上野揪,老公的妹妹穿的比我還像新娘访忿。我一直安慰自己,他們只是感情好斯稳,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,467評(píng)論 6 385
  • 文/花漫 我一把揭開白布海铆。 她就那樣靜靜地躺著,像睡著了一般挣惰。 火紅的嫁衣襯著肌膚如雪卧斟。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,785評(píng)論 1 290
  • 那天憎茂,我揣著相機(jī)與錄音珍语,去河邊找鬼。 笑死竖幔,一個(gè)胖子當(dāng)著我的面吹牛板乙,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 38,931評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼募逞,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼蛋铆!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起放接,我...
    開封第一講書人閱讀 37,696評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤刺啦,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后纠脾,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體玛瘸,經(jīng)...
    沈念sama閱讀 44,141評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,483評(píng)論 2 327
  • 正文 我和宋清朗相戀三年苟蹈,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了捧韵。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,625評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡汉操,死狀恐怖再来,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情磷瘤,我是刑警寧澤芒篷,帶...
    沈念sama閱讀 34,291評(píng)論 4 329
  • 正文 年R本政府宣布,位于F島的核電站采缚,受9級(jí)特大地震影響针炉,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜扳抽,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,892評(píng)論 3 312
  • 文/蒙蒙 一篡帕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧贸呢,春花似錦镰烧、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至固蛾,卻和暖如春结执,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背艾凯。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國(guó)打工献幔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人趾诗。 一個(gè)月前我還...
    沈念sama閱讀 46,324評(píng)論 2 360
  • 正文 我出身青樓蜡感,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子铸敏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,492評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容