構(gòu)建機器學(xué)習(xí)算法

  • 本文首發(fā)自公眾號:RAIS睦柴,點擊直接關(guān)注毯侦。

前言

本系列文章為《Deep Learning》讀書筆記,可以參看原書一起閱讀米死,效果更佳。我們前面也介紹了一些構(gòu)建機器學(xué)習(xí)或深度學(xué)習(xí)的一些內(nèi)容贮庞,理解了其中部分原理和這么做的原因峦筒,接下來我們總結(jié)一下,跳出來從更高一點的方面去概括的看一看窗慎,也許會有不同的感覺物喷。

構(gòu)建機器學(xué)習(xí)算法

構(gòu)建機器學(xué)習(xí)算法是有套路的:特定的數(shù)據(jù)集、代價函數(shù)遮斥、優(yōu)化過程和模型峦失。數(shù)據(jù)集比較好理解,沒有數(shù)據(jù)模型就沒辦法訓(xùn)練术吗,需要做的事情可能是把不好是數(shù)據(jù)處理成好的數(shù)據(jù)尉辑,這屬于特征工程方面的問題,在深度學(xué)習(xí)研究者中也有大量的時間花在了特征工程上较屿。代價函數(shù)隧魄,機器學(xué)習(xí)的訓(xùn)練模型的過程就是優(yōu)化代價函數(shù)的過程,盡可能使代價函數(shù)減小吝镣。一般的優(yōu)化算法就是找損失函數(shù)梯度為零堤器,或者說找到最小值(極小值)的一組參數(shù)。代價函數(shù)一般與 損失函數(shù)目標(biāo)函數(shù) 進行一個對比末贾,他們的區(qū)別是:

  • 損失函數(shù):通常定義在一個數(shù)據(jù)點上來計算誤差闸溃;
  • 代價函數(shù):通常定義在整個訓(xùn)練集上來計算誤差,是損失函數(shù)的平均值拱撵;
  • 目標(biāo)函數(shù):訓(xùn)練期間優(yōu)化任何功能的最通用的術(shù)語辉川,包括目標(biāo)損失和結(jié)構(gòu)損失(如代價函數(shù) + 正則化)

具體那個式子叫做什么其實還是有一點爭議的,不過不要糾結(jié)了拴测,明確具體需要做什么就好了乓旗。我們這里需要提醒一下,由于模型的不同集索,不是所有的時候都能找到閉式解屿愚,例如非線性模型,這時需要用到數(shù)值優(yōu)化的方法务荆,比如梯度下降的方法逼近目標(biāo)妆距,不是這里的重點,注意就好函匕。

遇到的問題

促使一門學(xué)科的發(fā)展從來都不是已經(jīng)比較好解決了的問題娱据,都是那些沒有解決的問題,深度學(xué)習(xí)機器學(xué)習(xí)也是一樣的盅惜,正是因為還存在各種問題才推動著其繼續(xù)向前發(fā)展中剩。

維數(shù)災(zāi)難

又名維數(shù)的詛咒忌穿,是不是有那么一種命中注定的感覺。每增加一個維度數(shù)據(jù)空間的大小都成指數(shù)級增長结啼,要填滿數(shù)據(jù)空間所需要的數(shù)據(jù)量就會急劇膨脹掠剑,反過來來說,數(shù)據(jù)量沒那么大的情況下就會讓數(shù)據(jù)在其空間的分布變得稀疏郊愧,也就是大量的特征沒有數(shù)據(jù)去進行訓(xùn)練澡腾,必然會導(dǎo)致模型的泛化能力減弱。

維數(shù)災(zāi)難

局部不變性

為了更好的泛化糕珊,機器學(xué)習(xí)應(yīng)該由先驗引導(dǎo)應(yīng)該學(xué)習(xí)什么類型的函數(shù),其中最廣泛的是平滑先驗(局部不變性先驗)毅糟,說的是我們學(xué)習(xí)的函數(shù)不應(yīng)該在小區(qū)域內(nèi)發(fā)生很大的變化红选,這是我們可以直觀理解的。一般情況下姆另,這都能表現(xiàn)良好喇肋,問題是在高維空間上,即使非常平滑的函數(shù)在同維度上也有不同的變化迹辐,如果函數(shù)在不同的區(qū)間表現(xiàn)不一樣蝶防,那就沒辦法用一組訓(xùn)練樣本去刻畫函數(shù),也就沒辦法很好的泛化明吩。

流形學(xué)習(xí)

流形學(xué)習(xí)可以用在維數(shù)約簡方面间学,主要做法就是將高維的數(shù)據(jù)映射到低維,在低維上數(shù)據(jù)能夠反映高維數(shù)據(jù)的本質(zhì)特征印荔,其中去除的是高維數(shù)據(jù)的一些冗余低葫。反過來,也是因為這假設(shè)的是這個高維數(shù)據(jù)是原來低緯數(shù)據(jù)嵌入到高維空間中仍律,流形學(xué)習(xí)是求其逆運算嘿悬。

流形學(xué)習(xí)

總結(jié)

本文介紹了構(gòu)建機器學(xué)習(xí)方法的一般步驟,及其所遇到的問題水泉。

  • 本文首發(fā)自公眾號:RAIS善涨,點擊直接關(guān)注。由于各平臺 Markdown 解析差異草则,有些公式顯示效果不好钢拧,請到我 個人維護網(wǎng)站 查看。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末畔师,一起剝皮案震驚了整個濱河市娶靡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌看锉,老刑警劉巖姿锭,帶你破解...
    沈念sama閱讀 219,110評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件塔鳍,死亡現(xiàn)場離奇詭異,居然都是意外死亡呻此,警方通過查閱死者的電腦和手機轮纫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,443評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來焚鲜,“玉大人掌唾,你說我怎么就攤上這事》薨酰” “怎么了糯彬?”我有些...
    開封第一講書人閱讀 165,474評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長葱她。 經(jīng)常有香客問我撩扒,道長,這世上最難降的妖魔是什么吨些? 我笑而不...
    開封第一講書人閱讀 58,881評論 1 295
  • 正文 為了忘掉前任搓谆,我火速辦了婚禮,結(jié)果婚禮上豪墅,老公的妹妹穿的比我還像新娘泉手。我一直安慰自己,他們只是感情好偶器,可當(dāng)我...
    茶點故事閱讀 67,902評論 6 392
  • 文/花漫 我一把揭開白布斩萌。 她就那樣靜靜地躺著,像睡著了一般屏轰。 火紅的嫁衣襯著肌膚如雪术裸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,698評論 1 305
  • 那天亭枷,我揣著相機與錄音袭艺,去河邊找鬼。 笑死叨粘,一個胖子當(dāng)著我的面吹牛猾编,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播升敲,決...
    沈念sama閱讀 40,418評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼答倡,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了驴党?” 一聲冷哼從身側(cè)響起瘪撇,我...
    開封第一講書人閱讀 39,332評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后倔既,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體恕曲,經(jīng)...
    沈念sama閱讀 45,796評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,968評論 3 337
  • 正文 我和宋清朗相戀三年渤涌,在試婚紗的時候發(fā)現(xiàn)自己被綠了佩谣。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,110評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡实蓬,死狀恐怖茸俭,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情安皱,我是刑警寧澤调鬓,帶...
    沈念sama閱讀 35,792評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站酌伊,受9級特大地震影響袖迎,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜腺晾,卻給世界環(huán)境...
    茶點故事閱讀 41,455評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望辜贵。 院中可真熱鬧悯蝉,春花似錦、人聲如沸托慨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,003評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厚棵。三九已至蕉世,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間婆硬,已是汗流浹背狠轻。 一陣腳步聲響...
    開封第一講書人閱讀 33,130評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留彬犯,地道東北人向楼。 一個月前我還...
    沈念sama閱讀 48,348評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像谐区,于是被迫代替她去往敵國和親湖蜕。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,047評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 機器學(xué)習(xí)術(shù)語表 本術(shù)語表中列出了一般的機器學(xué)習(xí)術(shù)語和 TensorFlow 專用術(shù)語的定義宋列。 A A/B 測試 (...
    yalesaleng閱讀 1,966評論 0 11
  • 》擬合訓(xùn)練數(shù)據(jù)和尋找能夠泛化到新數(shù)據(jù)的參數(shù)有哪些不同昭抒。 》如何使用額外的數(shù)據(jù)設(shè)置超參數(shù)。 》機器學(xué)習(xí)本質(zhì)上屬于應(yīng)用...
    N89757閱讀 2,132評論 0 0
  • 以西瓜書為主線,以其他書籍作為參考進行補充灭返,例如《統(tǒng)計學(xué)習(xí)方法》盗迟,《PRML》等 第一章 緒論 1.2 基本術(shù)語 ...
    danielAck閱讀 4,523評論 0 6
  • A 準(zhǔn)確率(accuracy) 分類模型預(yù)測準(zhǔn)確的比例。在多類別分類中婆殿,準(zhǔn)確率定義如下: 在二分類中诈乒,準(zhǔn)確率定義為...
    630d0109dd74閱讀 1,332評論 0 3
  • 本文編譯自谷歌開發(fā)者機器學(xué)習(xí)術(shù)語表項目,介紹了該項目所有的術(shù)語與基本解釋婆芦。 A 準(zhǔn)確率(accuracy) 分類模...
    630d0109dd74閱讀 2,004評論 0 1