《Machine Learning Yearning》總結(jié)筆記(一)

《Machine Learning Yearning》是吳恩達(dá)歷時兩年,根據(jù)自己多年實踐經(jīng)驗整理出來的一本機(jī)器學(xué)習(xí)芥挣、深度學(xué)習(xí)實踐經(jīng)驗寶典吱瘩。注意,這還是一本總結(jié)實踐經(jīng)驗的書葫松,這相比于市面上絕大部分側(cè)重于模型理論與證明推導(dǎo)的機(jī)器學(xué)習(xí)書籍不同,是鮮有的涉及工程實踐經(jīng)驗的一本書底洗。每一章內(nèi)容都短小精悍腋么,干貨十足,強(qiáng)烈推薦給從事數(shù)據(jù)領(lǐng)域工作的朋友亥揖。

其實本書的每一章節(jié)的內(nèi)容都非常精煉珊擂,想要從中提煉什么要點,難免會損失書中所涉及到的很多重要的邏輯思維方法费变。所以這里的要點總結(jié)一方面只是作為個人閱讀記錄摧扇,另一方面則主要力圖概括每個章節(jié)涉及的知識內(nèi)容,方便沒有閱讀本書的朋友們快速了解本書內(nèi)容結(jié)構(gòu)挚歧。


1~3節(jié)

本書前三節(jié)屬于介紹性內(nèi)容扛稽,說明了本書的目的在于幫助大家理解如何為一個機(jī)器學(xué)習(xí)項目設(shè)定技術(shù)方向,如何制定合適的學(xué)習(xí)策略滑负。

4~7節(jié)

這部分介紹了數(shù)據(jù)規(guī)模和可用性是機(jī)器學(xué)習(xí)得以發(fā)展的主要因素在张。而解決訓(xùn)練數(shù)據(jù)集的準(zhǔn)備問題是開展機(jī)器學(xué)習(xí)項目的首要問題。

用于訓(xùn)練的數(shù)據(jù)要盡量符合應(yīng)用實際
機(jī)器學(xué)習(xí)需要搜集數(shù)據(jù)集用于訓(xùn)練和檢測矮慕。并通常使用70% / 30%的比例來隨機(jī)劃分獲得的數(shù)據(jù)集來獲得訓(xùn)練集和檢驗集帮匾。但要注意到,在很多實際應(yīng)用中痴鳄,搜集到的數(shù)據(jù)集往往與真實的應(yīng)用場景搜索不同瘟斜。(原文中將用于交叉檢驗的訓(xùn)練集分為訓(xùn)練集和開發(fā)集)

這就需要合理的選擇訓(xùn)練集和檢驗集,使之能夠代表將來實際數(shù)據(jù)的情況夏跷。要盡量想辦法模擬實際使用場景來獲取數(shù)據(jù)哼转。

訓(xùn)練集和檢驗集的分布要一致
此外,不能武斷地認(rèn)為檢驗集的分布和訓(xùn)練集是相同的槽华。要盡可能的選擇最終期望算法能夠正確處理的樣本作為檢驗集壹蔓,而不是隨便選擇一個你恰好擁有的訓(xùn)練集樣本。

如果一套訓(xùn)練系統(tǒng)在訓(xùn)練集上運(yùn)行性能良好猫态,但在檢驗集上卻效果不佳佣蓉。只有在訓(xùn)練集和檢驗集的分布相同時披摄,才能夠確定算法是在訓(xùn)練集上過擬合了。但如果訓(xùn)練集和檢驗集分布不一致勇凭,則無法排除數(shù)據(jù)本身對結(jié)果的影響疚膊,從而無法確定算法是否有問題。

訓(xùn)練集和檢驗集的大小
訓(xùn)練集的規(guī)模應(yīng)該盡量大虾标,這樣才能在交叉驗證的過程中分辨出學(xué)習(xí)器之間的性能差異寓盗。一個只有100個樣本的訓(xùn)練集無法檢測出兩個性能差距0.1%的學(xué)習(xí)器之間的差別。

檢驗集是用來評估學(xué)習(xí)器性能的數(shù)據(jù)集璧函,所以檢驗集的大小要能夠滿足對整體系統(tǒng)性能進(jìn)行一個高可信度的評估傀蚌。一般在數(shù)據(jù)總量貼近10000左右的情況下,采取30%比重的數(shù)據(jù)作為檢驗集是可以檢測到0.1%的性能提升的蘸吓。但在大數(shù)據(jù)時代善炫,數(shù)據(jù)總量非常龐大,并不需要按比例劃分檢驗集才能檢測到這0.1%的性能差異库继,只需要有足夠量的數(shù)據(jù)可以箩艺。

8~10節(jié)

介紹了學(xué)習(xí)器的評價指標(biāo)。
使用多個評價指標(biāo)宪萄,往往由于不同學(xué)習(xí)器在不同指標(biāo)上各有優(yōu)劣艺谆,難以抉擇。使用單評價指標(biāo)則能幫助你更快地做出判斷雨膨。

取平均值或者加權(quán)平均值是將多個指標(biāo)合并為一個指標(biāo)的最常用方法之一擂涛。此外,還可以設(shè)置多個“滿意度指標(biāo)”和一個“優(yōu)化指標(biāo)”聊记。篩選“滿意度指標(biāo)”達(dá)到指定目標(biāo)范圍下,“優(yōu)化指標(biāo)”最好的一個學(xué)習(xí)器恢暖。

而通過評價指標(biāo)評價學(xué)習(xí)器性能排监,可以指導(dǎo)我們不斷地迭代,改進(jìn)系統(tǒng)構(gòu)建的策略和想法杰捂。在特定訓(xùn)練集下舆床,可以清楚地比較每次迭代后的效果如何。

11~12節(jié)

在機(jī)器學(xué)習(xí)項目的實踐過程中嫁佳,訓(xùn)練集挨队、檢驗集和評價指標(biāo)并不是選定后就不改變的。

如果在實踐過程中漸漸發(fā)現(xiàn)初始的訓(xùn)練集蒿往、檢驗集和評價指標(biāo)與期望的目標(biāo)有一定差距時盛垦,就要盡快想辦法改進(jìn)它們。

通常有三個方面的錯誤需要進(jìn)行修正:
1瓤漏、實際的數(shù)據(jù)分布和訓(xùn)練集/檢驗集的數(shù)據(jù)分布不同腾夯。
2颊埃、學(xué)習(xí)器在訓(xùn)練集上過擬合了。
3蝶俱、評價指標(biāo)不能反映項目優(yōu)化的目標(biāo)。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末榨呆,一起剝皮案震驚了整個濱河市罗标,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌积蜻,老刑警劉巖闯割,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異浅侨,居然都是意外死亡纽谒,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進(jìn)店門如输,熙熙樓的掌柜王于貴愁眉苦臉地迎上來鼓黔,“玉大人,你說我怎么就攤上這事不见“幕” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵稳吮,是天一觀的道長缎谷。 經(jīng)常有香客問我,道長灶似,這世上最難降的妖魔是什么列林? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮酪惭,結(jié)果婚禮上希痴,老公的妹妹穿的比我還像新娘。我一直安慰自己春感,他們只是感情好砌创,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著鲫懒,像睡著了一般嫩实。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上窥岩,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天甲献,我揣著相機(jī)與錄音,去河邊找鬼谦秧。 笑死竟纳,一個胖子當(dāng)著我的面吹牛撵溃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播锥累,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼缘挑,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了桶略?” 一聲冷哼從身側(cè)響起语淘,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎际歼,沒想到半個月后惶翻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡鹅心,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年吕粗,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片旭愧。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡颅筋,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出输枯,到底是詐尸還是另有隱情议泵,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布桃熄,位于F島的核電站先口,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏瞳收。R本人自食惡果不足惜碉京,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望螟深。 院中可真熱鬧收夸,春花似錦、人聲如沸血崭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽夹纫。三九已至,卻和暖如春设凹,著一層夾襖步出監(jiān)牢的瞬間舰讹,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工闪朱, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留月匣,地道東北人钻洒。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像锄开,于是被迫代替她去往敵國和親素标。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 一萍悴、機(jī)器學(xué)習(xí)策略的原因 機(jī)器學(xué)習(xí)是無數(shù)重要應(yīng)用程序的基礎(chǔ)头遭,包括網(wǎng)絡(luò)搜索,電子郵件反垃圾郵件癣诱,語音識別计维,產(chǎn)品推薦等。...
    陽光前閱讀 665評論 0 0
  • Andrew Ng目錄 為什么需要機(jī)器學(xué)習(xí)策略 如何使用這本書來幫助你的團(tuán)隊 預(yù)備知識和符號約定 規(guī)模促進(jìn)了機(jī)器學(xué)...
    Jakai閱讀 3,448評論 1 0
  • 首頁 資訊 文章 資源 小組 相親 登錄 注冊 首頁 最新文章 IT 職場 前端 后端 移動端 數(shù)據(jù)庫 運(yùn)維 其他...
    Helen_Cat閱讀 3,845評論 1 10
  • 》擬合訓(xùn)練數(shù)據(jù)和尋找能夠泛化到新數(shù)據(jù)的參數(shù)有哪些不同撕予。 》如何使用額外的數(shù)據(jù)設(shè)置超參數(shù)鲫惶。 》機(jī)器學(xué)習(xí)本質(zhì)上屬于應(yīng)用...
    N89757閱讀 2,119評論 0 0
  • 1. 章節(jié)主要內(nèi)容(遇到不清楚的概念請在第二節(jié)基礎(chǔ)知識中找尋解釋) 在第一章緒論中,我們知道要根據(jù)具體的問題選擇具...
    閃電隨筆閱讀 4,314評論 1 10