谷歌機器學習應用的四十三條經(jīng)驗法則

預備

  1. 不要害怕發(fā)布一款沒有用到機器學習的產(chǎn)品催跪。
  2. 評估指標設計并落實優(yōu)先處理的事情隅忿。
  3. 在復雜的啟發(fā)式問題上使用機器學習膊爪。

機器學習第一階段:你的第一個工作流

  1. 第一個模型要保持簡單入客,設計好基礎架構管毙。
  2. 確保基礎結構的可測試性痊项。
  3. 復制操作時锅风,小心刪除數(shù)據(jù)。
  4. 利用啟發(fā)式問題設計特征或從外部處理它們鞍泉。

監(jiān)控

  1. 知道要進行系統(tǒng)刷新皱埠。
  2. 輸出模型前發(fā)現(xiàn)問題。
  3. 當心未被報告的失敗咖驮。
  4. 特征欄包干到戶边器,位置建立詳細的文檔。

你的第一個目標

  1. 不要過度考慮選擇那個目標直接給予優(yōu)化托修。
  2. 為你的第一個目標忘巧,選擇一個簡單的、可觀察睦刃、可歸屬的評估指標砚嘴。
  3. 從一個可詮釋的模型開始能讓調(diào)試工作變得簡單些。
  4. 在一個策略層中分開垃圾過濾和質(zhì)量排名。

機器學習第二階段:特征工程

  1. 計劃發(fā)布和迭代际长。
  2. 從直接可以觀察耸采、被報告的特征開始。
  3. 能用跨語境泛化的內(nèi)容特征進行搜索工育。
  4. 可以的話虾宇,請使用具體的特征。
  5. 結合并修改現(xiàn)有特征如绸,伊人淚可以理解的方式創(chuàng)造新的特征嘱朽。
  6. 在一個線性模型中可以學到特征權重數(shù)量與你的數(shù)據(jù)量大致成正比。
  7. 清除你不在使用的特征怔接。

系統(tǒng)的人類分析

  1. 你并不是典型的端用戶搪泳。
  2. 測量模型之間的差量。-delta參數(shù)
  3. 選擇模型時蜕提,使用性能(utilitarian performance) 比預測能力更重要森书。
  4. 在測量到的誤差中尋找模式,并創(chuàng)造新特征谎势。
  5. 嘗試量化觀測到的不可欲的行為(undersirable behavior)凛膏。
  6. 意識到相同的短期行為(shortterm behavior) 并不意味著長期行為相同。

訓練表現(xiàn)與實際產(chǎn)品之間的偏差

  1. 要讓你的實際產(chǎn)品表現(xiàn)得和訓練時一樣好脏榆,最好的方法時再你的產(chǎn)品中保留訓練的特征集猖毫,并將這些特征放到日志中,并在訓練時使用它們须喂。
  2. 重要性加權的樣本數(shù)據(jù)吁断,不要武斷放棄。
  3. 注意坞生,如果在訓練和服務時點將表格中的數(shù)據(jù)加起來仔役,表格數(shù)據(jù)會發(fā)生變化。
  4. 在訓練的流程和實際產(chǎn)品流程之間是己,盡可能地重復使用統(tǒng)一代碼又兵。
  5. 如果你用5號之間的數(shù)據(jù)生成了一個模型,那么用6號之后的數(shù)據(jù)來測試模型卒废。
  6. 在使用二元分類器進行過濾時(例如垃圾郵件檢測)沛厨,用短期的犧牲獲得清潔數(shù)據(jù)的優(yōu)良性能。
  7. 注意在排序 問題中的固有偏差(inherent skew)摔认。
  8. 用位置特征避免反饋循環(huán)(feedback loops)逆皮。
  9. 測量訓練/實際產(chǎn)品表現(xiàn)之間的偏差(Measure Training/Serving Skew)

機器學習第三階段:放慢速度、優(yōu)化細化和復雜的模型

  1. 如果出現(xiàn)目標不對齊的問題就不要在新的特征上浪費時間参袱。
  2. 決定不知是基于一個標準做出电谣。
  3. 保證組件簡單秽梅。
  4. 性能達到高峰時,要尋找尋的信息源加以補充辰企,而不是精化現(xiàn)有的信號风纠。
  5. 不要期望多樣化、個性化或者與你多認為的流行性關聯(lián)牢贸。
  6. 在不同的產(chǎn)品中你的伙伴可能傾向于同一個產(chǎn)品。而你的興趣不是镐捧。
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末潜索,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子懂酱,更是在濱河造成了極大的恐慌竹习,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件列牺,死亡現(xiàn)場離奇詭異整陌,居然都是意外死亡,警方通過查閱死者的電腦和手機瞎领,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門泌辫,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人九默,你說我怎么就攤上這事震放。” “怎么了驼修?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵殿遂,是天一觀的道長。 經(jīng)常有香客問我乙各,道長墨礁,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任耳峦,我火速辦了婚禮恩静,結果婚禮上,老公的妹妹穿的比我還像新娘妇萄。我一直安慰自己蜕企,他們只是感情好,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布冠句。 她就那樣靜靜地躺著轻掩,像睡著了一般。 火紅的嫁衣襯著肌膚如雪懦底。 梳的紋絲不亂的頭發(fā)上唇牧,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天罕扎,我揣著相機與錄音,去河邊找鬼丐重。 笑死腔召,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的扮惦。 我是一名探鬼主播臀蛛,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼崖蜜!你這毒婦竟也來了浊仆?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤豫领,失蹤者是張志新(化名)和其女友劉穎抡柿,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體等恐,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡洲劣,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了课蔬。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片囱稽。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖购笆,靈堂內(nèi)的尸體忽然破棺而出粗悯,到底是詐尸還是另有隱情,我是刑警寧澤同欠,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布样傍,位于F島的核電站,受9級特大地震影響铺遂,放射性物質(zhì)發(fā)生泄漏衫哥。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一襟锐、第九天 我趴在偏房一處隱蔽的房頂上張望撤逢。 院中可真熱鬧,春花似錦粮坞、人聲如沸蚊荣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽互例。三九已至,卻和暖如春筝闹,著一層夾襖步出監(jiān)牢的瞬間媳叨,已是汗流浹背腥光。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留糊秆,地道東北人武福。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像痘番,于是被迫代替她去往敵國和親捉片。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容