預備
- 不要害怕發(fā)布一款沒有用到機器學習的產(chǎn)品催跪。
- 評估指標設計并落實優(yōu)先處理的事情隅忿。
- 在復雜的啟發(fā)式問題上使用機器學習膊爪。
機器學習第一階段:你的第一個工作流
- 第一個模型要保持簡單入客,設計好基礎架構管毙。
- 確保基礎結構的可測試性痊项。
- 復制操作時锅风,小心刪除數(shù)據(jù)。
- 利用啟發(fā)式問題設計特征或從外部處理它們鞍泉。
監(jiān)控
- 知道要進行系統(tǒng)刷新皱埠。
- 輸出模型前發(fā)現(xiàn)問題。
- 當心未被報告的失敗咖驮。
- 特征欄包干到戶边器,位置建立詳細的文檔。
你的第一個目標
- 不要過度考慮選擇那個目標直接給予優(yōu)化托修。
- 為你的第一個目標忘巧,選擇一個簡單的、可觀察睦刃、可歸屬的評估指標砚嘴。
- 從一個可詮釋的模型開始能讓調(diào)試工作變得簡單些。
- 在一個策略層中分開垃圾過濾和質(zhì)量排名。
機器學習第二階段:特征工程
- 計劃發(fā)布和迭代际长。
- 從直接可以觀察耸采、被報告的特征開始。
- 能用跨語境泛化的內(nèi)容特征進行搜索工育。
- 可以的話虾宇,請使用具體的特征。
- 結合并修改現(xiàn)有特征如绸,伊人淚可以理解的方式創(chuàng)造新的特征嘱朽。
- 在一個線性模型中可以學到特征權重數(shù)量與你的數(shù)據(jù)量大致成正比。
- 清除你不在使用的特征怔接。
系統(tǒng)的人類分析
- 你并不是典型的端用戶搪泳。
- 測量模型之間的差量。-delta參數(shù)
- 選擇模型時蜕提,使用性能(utilitarian performance) 比預測能力更重要森书。
- 在測量到的誤差中尋找模式,并創(chuàng)造新特征谎势。
- 嘗試量化觀測到的不可欲的行為(undersirable behavior)凛膏。
- 意識到相同的短期行為(shortterm behavior) 并不意味著長期行為相同。
訓練表現(xiàn)與實際產(chǎn)品之間的偏差
- 要讓你的實際產(chǎn)品表現(xiàn)得和訓練時一樣好脏榆,最好的方法時再你的產(chǎn)品中保留訓練的特征集猖毫,并將這些特征放到日志中,并在訓練時使用它們须喂。
- 重要性加權的樣本數(shù)據(jù)吁断,不要武斷放棄。
- 注意坞生,如果在訓練和服務時點將表格中的數(shù)據(jù)加起來仔役,表格數(shù)據(jù)會發(fā)生變化。
- 在訓練的流程和實際產(chǎn)品流程之間是己,盡可能地重復使用統(tǒng)一代碼又兵。
- 如果你用5號之間的數(shù)據(jù)生成了一個模型,那么用6號之后的數(shù)據(jù)來測試模型卒废。
- 在使用二元分類器進行過濾時(例如垃圾郵件檢測)沛厨,用短期的犧牲獲得清潔數(shù)據(jù)的優(yōu)良性能。
- 注意在排序 問題中的固有偏差(inherent skew)摔认。
- 用位置特征避免反饋循環(huán)(feedback loops)逆皮。
- 測量訓練/實際產(chǎn)品表現(xiàn)之間的偏差(Measure Training/Serving Skew)
機器學習第三階段:放慢速度、優(yōu)化細化和復雜的模型
- 如果出現(xiàn)目標不對齊的問題就不要在新的特征上浪費時間参袱。
- 決定不知是基于一個標準做出电谣。
- 保證組件簡單秽梅。
- 性能達到高峰時,要尋找尋的信息源加以補充辰企,而不是精化現(xiàn)有的信號风纠。
- 不要期望多樣化、個性化或者與你多認為的流行性關聯(lián)牢贸。
- 在不同的產(chǎn)品中你的伙伴可能傾向于同一個產(chǎn)品。而你的興趣不是镐捧。