[機(jī)器學(xué)習(xí)] End-to-End流程

Reference: Hands-on Machine Learning with Scikit-Learn and Tensorflow

1. 確定需求和問題:
- 項(xiàng)目目標(biāo)是什么磅崭?
- 在產(chǎn)品中如何實(shí)現(xiàn)踪少?
- 是否有現(xiàn)行的模型或方法性含,如果有的話,是什么肥荔,效果怎么樣?
- 要求是batch-learning還是online learning污尉?
- 用哪些指標(biāo)來衡量模型好壞示弓?指標(biāo)合理嗎?
- 模型的最差結(jié)果應(yīng)該比什么好(eg.現(xiàn)有的行冰、盲猜等)
- 是否有可以遷移學(xué)習(xí)的模型溺蕉?(之前碰到過NLP相關(guān)的,那doc2vec是否可以利用原先train好的)
- 列一下assumptions? 確認(rèn)這些assumption是否正確

2. 數(shù)據(jù)提鹊孔觥:

  • 確定需要什么數(shù)據(jù)(一般需要一些行業(yè)經(jīng)驗(yàn)做支撐)疯特,確認(rèn)這些數(shù)據(jù)是否都可以拿到(數(shù)據(jù)庫中是否有這些變量,是否有權(quán)限得到這些數(shù)據(jù)肛走,數(shù)據(jù)庫中的這些變量是否可信)
  • 確認(rèn)用戶敏感數(shù)據(jù)做了加密處理
  • 確認(rèn)數(shù)據(jù)量
  • 確認(rèn)建模環(huán)境
  • 把數(shù)據(jù)進(jìn)行一些格式上的整理(例如時(shí)間漓雅、空間變量的格式轉(zhuǎn)變)

3. 數(shù)據(jù)探索:

  • 如果數(shù)據(jù)量很大的話,sample一部分進(jìn)行數(shù)據(jù)探索(尤其是畫圖的時(shí)候)
  • Data Exploration的結(jié)果最好可以保留朽色,跟建模的碼分開放
  • 數(shù)據(jù)質(zhì)量檢查:
    • 變量類型:numeric/categorical/order/text or other unstructured data...
    • 缺失值:是否有缺失值邻吞?缺失值占比多少?導(dǎo)致數(shù)據(jù)缺失的原因有哪些葫男?
    • 異常值: 是否有明顯的outlier(例如違背了行業(yè)邏輯的值)
    • 畫變量的distribution,看大概像什么分布
  • 如果是有監(jiān)督學(xué)習(xí)抱冷,確認(rèn)target variable
  • 對(duì)連續(xù)變量做相關(guān)性分析 ->(新想到的是是否可以用互信息代替相關(guān)性分析,因?yàn)榛バ畔⒌脑拰?duì)discrete的變量也能做梢褐,只是個(gè)人想法)
  • Visualizetion 探究變量和target variable之間的關(guān)系
  • 確定需不需要進(jìn)行transformation

4. 數(shù)據(jù)準(zhǔn)備:

  • 數(shù)據(jù)清洗:異常值處理旺遮、缺失值處理(缺失量小的話可以drop,或者用mean/median代替盈咳,離散變量的話也可新建一個(gè)類別叫unk
  • Feature Selection:
  • Feature Engineering:
    • 離散化連續(xù)變量
    • transformation
    • feature整合
  • Feature Scaling: 標(biāo)準(zhǔn)化/中心化

5. 確定一些待用模型(此步驟不調(diào)參):

  • 嘗試一些不同的模型趣效,確定每個(gè)模型的待調(diào)參數(shù)有哪些
  • 用CV來評(píng)估不同模型的優(yōu)劣性, 分析每個(gè)模型中最重要的變量有哪些猪贪?
  • 分析模型為什么會(huì)犯錯(cuò)跷敬,然后進(jìn)行模型的調(diào)整
  • 根據(jù)以上結(jié)果再做feature selection 和 feature engineering
  • 循環(huán)以上步驟,確定3個(gè)比較好的模型

6.確認(rèn)模型:

  • 用CV對(duì)模型進(jìn)行調(diào)參,用randomgridsearch
  • 嘗試一些emsemble
  • 確定模型后進(jìn)行評(píng)估

7. Presentation:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末西傀,一起剝皮案震驚了整個(gè)濱河市斤寇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌拥褂,老刑警劉巖娘锁,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異饺鹃,居然都是意外死亡莫秆,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門悔详,熙熙樓的掌柜王于貴愁眉苦臉地迎上來镊屎,“玉大人,你說我怎么就攤上這事茄螃》觳担” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵归苍,是天一觀的道長用狱。 經(jīng)常有香客問我,道長拼弃,這世上最難降的妖魔是什么夏伊? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮吻氧,結(jié)果婚禮上署海,老公的妹妹穿的比我還像新娘。我一直安慰自己医男,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布捻勉。 她就那樣靜靜地躺著镀梭,像睡著了一般。 火紅的嫁衣襯著肌膚如雪踱启。 梳的紋絲不亂的頭發(fā)上报账,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音埠偿,去河邊找鬼透罢。 笑死,一個(gè)胖子當(dāng)著我的面吹牛冠蒋,可吹牛的內(nèi)容都是我干的羽圃。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼抖剿,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼朽寞!你這毒婦竟也來了识窿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤脑融,失蹤者是張志新(化名)和其女友劉穎喻频,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體肘迎,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡甥温,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了妓布。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片姻蚓。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖秋茫,靈堂內(nèi)的尸體忽然破棺而出史简,到底是詐尸還是另有隱情,我是刑警寧澤肛著,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布圆兵,位于F島的核電站,受9級(jí)特大地震影響枢贿,放射性物質(zhì)發(fā)生泄漏殉农。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一局荚、第九天 我趴在偏房一處隱蔽的房頂上張望超凳。 院中可真熱鬧,春花似錦耀态、人聲如沸轮傍。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽创夜。三九已至,卻和暖如春仙逻,著一層夾襖步出監(jiān)牢的瞬間驰吓,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工系奉, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留檬贰,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓缺亮,卻偏偏與公主長得像翁涤,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容