機器學習的建模流程
流程為:
原始數(shù)據(jù) --> 數(shù)據(jù)預處理 --> 特征工程 --> 建模 --> 驗證压昼。
原始數(shù)據(jù)收集
所有AI或機器學習的基礎就是數(shù)據(jù),沒有數(shù)據(jù)就什么都做不了拼弃,在搭建一個系統(tǒng)之前首要考慮的就是有沒有足夠多的數(shù)據(jù)可以支撐這個AI系統(tǒng)。數(shù)據(jù)是最重要的,如何收集數(shù)據(jù)的策略也是最重要的件缸,很多人說AI的策略就是數(shù)據(jù)的收集策略。很大程度上數(shù)據(jù)質(zhì)量的高低決定了模型的穩(wěn)定性或效果叔遂,所以收集數(shù)據(jù)這一步非常關鍵他炊。
數(shù)據(jù)預處理
如果數(shù)據(jù)中包含了很多噪音争剿,那可以通過預處理的方法降噪或剔除臟數(shù)據(jù)。如果有數(shù)據(jù)格式不一致痊末,字段不對齊等問題蚕苇,無法后續(xù)做統(tǒng)一處理,那也可以通過數(shù)據(jù)的預處理搞定凿叠,規(guī)范化數(shù)據(jù)以保證后續(xù)模型的準確性涩笤。
實際中,數(shù)據(jù)預處理是很繁瑣的盒件,是很多AI工程師不想觸碰的工作蹬碧,但實際這個工作極其重要,如果數(shù)據(jù)預處理做不好那數(shù)據(jù)質(zhì)量就有問題炒刁,后面所有環(huán)節(jié)都會受到影響锰茉,導致機器學習效果差,通常會花大量精力做數(shù)據(jù)的預處理工作切心。
特征工程
指從數(shù)據(jù)或樣本里提取出對預測結果有價值的信息飒筑,每個應用場景所涉及的特征是不一樣的,整個提取有效特征的過程就叫特征工程(Feature Engineering)绽昏。
實際工作中我們會花大量精力在特征工程里协屡,這一步非常非常重要,而且它直接影響整個系統(tǒng)的效果全谤。甚至說模型的重要性未必高于特征工程的重要性肤晓,所以我們會花50%以上的時間在特征工程這個環(huán)節(jié)。
經(jīng)過特征工程后的每一個數(shù)據(jù)都可以轉換成向量或者矩陣或張量這種數(shù)值類型认然,然后這個數(shù)就可以直接作為模型的輸入补憾,進入建模階段。
建模
建模階段就是使用各種各樣的模型去嘗試卷员,看哪個模型帶來的效果是最好的盈匾,該環(huán)節(jié)主要做的事情有幾點:1,做一些調(diào)參的工作毕骡,指我們不斷的調(diào)整模型削饵,使這個模型可以達到最優(yōu)的效果。2未巫,改造窿撬,當發(fā)現(xiàn)模型不太滿足實際的需求了,可以對模型做一些改造叙凡,然后再調(diào)參劈伴。
驗證
訓練出來的模型到底怎么樣,如果不好的話可能需要重新做一些前面做過的事情握爷,這個環(huán)節(jié)非常重要跛璧。每個項目都需要一個明確的苏遥,獨特的評估標準,如果評估通過(比如正確率到達某個標準)就可以上線赡模。
建模的時候都會把給定的數(shù)據(jù)分成訓練數(shù)據(jù)和測試數(shù)據(jù), 主要是為了驗證模型的好壞师抄,只有通過測試數(shù)據(jù)才能看到模型訓練得到底行不行漓柑。