機器學習-4:機器學習的建模流程

機器學習的建模流程

流程為:
原始數(shù)據(jù) --> 數(shù)據(jù)預處理 --> 特征工程 --> 建模 --> 驗證压昼。

原始數(shù)據(jù)收集

所有AI或機器學習的基礎就是數(shù)據(jù),沒有數(shù)據(jù)就什么都做不了拼弃,在搭建一個系統(tǒng)之前首要考慮的就是有沒有足夠多的數(shù)據(jù)可以支撐這個AI系統(tǒng)。數(shù)據(jù)是最重要的,如何收集數(shù)據(jù)的策略也是最重要的件缸,很多人說AI的策略就是數(shù)據(jù)的收集策略。很大程度上數(shù)據(jù)質(zhì)量的高低決定了模型的穩(wěn)定性或效果叔遂,所以收集數(shù)據(jù)這一步非常關鍵他炊。

數(shù)據(jù)預處理

如果數(shù)據(jù)中包含了很多噪音争剿,那可以通過預處理的方法降噪或剔除臟數(shù)據(jù)。如果有數(shù)據(jù)格式不一致痊末,字段不對齊等問題蚕苇,無法后續(xù)做統(tǒng)一處理,那也可以通過數(shù)據(jù)的預處理搞定凿叠,規(guī)范化數(shù)據(jù)以保證后續(xù)模型的準確性涩笤。
實際中,數(shù)據(jù)預處理是很繁瑣的盒件,是很多AI工程師不想觸碰的工作蹬碧,但實際這個工作極其重要,如果數(shù)據(jù)預處理做不好那數(shù)據(jù)質(zhì)量就有問題炒刁,后面所有環(huán)節(jié)都會受到影響锰茉,導致機器學習效果差,通常會花大量精力做數(shù)據(jù)的預處理工作切心。

特征工程

指從數(shù)據(jù)或樣本里提取出對預測結果有價值的信息飒筑,每個應用場景所涉及的特征是不一樣的,整個提取有效特征的過程就叫特征工程(Feature Engineering)绽昏。
實際工作中我們會花大量精力在特征工程里协屡,這一步非常非常重要,而且它直接影響整個系統(tǒng)的效果全谤。甚至說模型的重要性未必高于特征工程的重要性肤晓,所以我們會花50%以上的時間在特征工程這個環(huán)節(jié)。
經(jīng)過特征工程后的每一個數(shù)據(jù)都可以轉換成向量或者矩陣或張量這種數(shù)值類型认然,然后這個數(shù)就可以直接作為模型的輸入补憾,進入建模階段。

建模

建模階段就是使用各種各樣的模型去嘗試卷员,看哪個模型帶來的效果是最好的盈匾,該環(huán)節(jié)主要做的事情有幾點:1,做一些調(diào)參的工作毕骡,指我們不斷的調(diào)整模型削饵,使這個模型可以達到最優(yōu)的效果。2未巫,改造窿撬,當發(fā)現(xiàn)模型不太滿足實際的需求了,可以對模型做一些改造叙凡,然后再調(diào)參劈伴。

驗證

訓練出來的模型到底怎么樣,如果不好的話可能需要重新做一些前面做過的事情握爷,這個環(huán)節(jié)非常重要跛璧。每個項目都需要一個明確的苏遥,獨特的評估標準,如果評估通過(比如正確率到達某個標準)就可以上線赡模。
建模的時候都會把給定的數(shù)據(jù)分成訓練數(shù)據(jù)和測試數(shù)據(jù), 主要是為了驗證模型的好壞师抄,只有通過測試數(shù)據(jù)才能看到模型訓練得到底行不行漓柑。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市叨吮,隨后出現(xiàn)的幾起案子辆布,更是在濱河造成了極大的恐慌,老刑警劉巖茶鉴,帶你破解...
    沈念sama閱讀 222,681評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件锋玲,死亡現(xiàn)場離奇詭異,居然都是意外死亡涵叮,警方通過查閱死者的電腦和手機惭蹂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,205評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來割粮,“玉大人盾碗,你說我怎么就攤上這事∫ㄆ埃” “怎么了廷雅?”我有些...
    開封第一講書人閱讀 169,421評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長京髓。 經(jīng)常有香客問我航缀,道長,這世上最難降的妖魔是什么堰怨? 我笑而不...
    開封第一講書人閱讀 60,114評論 1 300
  • 正文 為了忘掉前任芥玉,我火速辦了婚禮,結果婚禮上备图,老公的妹妹穿的比我還像新娘飞傀。我一直安慰自己,他們只是感情好诬烹,可當我...
    茶點故事閱讀 69,116評論 6 398
  • 文/花漫 我一把揭開白布砸烦。 她就那樣靜靜地躺著,像睡著了一般绞吁。 火紅的嫁衣襯著肌膚如雪幢痘。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,713評論 1 312
  • 那天家破,我揣著相機與錄音颜说,去河邊找鬼购岗。 笑死,一個胖子當著我的面吹牛门粪,可吹牛的內(nèi)容都是我干的喊积。 我是一名探鬼主播,決...
    沈念sama閱讀 41,170評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼玄妈,長吁一口氣:“原來是場噩夢啊……” “哼乾吻!你這毒婦竟也來了?” 一聲冷哼從身側響起拟蜻,我...
    開封第一講書人閱讀 40,116評論 0 277
  • 序言:老撾萬榮一對情侶失蹤绎签,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后酝锅,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體诡必,經(jīng)...
    沈念sama閱讀 46,651評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,714評論 3 342
  • 正文 我和宋清朗相戀三年搔扁,在試婚紗的時候發(fā)現(xiàn)自己被綠了爸舒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,865評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡稿蹲,死狀恐怖碳抄,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情场绿,我是刑警寧澤剖效,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站焰盗,受9級特大地震影響璧尸,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜熬拒,卻給世界環(huán)境...
    茶點故事閱讀 42,211評論 3 336
  • 文/蒙蒙 一爷光、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧澎粟,春花似錦蛀序、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,699評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至啸盏,卻和暖如春重贺,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,814評論 1 274
  • 我被黑心中介騙來泰國打工气笙, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留次企,地道東北人。 一個月前我還...
    沈念sama閱讀 49,299評論 3 379
  • 正文 我出身青樓潜圃,卻偏偏與公主長得像缸棵,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子谭期,可洞房花燭夜當晚...
    茶點故事閱讀 45,870評論 2 361

推薦閱讀更多精彩內(nèi)容