一個完整機(jī)器學(xué)習(xí)項目流程總結(jié)(轉(zhuǎn))

  1. 實際問題抽象成數(shù)學(xué)問題
    這里的抽象成數(shù)學(xué)問題当悔,指的我們明確我們可以獲得什么樣的數(shù)據(jù),目標(biāo)是一個分類還是回歸或者是聚類的問題脉执,如果都不是的話疼阔,如果劃歸為其中的某類問題。

  2. 獲取數(shù)據(jù)
    獲取數(shù)據(jù)包括獲取原始數(shù)據(jù)以及從原始數(shù)據(jù)中經(jīng)過特征工程從原始數(shù)據(jù)中提取訓(xùn)練半夷、測試數(shù)據(jù)婆廊。機(jī)器學(xué)習(xí)比賽中原始數(shù)據(jù)都是直接提供的,但是實際問題需要自己獲得原始數(shù)據(jù)巫橄√粤冢“ 數(shù)據(jù)決定機(jī)器學(xué)習(xí)結(jié)果的上限,而算法只是盡可能的逼近這個上限”湘换,可見數(shù)據(jù)在機(jī)器學(xué)習(xí)中的作用宾舅。總的來說數(shù)據(jù)要有具有“代表性”彩倚,對于分類問題筹我,數(shù)據(jù)偏斜不能過于嚴(yán)重,不同類別的數(shù)據(jù)數(shù)量不要有數(shù)個數(shù)量級的差距署恍。不僅如此還要對評估數(shù)據(jù)的量級崎溃,樣本數(shù)量、特征數(shù)量盯质,估算訓(xùn)練模型對內(nèi)存的消耗袁串。如果數(shù)據(jù)量太大可以考慮減少訓(xùn)練樣本概而、降維或者使用分布式機(jī)器學(xué)習(xí)系統(tǒng)。

  3. 特征工程
    特征工程包括從原始數(shù)據(jù)中特征構(gòu)建囱修、特征提取赎瑰、特征選擇。特征工程做的好能發(fā)揮原始數(shù)據(jù)的最大效力破镰,往往能夠使得算法的效果和性能得到顯著的提升餐曼,有時能使簡單的模型的效果比復(fù)雜的模型效果好。數(shù)據(jù)挖掘的大部分時間就花在特征工程上面鲜漩,是機(jī)器學(xué)習(xí)非吃雌基礎(chǔ)而又必備的步驟。數(shù)據(jù)預(yù)處理孕似、數(shù)據(jù)清洗踩娘、篩選顯著特征、摒棄非顯著特征等等都非常重要喉祭。

  4. 訓(xùn)練模型养渴、診斷、調(diào)優(yōu)
    模型診斷中至關(guān)重要的是判斷過擬合泛烙、欠擬合理卑,常見的方法是繪制學(xué)習(xí)曲線,交叉驗證蔽氨。通過增加訓(xùn)練的數(shù)據(jù)量藐唠、降低模型復(fù)雜度來降低過擬合的風(fēng)險,提高特征的數(shù)量和質(zhì)量孵滞、增加模型復(fù)雜來防止欠擬合中捆。診斷后的模型需要進(jìn)行進(jìn)一步調(diào)優(yōu),調(diào)優(yōu)后的新模型需要重新診斷坊饶,這是一個反復(fù)迭代不斷逼近的過程泄伪,需要不斷的嘗試,進(jìn)而達(dá)到最優(yōu)的狀態(tài)匿级。

  5. 模型驗證蟋滴、誤差分析
    通過測試數(shù)據(jù),驗證模型的有效性痘绎,觀察誤差樣本津函,分析誤差產(chǎn)生的原因,往往能使得我們找到提升算法性能的突破點孤页。誤差分析主要是分析出誤差來源與數(shù)據(jù)尔苦、特征、算法。

  6. 模型融合
    提升算法的準(zhǔn)確度主要方法是模型的前端(特征工程允坚、清洗魂那、預(yù)處理、采樣)和后端的模型融合稠项。在機(jī)器學(xué)習(xí)比賽中模型融合非常常見涯雅,基本都能使得效果有一定的提升。

  7. 上線運(yùn)行
    這一部分內(nèi)容主要跟工程實現(xiàn)的相關(guān)性比較大展运。工程上是結(jié)果導(dǎo)向活逆,模型在線上運(yùn)行的效果直接決定模型的成敗。 不單純包括其準(zhǔn)確程度拗胜、誤差等情況蔗候,還包括其運(yùn)行的速度(時間復(fù)雜度)、資源消耗程度(空間復(fù)雜度)埂软、穩(wěn)定性是否可接受琴庵。

值得注意的是,以上流程只是一個指導(dǎo)性的機(jī)器學(xué)習(xí)流程經(jīng)驗仰美,并不是每個項目都包含完整的流程。

原文:https://blog.csdn.net/huangfei711/article/details/79850989
BAT面試題精選:https://blog.csdn.net/T7SFOKzorD1JAYMSFk4/article/details/78771867

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末儿礼,一起剝皮案震驚了整個濱河市咖杂,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蚊夫,老刑警劉巖诉字,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件壤圃,死亡現(xiàn)場離奇詭異,居然都是意外死亡琅轧,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進(jìn)店門乍桂,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人睹酌,你說我怎么就攤上這事权谁”镅兀” “怎么了?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長运嗜。 經(jīng)常有香客問我,道長共缕,這世上最難降的妖魔是什么洗出? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮图谷,結(jié)果婚禮上翩活,老公的妹妹穿的比我還像新娘。我一直安慰自己便贵,他們只是感情好菠镇,可當(dāng)我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著承璃,像睡著了一般利耍。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上盔粹,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天隘梨,我揣著相機(jī)與錄音,去河邊找鬼舷嗡。 笑死轴猎,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的进萄。 我是一名探鬼主播捻脖,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼中鼠!你這毒婦竟也來了可婶?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤援雇,失蹤者是張志新(化名)和其女友劉穎矛渴,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體惫搏,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡曙旭,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了晶府。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片桂躏。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖川陆,靈堂內(nèi)的尸體忽然破棺而出剂习,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布鳞绕,位于F島的核電站失仁,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏们何。R本人自食惡果不足惜萄焦,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望冤竹。 院中可真熱鬧拂封,春花似錦、人聲如沸鹦蠕。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钟病。三九已至萧恕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間肠阱,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工惰说, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓酥宴,卻偏偏與公主長得像您觉,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子琳水,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容