建立機(jī)器學(xué)習(xí)模型的通用步驟

本文是為機(jī)器學(xué)習(xí)初學(xué)者準(zhǔn)備的放椰,目的是了解制作一個(gè)真正好的機(jī)器學(xué)習(xí)模型所涉及的不同步驟匈辱,以及應(yīng)該避免哪些錯(cuò)誤缔刹。本文并不是任何特定的語言球涛,它涵蓋了訓(xùn)練模型所需的所有必要步驟。

加載數(shù)據(jù)

將數(shù)據(jù)加載到DataFrame中(為了方便起見校镐,我假設(shè)您的數(shù)據(jù)可以以表格形式存儲(chǔ))

將數(shù)據(jù)拆分為訓(xùn)練和驗(yàn)證數(shù)據(jù)

需要注意的一點(diǎn)是亿扁,我們?cè)谕瓿扇魏螖M合,輸入或任何其他預(yù)處理步驟之前拆分?jǐn)?shù)據(jù)鸟廓。驗(yàn)證旨在衡量模型對(duì)之前未考慮過的數(shù)據(jù)的處理方式从祝。如果預(yù)處理步驟中一起使用(訓(xùn)練+驗(yàn)證)數(shù)據(jù),則會(huì)導(dǎo)致驗(yàn)證的漏洞引谜。這意味著牍陌,驗(yàn)證數(shù)據(jù)也會(huì)影響我們的預(yù)處理步驟/擬合,這是我們從不想要的员咽,應(yīng)該避免毒涧。

因此,我們?cè)陂_始時(shí)將數(shù)據(jù)分為訓(xùn)練和驗(yàn)證贝室。有很多方法可以做到契讲,但最常用的方法之一是:train_test_split()

處理數(shù)據(jù)

處理意味著填充數(shù)據(jù)中的缺失值。缺失值可能是由于許多原因 - 有人不同意提供年收入档玻,有人沒有透露家庭成員的數(shù)量怀泊,傳輸過程中的數(shù)據(jù)丟失等茫藏。大多數(shù)算法误趴,不能用于缺失數(shù)據(jù)。所以我們的目標(biāo)是估計(jì)數(shù)據(jù)本身的缺失值并填充它們务傲。

請(qǐng)記住凉当,我們應(yīng)該僅處理訓(xùn)練數(shù)據(jù)(出于上一步中描述的原因)枣申。根據(jù)數(shù)據(jù)類型有不同的輸入方法,例如均值/中位數(shù)方法(對(duì)于數(shù)值數(shù)據(jù))看杭,one-hot編碼(對(duì)于分類數(shù)據(jù))等忠藤。選擇任何方法并確保您的最終數(shù)據(jù)不包含任何遺漏值。

特征選擇

特征選擇是數(shù)據(jù)科學(xué)家工作流程中非常關(guān)鍵的組成部分楼雹。這意味著僅選擇用于預(yù)測(cè)目標(biāo)標(biāo)簽的相關(guān)特征模孩,而不是考慮數(shù)據(jù)中存在的所有特征。在現(xiàn)實(shí)生活中贮缅,我們有100個(gè)榨咐,1000個(gè)甚至10,000個(gè)特征,所有特征對(duì)預(yù)測(cè)都不是同樣重要谴供。此外块茁,當(dāng)模型呈現(xiàn)具有非常高維度的數(shù)據(jù)時(shí),通常會(huì)導(dǎo)致以下問題:

? ? 訓(xùn)練時(shí)間隨著特征的數(shù)量呈指數(shù)增長(zhǎng)桂肌。

? ? ? 隨著特征數(shù)量的增加数焊,模型的過度擬合風(fēng)險(xiǎn)也在增加。

? ? ? 數(shù)據(jù)冗余不會(huì)以任何方式使模型受益崎场,反而增加了復(fù)雜性佩耳。因此,冗余數(shù)據(jù)刪除是最大化特征相關(guān)性同時(shí)減少特征冗余的重要部分照雁。

有不同的特征選擇方法蚕愤,這有助于減少維數(shù),而不會(huì)損失太多的總信息饺蚊。這可以提高模型的整體精度萍诱,幫助理解特征及其重要性。

? ? ? 刪除低方差的特征

? ? ? 單變量特征選擇

? ? ? 遞歸特征消除(RFE)

應(yīng)用上述任何策略污呼,并找到最有意義的特征子集裕坊。

訓(xùn)練你的模型

現(xiàn)在是訓(xùn)練模型的主要部分。訓(xùn)練模型意味著找到最合適的權(quán)重/參數(shù)燕酷,以便最大限度地分類(在分類問題中)或預(yù)測(cè)與實(shí)際值之間的誤差最屑(在回歸問題中)。

選擇您感興趣的任何類型的模型 - 線性回歸苗缩,決策樹饵蒂,隨機(jī)森林,XGBoost或任何其他機(jī)器學(xué)習(xí)模型酱讶,并僅使用具有所選特征的新修改的訓(xùn)練數(shù)據(jù)訓(xùn)練您的模型退盯。

在驗(yàn)證數(shù)據(jù)上測(cè)試您的模型

在驗(yàn)證數(shù)據(jù)上重復(fù)您的步驟:

? ? 使用計(jì)算和用于訓(xùn)練數(shù)據(jù)的相同參數(shù)來驗(yàn)證驗(yàn)證數(shù)據(jù)。

? ? 在估算的驗(yàn)證數(shù)據(jù)上,選擇在訓(xùn)練數(shù)據(jù)的特征選擇期間的相同特征渊迁。

? ? 繼續(xù)使用驗(yàn)證數(shù)據(jù)預(yù)測(cè)模型的準(zhǔn)確性慰照。判斷模型質(zhì)量的方法有很多種 - mean_absolute_error,cross_validation_error等等琉朽。目的是最小化驗(yàn)證數(shù)據(jù)的輸出誤差毒租。

調(diào)整你的模型

這是最棘手的部分,這里給出一個(gè)概述箱叁。一旦您嘗試了不同的模型墅垮,不同的特征和不同的精度參數(shù),并滿足自己的機(jī)器學(xué)習(xí)模型質(zhì)量耕漱,您的學(xué)習(xí)模型就可以用于實(shí)際數(shù)據(jù)了噩斟。請(qǐng)記住,您永遠(yuǎn)無法達(dá)到100%的準(zhǔn)確率孤个。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末剃允,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子齐鲤,更是在濱河造成了極大的恐慌斥废,老刑警劉巖,帶你破解...
    沈念sama閱讀 223,002評(píng)論 6 519
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件给郊,死亡現(xiàn)場(chǎng)離奇詭異牡肉,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)淆九,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,357評(píng)論 3 400
  • 文/潘曉璐 我一進(jìn)店門统锤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人炭庙,你說我怎么就攤上這事饲窿。” “怎么了焕蹄?”我有些...
    開封第一講書人閱讀 169,787評(píng)論 0 365
  • 文/不壞的土叔 我叫張陵逾雄,是天一觀的道長(zhǎng)。 經(jīng)常有香客問我腻脏,道長(zhǎng)鸦泳,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 60,237評(píng)論 1 300
  • 正文 為了忘掉前任永品,我火速辦了婚禮做鹰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘鼎姐。我一直安慰自己钾麸,他們只是感情好掉弛,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,237評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著喂走,像睡著了一般。 火紅的嫁衣襯著肌膚如雪谋作。 梳的紋絲不亂的頭發(fā)上芋肠,一...
    開封第一講書人閱讀 52,821評(píng)論 1 314
  • 那天,我揣著相機(jī)與錄音遵蚜,去河邊找鬼帖池。 笑死,一個(gè)胖子當(dāng)著我的面吹牛吭净,可吹牛的內(nèi)容都是我干的睡汹。 我是一名探鬼主播,決...
    沈念sama閱讀 41,236評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼寂殉,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼囚巴!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起友扰,我...
    開封第一講書人閱讀 40,196評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤彤叉,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后村怪,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體秽浇,經(jīng)...
    沈念sama閱讀 46,716評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,794評(píng)論 3 343
  • 正文 我和宋清朗相戀三年甚负,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了柬焕。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,928評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡梭域,死狀恐怖斑举,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情病涨,我是刑警寧澤懂昂,帶...
    沈念sama閱讀 36,583評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站没宾,受9級(jí)特大地震影響凌彬,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜循衰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,264評(píng)論 3 336
  • 文/蒙蒙 一铲敛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧会钝,春花似錦伐蒋、人聲如沸工三。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,755評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽俭正。三九已至,卻和暖如春焙畔,著一層夾襖步出監(jiān)牢的瞬間掸读,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,869評(píng)論 1 274
  • 我被黑心中介騙來泰國(guó)打工宏多, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留儿惫,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 49,378評(píng)論 3 379
  • 正文 我出身青樓伸但,卻偏偏與公主長(zhǎng)得像肾请,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子更胖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,937評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容