一篇文章預(yù)覽數(shù)據(jù)挖掘比賽入門

很多學(xué)習(xí)機(jī)器學(xué)習(xí)的同學(xué)來參加數(shù)據(jù)挖掘比賽,發(fā)現(xiàn)數(shù)據(jù)挖掘比賽和自己學(xué)過的機(jī)器學(xué)習(xí)理論完全不一致.

所以,我決定寫一篇入門文章給那些新人。

必須掌握的庫scikit-learn scipy? seaborn matplotlib pandas?Hyperopt

特征分類:連續(xù)數(shù)字特征 序數(shù)特征 類別特征 時(shí)間特征 坐標(biāo)特征 文本特征

序數(shù)特征:定義為無限循環(huán)有限個(gè)數(shù)字佃延。 比如 某一列只有 1 2 3?

類別特征:類別特征和序數(shù)特征相似 只不過表現(xiàn)形式是由字符來表示 比如某一列只由A B C表示

文本特征:定義為一句很長的字符,我們可以通過詞袋模型或者word2vec進(jìn)行處理

模型分類:

模型分為tree-based model和no-tree-based-model

tree-based-model 自帶feature-scale的功能 所以標(biāo)準(zhǔn)化啥的意義不大

no-tree-based-model:神經(jīng)網(wǎng)絡(luò) 線性回歸等.

1 數(shù)據(jù)挖掘比賽流程

?第一步:看比賽介紹

?第二步:讀取數(shù)據(jù) 了解數(shù)據(jù)維度? 是否有缺失值 了解特征的類別

?第三步:整合訓(xùn)練集和測試集作為一個(gè)新的大集合:new_data

?第四步:填充缺失值 具體方法可以通過特征之間的關(guān)系填充 隨機(jī)森林預(yù)測等

?第五步:數(shù)據(jù)清洗 刪除重復(fù)行 檢測異常值

?第六步:找出新特征 這些需要通過特征的類別去專門的學(xué)習(xí)不同類別的特征處理的方法

比如(序數(shù)特征:你要考慮是否使用one-hot,類別特征你要先轉(zhuǎn)化為序數(shù)特征,然后考慮特征是否具有分級性,比如手機(jī)A 手機(jī)B 手機(jī)C 那么這個(gè)序數(shù)特征就需要使用one-hot編碼)

?第七步:選擇模型,調(diào)用自動調(diào)參方法,根據(jù)模型選擇one-hot,是否標(biāo)準(zhǔn)化等

第八步:選擇驗(yàn)證函數(shù)與驗(yàn)證方法 比如Auc 均方誤差.不同的驗(yàn)證函數(shù)應(yīng)用于不同的任務(wù),這些也需要讀者自己去探索,學(xué)習(xí).

第九步:重復(fù)以上操作

可以使用的模型xgboost,lgb,隨機(jī)森林等

知識只是避免我們走彎路,但是真正好的效果還是需要自己一步步探索.不要依賴知識,但是知識一定是不可缺少的一部分.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末苏携,一起剝皮案震驚了整個(gè)濱河市哺呜,隨后出現(xiàn)的幾起案子蚁吝,更是在濱河造成了極大的恐慌宇立,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,402評論 6 499
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件步势,死亡現(xiàn)場離奇詭異氧猬,居然都是意外死亡背犯,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,377評論 3 392
  • 文/潘曉璐 我一進(jìn)店門盅抚,熙熙樓的掌柜王于貴愁眉苦臉地迎上來漠魏,“玉大人,你說我怎么就攤上這事妄均≈拢” “怎么了?”我有些...
    開封第一講書人閱讀 162,483評論 0 353
  • 文/不壞的土叔 我叫張陵丰包,是天一觀的道長禁熏。 經(jīng)常有香客問我,道長邑彪,這世上最難降的妖魔是什么匹层? 我笑而不...
    開封第一講書人閱讀 58,165評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮锌蓄,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘撑柔。我一直安慰自己瘸爽,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,176評論 6 388
  • 文/花漫 我一把揭開白布铅忿。 她就那樣靜靜地躺著剪决,像睡著了一般。 火紅的嫁衣襯著肌膚如雪檀训。 梳的紋絲不亂的頭發(fā)上柑潦,一...
    開封第一講書人閱讀 51,146評論 1 297
  • 那天,我揣著相機(jī)與錄音峻凫,去河邊找鬼渗鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛荧琼,可吹牛的內(nèi)容都是我干的譬胎。 我是一名探鬼主播,決...
    沈念sama閱讀 40,032評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼命锄,長吁一口氣:“原來是場噩夢啊……” “哼堰乔!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起脐恩,我...
    開封第一講書人閱讀 38,896評論 0 274
  • 序言:老撾萬榮一對情侶失蹤镐侯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后驶冒,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體苟翻,經(jīng)...
    沈念sama閱讀 45,311評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡韵卤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,536評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了袜瞬。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怜俐。...
    茶點(diǎn)故事閱讀 39,696評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖邓尤,靈堂內(nèi)的尸體忽然破棺而出拍鲤,到底是詐尸還是另有隱情,我是刑警寧澤汞扎,帶...
    沈念sama閱讀 35,413評論 5 343
  • 正文 年R本政府宣布季稳,位于F島的核電站,受9級特大地震影響澈魄,放射性物質(zhì)發(fā)生泄漏景鼠。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,008評論 3 325
  • 文/蒙蒙 一痹扇、第九天 我趴在偏房一處隱蔽的房頂上張望铛漓。 院中可真熱鬧,春花似錦鲫构、人聲如沸浓恶。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽包晰。三九已至,卻和暖如春炕吸,著一層夾襖步出監(jiān)牢的瞬間伐憾,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,815評論 1 269
  • 我被黑心中介騙來泰國打工赫模, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留树肃,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,698評論 2 368
  • 正文 我出身青樓嘴瓤,卻偏偏與公主長得像扫外,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子廓脆,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,592評論 2 353

推薦閱讀更多精彩內(nèi)容