最近在做天池的一個數據挖掘類的比賽耕姊,天池新人實戰(zhàn)賽o2o優(yōu)惠券使用預測
在網上找到的比較詳細的教程(答案)白胀,O2O優(yōu)惠券使用預測(基于XGBoost)
在看代碼的過程中有很多關于機器學習的名詞鳄橘、函數看不懂情臭,特開一篇文章來學習記錄飒货。
名詞篇
量化:把某個范圍內的變化用數值表現出來的過程总棵。
隨機森林:
決策樹(可以很好地解決分類問題):
????舉個例子运提,從麻雀蝗柔,飛機,蝙蝠民泵,熊貓中選出一個鳥類癣丧。第一,以“是不是生物”為指標栈妆,選出了麻雀坎缭,蝙蝠,熊貓签钩。第二掏呼,以“會不會飛”為指標,選出了麻雀铅檩,蝙蝠憎夷。第三,以“是否有羽毛”選出了麻雀昧旨。
????這個過程類似if-else語句拾给。每個節(jié)點就是一個對屬性的判斷,每個分支(邊)代表一個判斷結果的輸出兔沃。最后的每個節(jié)點代表一個分類結果蒋得。
????用決策樹解決分類問題的關鍵點在于選擇每個節(jié)點的判斷條件。例如剛剛上面那個例子乒疏,一共做了三次判斷额衙,但是如果最開始就將“是否有羽毛”作為判斷條件,則只需經過一次判斷就可以篩選出是鳥類的樣本。
xgboost:這個通俗理解kaggle比賽大殺器xgboost其實講的挺好的窍侧,就是看到2.回歸樹與集成學習太困了县踢,加上看不懂所以沒看了。(以后圖書館一定要選一個空間大的位置=-=)
正則化:
交叉驗證:
N-折交叉驗證: