這是一個(gè)基礎(chǔ)入門的算法酸纲,思想很簡單兔毒,利用attribute進(jìn)行樹枝節(jié)點(diǎn)的分類漫贞,從而達(dá)到training set的分類。xgboost等算法也是基于decision tree育叁。不過現(xiàn)在行業(yè)中已經(jīng)很少用了绕辖。
圖片發(fā)自簡書App
1. 關(guān)于entropy。經(jīng)常會(huì)搞混這個(gè)概念擂红。其實(shí)就是熵的混亂度。未知的“可能性”。比如拋起一個(gè)硬幣昵骤,得到正面和反面的概率树碱。在拋起硬幣前,一切都是未知的变秦,正反概率是一半一半成榜,所以始終不知道到底是什么樣的結(jié)果。所以這時(shí)候entropy是最大的蹦玫,即為1赎婚。另一方面,如果從一堆紅球中抽取一個(gè)小球樱溉,那么結(jié)果肯定是紅色的小球挣输,這個(gè)結(jié)果是在抽取前就知道的,所以entropy為0福贞。
entropy=-和(p*log p)
2. 還有overfitting的問題撩嚼,一般使用方法是剪枝⊥诹保可以是預(yù)剪枝完丽,在從上至下的簡歷dt的時(shí)候,驗(yàn)證crossvalidation拇舀,精度是否改變逻族,精度增大則繼續(xù)劃分子節(jié)點(diǎn),否則停止劃分骄崩∑噶郏或者是后剪枝,在dt建立完成之后進(jìn)行剪枝刁赖,也是判斷節(jié)點(diǎn)的crossvalidation搁痛,決定是否剪枝。
或者在error達(dá)到某個(gè)設(shè)定threshold的時(shí)候就停止宇弛。