? ? ? ? 一組含n個實例的數據集坏瞄,每一個實例長為m,其中包括m-1個特征(屬性)脆栋,最后一個為該特征的類別標簽倦卖。
? ? ? ? 在此種數據集的基礎上,有一棵樹椿争,這棵樹上的非葉子節(jié)點均為某特征怕膛,葉子節(jié)點均為其父節(jié)點特征的特征值。
那么這棵樹是怎么來的秦踪?
? ? ? ?我們 1.首先要在當前數據集中找到最適合分組的一個特征褐捻,2. 然后根據這個特征值的不同將數據分為幾組,3.接著在分組完成后的子數據集中椅邓,判斷當前實例的是否都屬于同一類柠逞,若是,則結束景馁,若不是板壮,那么在當前數據集中從第一步循環(huán)。4.數據集的所有特征都遍歷完了合住,結束绰精。
? ? ? ?容易知道建樹時會用到遞歸撒璧,遞歸結束的兩種情況:1.所有分支下的葉子節(jié)點均有同一標簽? 2.數據集的所有特征都遍歷完了。
其中笨使,尋找劃分數據集的最好特征
? ? ? ?為了確定哪一個特征是劃分數據的最好特征卿樱,我們需要判斷用哪個特征劃分后的子數據集信息增益最高,也就是說劃分后更加有序了阱表,劃分后的子數據集越有序殿如,越說明我們用這個特征劃分是合理的。
? ? ? ?因此最爬,我們要對當前數據集中的每個特征計算依據其劃分后的信息增益涉馁。
? ? ? ?1.取數據集的前m-1列,每列為一個特征下的一組值爱致,去重后長為N烤送,
? ? ? ?2.依據此N個特征值將數據分為N組,計算每一組的熵糠悯,并對該N組的熵求和帮坚,
? ? ? ?3.將2所得結果與劃分前初始數據的熵比較得出信息增益,
? ? ? ?4.對m-1個特征下的一組值均作以上操作互艾,
? ? ? ?5.最后求m-1個特征中信息增益最高的试和,此時特征變?yōu)楫斍暗淖詈脛澐痔卣鳌?/p>
? ? ? ??
? ??