決策樹之ID3

? ? ? ? 一組含n個實例的數據集坏瞄,每一個實例長為m,其中包括m-1個特征(屬性)脆栋,最后一個為該特征的類別標簽倦卖。

? ? ? ? 在此種數據集的基礎上,有一棵樹椿争,這棵樹上的非葉子節(jié)點均為某特征怕膛,葉子節(jié)點均為其父節(jié)點特征的特征值。

那么這棵樹是怎么來的秦踪?

? ? ? ?我們 1.首先要在當前數據集中找到最適合分組的一個特征褐捻,2. 然后根據這個特征值的不同將數據分為幾組,3.接著在分組完成后的子數據集中椅邓,判斷當前實例的是否都屬于同一類柠逞,若是,則結束景馁,若不是板壮,那么在當前數據集中從第一步循環(huán)。4.數據集的所有特征都遍歷完了合住,結束绰精。

? ? ? ?容易知道建樹時會用到遞歸撒璧,遞歸結束的兩種情況:1.所有分支下的葉子節(jié)點均有同一標簽? 2.數據集的所有特征都遍歷完了。

其中笨使,尋找劃分數據集的最好特征

? ? ? ?為了確定哪一個特征是劃分數據的最好特征卿樱,我們需要判斷用哪個特征劃分后的子數據集信息增益最高,也就是說劃分后更加有序了阱表,劃分后的子數據集越有序殿如,越說明我們用這個特征劃分是合理的。

? ? ? ?因此最爬,我們要對當前數據集中的每個特征計算依據其劃分后的信息增益涉馁。

? ? ? ?1.取數據集的前m-1列,每列為一個特征下的一組值爱致,去重后長為N烤送,

? ? ? ?2.依據此N個特征值將數據分為N組,計算每一組的熵糠悯,并對該N組的熵求和帮坚,

? ? ? ?3.將2所得結果與劃分前初始數據的熵比較得出信息增益,

? ? ? ?4.對m-1個特征下的一組值均作以上操作互艾,

? ? ? ?5.最后求m-1個特征中信息增益最高的试和,此時特征變?yōu)楫斍暗淖詈脛澐痔卣鳌?/p>

? ? ? ??

? ??

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市纫普,隨后出現的幾起案子阅悍,更是在濱河造成了極大的恐慌,老刑警劉巖昨稼,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件节视,死亡現場離奇詭異,居然都是意外死亡假栓,警方通過查閱死者的電腦和手機寻行,發(fā)現死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來匾荆,“玉大人拌蜘,你說我怎么就攤上這事∑宓剩” “怎么了拦坠?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長剩岳。 經常有香客問我贞滨,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任晓铆,我火速辦了婚禮勺良,結果婚禮上,老公的妹妹穿的比我還像新娘骄噪。我一直安慰自己尚困,他們只是感情好,可當我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布链蕊。 她就那樣靜靜地躺著事甜,像睡著了一般。 火紅的嫁衣襯著肌膚如雪滔韵。 梳的紋絲不亂的頭發(fā)上逻谦,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天,我揣著相機與錄音陪蜻,去河邊找鬼邦马。 笑死,一個胖子當著我的面吹牛宴卖,可吹牛的內容都是我干的滋将。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼症昏,長吁一口氣:“原來是場噩夢啊……” “哼随闽!你這毒婦竟也來了?” 一聲冷哼從身側響起肝谭,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤橱脸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后分苇,有當地人在樹林里發(fā)現了一具尸體,經...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡屁桑,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年医寿,在試婚紗的時候發(fā)現自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蘑斧。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡靖秩,死狀恐怖,靈堂內的尸體忽然破棺而出竖瘾,到底是詐尸還是另有隱情沟突,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布捕传,位于F島的核電站惠拭,受9級特大地震影響,放射性物質發(fā)生泄漏。R本人自食惡果不足惜职辅,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一棒呛、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧域携,春花似錦簇秒、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至锋边,卻和暖如春皱坛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背宠默。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工麸恍, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人搀矫。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓抹沪,卻偏偏與公主長得像,于是被迫代替她去往敵國和親瓤球。 傳聞我的和親對象是個殘疾皇子融欧,可洞房花燭夜當晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內容

  • ??決策樹(Decision Tree)是一種基本的分類與回歸方法,其模型呈樹狀結構卦羡,在分類問題中噪馏,表示基于特征對...
    殉道者之花火閱讀 4,503評論 2 2
  • 決策樹理論在決策樹理論中,有這樣一句話绿饵,“用較少的東西欠肾,照樣可以做很好的事情。越是小的決策樹拟赊,越優(yōu)于大的決策樹”刺桃。...
    制杖灶灶閱讀 5,832評論 0 25
  • 1 前言 在了解樹模型之前瑟慈,自然想到樹模型和線性模型,他們有什么區(qū)別呢屋匕? 樹形模型是一個一個特征進行處理葛碧,之前線性...
    高永峰_GYF閱讀 1,372評論 0 1
  • 1.前言 決策樹是一種基本的分類和回歸方法。決策樹呈樹形結構过吻,在分類問題中进泼,表示基于特征對實例進行分類的過程。采用...
    勝利主義章北海閱讀 2,636評論 0 0
  • 一. 決策樹(decision tree):是一種基本的分類與回歸方法,此處主要討論分類的決策樹缘琅。在分類問題中粘都,表...
    YCzhao閱讀 2,122評論 0 2