《統(tǒng)計學(xué)習(xí)方法》python實現(xiàn) chapter5 決策樹1

看書的時候很憂傷咕缎,作為一個專門關(guān)注回歸問題的時候蛤售,書上說主要關(guān)注的是分類問題烘豹。


決策樹: 分類決策樹模型是一種描述對實例進行分類的樹形結(jié)構(gòu)。決策樹由結(jié)點(Node)和有向邊(directed edge)組成胆敞。結(jié)點有兩種類型:內(nèi)部結(jié)點(internal node)和葉節(jié)點(leaf node).內(nèi)部結(jié)點表示一個特征或?qū)傩宰琶保~結(jié)點表示一個類。
信息增益
在信息論與概率統(tǒng)計中竿秆,熵(entropy)是表示隨機變量不確定性的度量启摄。設(shè)X是一個取有限個的離散隨機變量,其概率分布為
P(X = x_i )= p_i
則隨機變量X的熵的定義為H( X ) = -\sum_{i=1}^n p_i logp_i
通常對數(shù)是以2或者 e為底幽钢,單位為比特(bit)或納特(nat)歉备。由于熵只依賴于X的分布,而與X的取值無關(guān)匪燕,所以也可以將X的熵記作 H(p ),即
H(p) = -\sum_{i=1}^np_ilogp_i
熵越大蕾羊,隨機變量的不確定性越大,從定義可驗證0 \le H(P) \le logn
信息增益表示得知特征X的信息而使得類Y的信息的不確定性減少的程度
定義:信息增益是帽驯,特征A對訓(xùn)練數(shù)據(jù)集D的信息增益g(D,A),定義為數(shù)據(jù)集D的經(jīng)驗熵H(D)與特征A給定條件下的經(jīng)驗條件熵H(D|A)之差龟再,即g(D,A) = H(D) - H(D|A)
信息增益大的特征具有更強的分類能力

信息增益算法

信息增益比
以信息增益作為劃分?jǐn)?shù)據(jù)集的特征,存在偏向于取值較多的特征的問題尼变。使用信息增益比可以對這個問題進行校正利凑。這是特征選擇的另一準(zhǔn)則。
信息增益比

ID3算法
ID3算法的核心是在決策樹各個結(jié)點熵應(yīng)用信息增益準(zhǔn)則選擇特征嫌术,遞歸地構(gòu)建決策樹哀澈。
具體方法:
從根結(jié)點開始,對結(jié)點計算所有可能的特征的信息增益度气,選擇信息增益最大的特征作為結(jié)點的特征割按,由該特征的不同取值建立子結(jié)點;再對子節(jié)點遞歸地調(diào)用以上方法磷籍,構(gòu)建決策樹适荣;直到所有特征的信息增益均很小或沒有特征可以選擇為止现柠。最后得到一棵決策樹。


ID3算法

ID3 算法只有樹的生成弛矛,所以該算法生成的樹容易產(chǎn)生過擬合

C4.5算法
與ID3算法唯一的區(qū)別在于够吩,C4.5將信息增益改成了信息增益比

C4.5

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市汪诉,隨后出現(xiàn)的幾起案子废恋,更是在濱河造成了極大的恐慌,老刑警劉巖扒寄,帶你破解...
    沈念sama閱讀 218,204評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件鱼鼓,死亡現(xiàn)場離奇詭異,居然都是意外死亡该编,警方通過查閱死者的電腦和手機迄本,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,091評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來课竣,“玉大人嘉赎,你說我怎么就攤上這事∮谡粒” “怎么了公条?”我有些...
    開封第一講書人閱讀 164,548評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長迂曲。 經(jīng)常有香客問我靶橱,道長,這世上最難降的妖魔是什么路捧? 我笑而不...
    開封第一講書人閱讀 58,657評論 1 293
  • 正文 為了忘掉前任关霸,我火速辦了婚禮,結(jié)果婚禮上杰扫,老公的妹妹穿的比我還像新娘队寇。我一直安慰自己,他們只是感情好章姓,可當(dāng)我...
    茶點故事閱讀 67,689評論 6 392
  • 文/花漫 我一把揭開白布佳遣。 她就那樣靜靜地躺著,像睡著了一般凡伊。 火紅的嫁衣襯著肌膚如雪零渐。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,554評論 1 305
  • 那天窗声,我揣著相機與錄音相恃,去河邊找鬼辜纲。 笑死笨觅,一個胖子當(dāng)著我的面吹牛拦耐,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播见剩,決...
    沈念sama閱讀 40,302評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼杀糯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了苍苞?” 一聲冷哼從身側(cè)響起固翰,我...
    開封第一講書人閱讀 39,216評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎羹呵,沒想到半個月后骂际,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,661評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡冈欢,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,851評論 3 336
  • 正文 我和宋清朗相戀三年歉铝,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片凑耻。...
    茶點故事閱讀 39,977評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡太示,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出香浩,到底是詐尸還是另有隱情类缤,我是刑警寧澤,帶...
    沈念sama閱讀 35,697評論 5 347
  • 正文 年R本政府宣布邻吭,位于F島的核電站餐弱,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏镜盯。R本人自食惡果不足惜岸裙,卻給世界環(huán)境...
    茶點故事閱讀 41,306評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望速缆。 院中可真熱鬧降允,春花似錦、人聲如沸艺糜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,898評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽破停。三九已至翅楼,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間真慢,已是汗流浹背毅臊。 一陣腳步聲響...
    開封第一講書人閱讀 33,019評論 1 270
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留黑界,地道東北人管嬉。 一個月前我還...
    沈念sama閱讀 48,138評論 3 370
  • 正文 我出身青樓皂林,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蚯撩。 傳聞我的和親對象是個殘疾皇子础倍,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,927評論 2 355