決策樹

從所有可能的決策樹中選擇選取最優(yōu)決策樹是 NP 完全問題

一顆生成好的決策樹,假設其葉子節(jié)點個數(shù)為T已球,該決策樹是由所有葉子節(jié)點對應的值組成的向量w \in R^{T}巍沙,以及一個把特征向量映射到葉子節(jié)點索引(Index)的函數(shù)R^yaycsgw \rightarrow\{1,2, \cdots, T\}組成的。因此紊浩,策樹可以定義為f_t(x)=w_{q(x)}

  • 信息增益疗锐、信息增益比坊谁、基尼系數(shù)

    熵:H(X)=-\sum_{i=1}^{n} p_{i} \log p_{i} 條件熵:H(Y | X)=\sum_{i=1}^{n} p_{i} H\left(Y | X=x_{i}\right)

    信息熵是衡量樣本純度最常用的一種指標,熵值越小滑臊,樣本集的純度越高口芍。ID3算法用信息增益準則劃分樣本集,會對可取值數(shù)目較多的屬性有所偏好(可取集多简珠,劃分的分支結點多阶界,每個結點的純度更高),所以 C4.5改用信息增益率來選擇最優(yōu)劃分屬性聋庵。

    基尼系數(shù):\operatorname{Gini}(p)=\sum_{k=1}^{K} p_{k}\left(1-p_{k}\right)=1-\sum_{k=1}^{K} p_{k}^{2} 特征 A 下基尼系數(shù):\operatorname{Gini}(D, A)=\frac{\left|D_{1}\right|}{|D|} \operatorname{Gini}\left(D_{1}\right)+\frac{\left|D_{2}\right|}{|D|} \operatorname{Gini}\left(D_{2}\right)

    基尼系數(shù)反映了從數(shù)據(jù)集中隨機抽取兩個樣本膘融,其類別標記不一致的概率。

  • 簡單介紹一下決策樹模型(其實是一種貪心算法)

信息增益祭玉、ID3氧映、 C4.5、CART:回歸樹模型表示脱货、基尼系數(shù)岛都。ID3律姨、C4.5、CART 分類分別是每次取最大的信息增益臼疫、信息增益比以及最小的基尼系數(shù)進行貪心算法择份。

  1. 從深度為0的樹開始,對每個葉節(jié)點枚舉所有的可用特征
  2. 針對每個特征烫堤,把屬于該節(jié)點的訓練樣本根據(jù)該特征值升序排列荣赶,通過線性掃描的方式來決定該特征的最佳分裂點,并記錄該特征的最大收益(采用最佳分裂點時的收益)
  3. 選擇收益最大的特征作為分裂特征鸽斟,用該特征的最佳分裂點作為分裂位置拔创,把該節(jié)點生長出左右兩個新的葉節(jié)點,并為每個新節(jié)點關聯(lián)對應的樣本集
  4. 回到第1步富蓄,遞歸執(zhí)行到滿足特定條件為止
  • 連續(xù)值處理

對于連續(xù)屬性 a剩燥,假定 a 在 D 上出現(xiàn)了 n 個不同的取值,將這些值從小到大排序立倍,基于劃分點可以t 可以將D 分為兩個子集灭红,一個是在屬性 a 上取值不大于 t,一個是在屬性 a 上取值大于 t帐萎,劃分點的選取是 n 個取值相鄰點的中點比伏,即\frac{a^i+a^{i+1}}{2} ,有了這些劃分點疆导,就可以像離散值一樣處理找到最優(yōu)的劃分點

  • 決策樹間的差別

ID3只能處理離散型變量,C4.5和 CART 都可以處理連續(xù)型變量葛躏。

ID3和 C4.5只能用于分類任務澈段,而 CART 不僅用于分類,還可以應用于回歸

ID3和 C4.5可以再每個結點上產(chǎn)生多叉分支舰攒,且每個特征在層級之間不會復用败富,CART 每個結點只會產(chǎn)生兩個分支,因此最后會形成一個二叉樹

ID3和 C4.5通過剪枝來權衡樹的準確性和泛化能力摩窃,CART 直接利用全部數(shù)據(jù)發(fā)現(xiàn)所有可能得樹結構進行對比

  • 回歸樹

一個回歸樹對應著輸入空間(即特征空間)的一個劃分以及在劃分的單元上的輸出值兽叮。假設已將輸入空間劃分為M個單元R1,R2,…,RM,并且在每個單元Rm上有一個固定的輸出值cm猾愿,于是回歸樹模型可表示為:f(x)=\sum_{m=1}^{M} c_{m} I\left(x \in R_{m}\right)

用平方誤差最小值準則求解每個單元上的最優(yōu)輸出值鹦聪,易知:\hat{c}_{m}=\operatorname{ave}\left(y_{i} | x_{i} \in R_{m}\right)

尋找最優(yōu)切分變量和最優(yōu)切分點:\min _{j, s}\left[\min _{c_{1}} \sum_{x_{i} \in R_{i}(j, s)}\left(y_{i}-c_{1}\right)^{2}+\min _{c_{2}} \sum_{x_{i} \in R_{2}(j, s)}\left(y_{i}-c_{2}\right)^{2}\right]

預剪枝

在決策樹生成過程中,對每個結點在劃分前進行估計蒂秘,如果當前的結點的劃分不能帶來決策樹泛化性能的提升泽本,則停止劃分并將當前節(jié)點標記為葉結點。

后剪枝

先從訓練集生成一個完整的決策樹姻僧,然后自底向上地對非葉結點進行考查规丽,如果將該節(jié)點對應的子樹替換為葉節(jié)點能帶來決策樹泛化性能的提升蒲牧,則將該子樹替換為葉節(jié)點

  • 講一下決策樹的剪枝

ID3和 C4.5的剪枝通過構造損失函數(shù)(經(jīng)驗熵),遞歸地從樹的葉結點向上回縮赌莺,直到找到損失函數(shù)最小的子樹

cart 的損失函數(shù)(如基尼系數(shù))冰抢,α小時,最優(yōu)子樹大艘狭,α大時挎扰,最優(yōu)子樹小,α從小增大缓升,可以得到一系列最優(yōu)子樹鼓鲁,序列中的子樹是嵌套的。

具體得到子樹序列的過程:對整體樹地任意內部結點 t港谊,一個是以 t 為單結點樹的損失函數(shù)骇吭,一個是以 t 為根節(jié)點的子樹地損失函數(shù),當\alpha=\frac{C(t)-C(T_t)}{|T_t|-1}=g(t)時兩個損失函數(shù)相等歧寺,因此其表示剪枝后整體損失函數(shù)減少的程度燥狰。在T_0中剪去 g(t)最小的T_t,將最小的 g(t)設為\alpha_1斜筐,然后不斷增加 α的值龙致,得到子樹序列

然后在子樹序列中通過交叉驗證選取最優(yōu)子樹

  • 決策樹的損失函數(shù)

C_{\alpha}(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)+\alpha|T| ,其中經(jīng)驗熵為H_{t}(T)=-\sum_{k} \frac{N_{t k}}{N_{t}} \log \frac{N_{t k}}{N_{t}} 顷链,通常將右邊第一項記作C(T)=\sum_{t=1}^{|T|} N_{t} H_{t}(T)=-\sum_{t=1}^{|T|} \sum_{k=1}^{K} N_{t k} \log \frac{N_{t k}}{N_{t}} 目代,C(T)表示模型對訓練數(shù)據(jù)的預測誤差(?嗤练?)榛了,即模型與訓練數(shù)據(jù)的擬合程度

  • 決策樹的優(yōu)缺點

優(yōu)點:非線性模型、不需要歸一化煞抬、不需要處理缺失值霜大、白盒模型,易理解

缺點:容易過擬合革答、方差大战坤、樣本不一致模型信息增益偏向于數(shù)值特征多的特征、忽略了屬性的相關性

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末残拐,一起剝皮案震驚了整個濱河市途茫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蹦骑,老刑警劉巖慈省,帶你破解...
    沈念sama閱讀 211,376評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡边败,警方通過查閱死者的電腦和手機袱衷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,126評論 2 385
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來笑窜,“玉大人致燥,你說我怎么就攤上這事∨沤兀” “怎么了嫌蚤?”我有些...
    開封第一講書人閱讀 156,966評論 0 347
  • 文/不壞的土叔 我叫張陵,是天一觀的道長断傲。 經(jīng)常有香客問我脱吱,道長,這世上最難降的妖魔是什么认罩? 我笑而不...
    開封第一講書人閱讀 56,432評論 1 283
  • 正文 為了忘掉前任箱蝠,我火速辦了婚禮,結果婚禮上垦垂,老公的妹妹穿的比我還像新娘宦搬。我一直安慰自己,他們只是感情好劫拗,可當我...
    茶點故事閱讀 65,519評論 6 385
  • 文/花漫 我一把揭開白布间校。 她就那樣靜靜地躺著,像睡著了一般页慷。 火紅的嫁衣襯著肌膚如雪憔足。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,792評論 1 290
  • 那天酒繁,我揣著相機與錄音四瘫,去河邊找鬼。 笑死欲逃,一個胖子當著我的面吹牛,可吹牛的內容都是我干的饼暑。 我是一名探鬼主播稳析,決...
    沈念sama閱讀 38,933評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼弓叛!你這毒婦竟也來了彰居?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,701評論 0 266
  • 序言:老撾萬榮一對情侶失蹤撰筷,失蹤者是張志新(化名)和其女友劉穎陈惰,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體毕籽,經(jīng)...
    沈念sama閱讀 44,143評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡抬闯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,488評論 2 327
  • 正文 我和宋清朗相戀三年井辆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片溶握。...
    茶點故事閱讀 38,626評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡杯缺,死狀恐怖,靈堂內的尸體忽然破棺而出睡榆,到底是詐尸還是另有隱情萍肆,我是刑警寧澤,帶...
    沈念sama閱讀 34,292評論 4 329
  • 正文 年R本政府宣布胀屿,位于F島的核電站塘揣,受9級特大地震影響,放射性物質發(fā)生泄漏宿崭。R本人自食惡果不足惜亲铡,卻給世界環(huán)境...
    茶點故事閱讀 39,896評論 3 313
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望劳曹。 院中可真熱鬧奴愉,春花似錦、人聲如沸铁孵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,742評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春丁眼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背遮怜。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工廓握, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人婴削。 一個月前我還...
    沈念sama閱讀 46,324評論 2 360
  • 正文 我出身青樓廊镜,卻偏偏與公主長得像,于是被迫代替她去往敵國和親唉俗。 傳聞我的和親對象是個殘疾皇子嗤朴,可洞房花燭夜當晚...
    茶點故事閱讀 43,494評論 2 348

推薦閱讀更多精彩內容

  • 我想你了 對話框輸入這四個字手指還是忍不住顫抖 淚不自覺滑出眼底 經(jīng)過臉頰兩側 留下溝壑 浸泡著耳機 聲音開到最大...
    林奺椥閱讀 162評論 0 2
  • 今天在核桃園里摘核桃,發(fā)現(xiàn)一個鳥窩虫溜。這個季節(jié)是小鳥繁殖的季節(jié)雹姊,看見鳥窩很正常,不過一般都是空的衡楞,小鳥早就飛走了吱雏。 ...
    汐暮閱讀 288評論 1 1