決策樹

Profile

Decision Tree,非參數(shù)的學(xué)習(xí)算法,可以解決分類問題,天然地解決多分類問題(類似KNN,不需要通過ovr或者ovo),也可以解決回歸問題(先將待測樣本分到某一個葉子節(jié)點,再將同一葉子節(jié)點下所有樣本的平均值作為預(yù)測值),具有良好的可解釋性

Example

eg.1 OFFER FOR ML ENGINEER

  • +發(fā)表過頂會論文?
    • Y OFFER
    • N + 是否是研究生?
      • Y + ML專業(yè)相關(guān)?
        • Y OFFER
        • N + GPA TOP10%?
          • Y OFFER
          • N INSPECT
      • N + GPA TOP10%?
        • Y OFFER
        • N INSPECT

Explanation of nouns

depth: 一次決策最多需要進行判斷的次數(shù)

構(gòu)建決策樹

  • 選一個維度
  • 找到這個維度的一個閾值
  • 以這個閾值進行劃分

信息熵

一組樣本的不確定性越高(混亂程度越高),則它的信息熵越高,一個系統(tǒng)的熵
H=-\sum_{i=1}^{k}h_i \\ 其中h_i=\begin{cases} p_ilog(p_i) &p_i \ne 0\\ 0 &p_i= 0 \end{cases}
eg.
\left\{\frac{1}{3},\frac{1}{3},\frac{1}{3}\right\}的系統(tǒng)中,H=-(\frac{1}{3}log\frac{1}{3}+\frac{1}{3}log\frac{1}{3}+\frac{1}{3}log\frac{1}{3})=1.0986
\left\{\frac{1}{10},\frac{2}{10},\frac{7}{10}\right\}的系統(tǒng)中,H=-(\frac{1}{10}log\frac{1}{10}+\frac{2}{10}log\frac{2}{10}+\frac{7}{10}log\frac{7}{10})=0.8018
\left\{10^{-8},10^{-8},1-2*10^{-8}\right\} 的系統(tǒng)中,H=3.7841\times10^{-7}
\left\{0,0,1\right\} 的系統(tǒng)中,H=0
對于二分類問題,H=-plog(p)-(1-p)log(1-p)

基尼系數(shù)

G={1}-\sum_{i=1}^{k}p_i^2 \\
G函數(shù)和H函數(shù)在[0,1]上具有相同的遞增區(qū)間和遞減區(qū)間,對于二分類二者的圖像如下
橫軸為概率p,縱軸為系數(shù)G或者H

20190611165304.jpg

信息熵的計算比基尼系數(shù)慢一些,sklearn默認(rèn)使用基尼系數(shù),二者通常沒有特別的效果優(yōu)劣

CART

Classification And Regression Tree(分類與回歸樹),根據(jù)某一個維度d以及某一個閾值v進行二分,最后得到的決策樹一定是一棵二叉樹,這種樹叫做CART是sklearn的決策樹實現(xiàn)方式,其他的實現(xiàn)方式還有ID3,C4.5,C5.0等
構(gòu)造一棵CART的流程如下:

  1. 遍歷樣本的所有維度(d),在每個維度中遍歷所有相鄰點的中點(v),以d=v作為超平面將訓(xùn)練點分成X_left和X_right兩份,分別對應(yīng)y_left和y_right
  2. 計算每個每一組y_left和y_right的信息熵(或者基尼系數(shù))H,取H得最小值,此時對應(yīng)的d=v即為當(dāng)前節(jié)點的決策超平面
  3. 遞歸處理X_left->y_left和X_right->y_right,直到節(jié)點的信息熵=0,此時這個節(jié)點作為葉子節(jié)點

復(fù)雜度

CART樹預(yù)測時間復(fù)雜度為O(log(m)),訓(xùn)練復(fù)雜度為O(n*m*log(m))

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末屎慢,一起剝皮案震驚了整個濱河市秸讹,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件找蜜,死亡現(xiàn)場離奇詭異眷柔,居然都是意外死亡翁巍,警方通過查閱死者的電腦和手機糟趾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門慌植,熙熙樓的掌柜王于貴愁眉苦臉地迎上來甚牲,“玉大人,你說我怎么就攤上這事涤浇”钆海” “怎么了魔慷?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵只锭,是天一觀的道長。 經(jīng)常有香客問我院尔,道長蜻展,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任邀摆,我火速辦了婚禮纵顾,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘栋盹。我一直安慰自己施逾,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布例获。 她就那樣靜靜地躺著汉额,像睡著了一般。 火紅的嫁衣襯著肌膚如雪榨汤。 梳的紋絲不亂的頭發(fā)上蠕搜,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天,我揣著相機與錄音收壕,去河邊找鬼妓灌。 笑死,一個胖子當(dāng)著我的面吹牛蜜宪,可吹牛的內(nèi)容都是我干的虫埂。 我是一名探鬼主播,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼圃验,長吁一口氣:“原來是場噩夢啊……” “哼掉伏!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起损谦,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤岖免,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后照捡,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體颅湘,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年栗精,在試婚紗的時候發(fā)現(xiàn)自己被綠了闯参。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瞻鹏。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖鹿寨,靈堂內(nèi)的尸體忽然破棺而出新博,到底是詐尸還是另有隱情,我是刑警寧澤脚草,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布赫悄,位于F島的核電站,受9級特大地震影響馏慨,放射性物質(zhì)發(fā)生泄漏埂淮。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一写隶、第九天 我趴在偏房一處隱蔽的房頂上張望倔撞。 院中可真熱鬧,春花似錦慕趴、人聲如沸痪蝇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽躏啰。三九已至,卻和暖如春毒费,著一層夾襖步出監(jiān)牢的瞬間丙唧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工觅玻, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留想际,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓溪厘,卻偏偏與公主長得像胡本,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子畸悬,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,055評論 2 355