AI產品經理必修——揭開算法的面紗(決策樹算法)

你是否玩過20個問題的游戲?游戲的規(guī)則很簡單:參與游戲的一方在腦海里想某個事物,其他參與者向他提問題,只允許提20個問題为迈,問題的答案也只能用對或錯來回答。問問題的人通過推斷分解缺菌,逐步縮小待猜測事物的范圍葫辐。

如果你玩過這個游戲,那么恭喜你伴郁,你已經掌握了決策樹算法的應用耿战。是不是非常簡單?

什么是決策樹

一圖表示決策樹

所有的機器學習算法中焊傅,決策樹應該是最友好的了剂陡。它呢,在整個運行機制上可以很容易地被翻譯成人們能看懂的語言狐胎,也因此被歸為“白盒模型”鸭栖。


為了更直觀地理解決策樹,我們現(xiàn)在來構建一個簡單的郵件分類系統(tǒng)顽爹,如圖:

首先檢測發(fā)送郵件域名地址

如果地址為com纤泵,則放置于“無聊時需要閱讀的郵件”分類

如果不是這個地址,那么再次檢測

檢查郵件是否有單詞“曲棍球”

包含單詞“曲棍球”镜粤,則放置于“需要及時處理的朋友郵件”分類

不包含單詞“曲棍球”,則放置于“無需閱讀的垃圾郵件”分類

現(xiàn)在玻褪,我們來總結一下決策樹的構成:

根節(jié)點肉渴。第一個需要判斷的條件,往往也是最具有特征的那個條件带射,我們稱為根節(jié)點同规。

中間節(jié)點。那個矩形總是要往下分窟社,并不是最終的結果券勺,它叫做中間節(jié)點(或內部節(jié)點)。

灿里。那些帶有文字的線段(一般使用有箭頭的有向線段)关炼,線的一端連的是中間節(jié)點、另一端連的是另一個中間節(jié)點或葉節(jié)點匣吊,然后線段上還有文字儒拂,它叫做邊寸潦。

葉節(jié)點。那個圓角矩形社痛,它就已經是最后的結果了见转,不再往下了,這一類東西呢蒜哀,在決策樹里叫做葉節(jié)點斩箫。

決策樹的一般流程

(1)收集數(shù)據:可以使用任何方法。

(2)準備數(shù)據:樹構造算法只適用于標稱型數(shù)據撵儿,因此數(shù)值型數(shù)據必須離散化校焦。

(3)分析數(shù)據:可以使用任何方法,構造樹完成后统倒,我們應該檢查圖形是否符合預期寨典。

(4)訓練算法:構造樹的數(shù)據結構。

(5)測試算法:使用經驗樹計算錯誤率房匆。

(6)使用算法:此步驟可以適用于任何機器學習算法耸成,而使用決策樹可以更好地理解數(shù)據的內在含義。


上面這種樸素的算法很容易想到浴鸿,但是太容易得到的它往往不夠美好井氢。如果自變量很多的時候,我們該選哪個作為根節(jié)點呢岳链?選定了根節(jié)點后花竞,樹再往下生長接下來的內部節(jié)點該怎么選呢?針對這些問題掸哑,衍生了很多決策樹算法约急,他們處理的根本問題是上面流程的第四步——訓練算法,實際上也就是劃分數(shù)據集方法苗分。我們來看看代表之一 ——ID3算法厌蔽。


信息增益

在劃分數(shù)據集之前之后信息發(fā)生的變化稱為信息增益,知道如何計算信息增益摔癣,我們就可以計算每個特征值劃分數(shù)據集獲得的信息增益奴饮,獲得信息增益最高的特征就是最好的選擇。

這里又引入了另一個概念——熵择浊。這里先不展開說了戴卜,我們記住他的概念:一個事情它的隨機性越大就越難預測

具體來說這個概率p越小琢岩,最后熵就越大(也就是信息量越大)投剥,如果極端情況一件事情概率為1,它的熵就變成0了粘捎。

比如薇缅,你如果能預測一個彩票的中獎號碼就發(fā)達了危彩;但是,如果你能預測明天太陽從東邊升起來則毫無價值泳桦。這樣衡量一個信息價值的事汤徽,就可以由熵來表示。


聰明的你或許已經發(fā)現(xiàn)了灸撰,決策樹算法其實就是為了找到能夠迅速使熵變小谒府,直至熵為0的那條路徑,這就是信息增益的那條路浮毯。我們將對每個特征劃分數(shù)據集的結果計算一次信息熵完疫,然后判斷按照哪個特征劃分數(shù)據集是最好的劃分方式。


舉個容易理解的例子:

解決問題:預設4個自變量:天氣债蓝、溫度壳鹤、濕度、風速饰迹,預測學校會不會舉辦運動會芳誓?

步驟一:假設我們記錄了某個學校14屆校運會按時舉行或取消的記錄,舉行或者取消的概率分別為:9/14啊鸭、5/14锹淌,那么它的信息熵這里也叫先驗熵赠制,為:

步驟二:我們同時記錄了當天的天氣情況赂摆,發(fā)現(xiàn)天氣好壞和校運會舉行還是取消有關。14天中钟些,5次晴天(2次舉行烟号、3次取消)、5次雨天(3次舉行厘唾、2次取消)褥符、4次陰天(4次舉行)。相對應的晴天抚垃、陰天、雨天的后驗熵趟大。

步驟三:我們計算知道天氣情況后的條件熵鹤树。

步驟四:我們計算在有沒有天氣情況這個條件前后的信息增益就是。

步驟五:我們依次計算在有沒有溫度逊朽、濕度罕伯、風速條件前后的信息增益

步驟六:根據設置的閾值叽讳,若信息增益的值大于設置的閾值追他,選取為我們的特征值坟募,也就是我們上圖中的矩形節(jié)點。

步驟七:生成決策樹邑狸。選取信息增益最大的自變量作為根節(jié)點懈糯。其他的特征值依次選取為內部節(jié)點

比如上面的例子是這樣的過程:

經過如上步驟单雾,我們得到決策樹赚哗。可以看到硅堆,最終們只選取了3個特征值作為內部節(jié)點屿储。


決策樹的應用

決策樹也是一種分類方法。它的分類是二元的渐逃,一個值經過相應節(jié)點的測驗够掠,要么進入真分支,要么進入假分支茄菊。所以一組值經過決策樹以后疯潭,就會形成從樹跟到結果節(jié)點的一條唯一路徑。所以它除了可以對輸入進行分類之外买羞,還能給出如此分類的解釋袁勺。因此決策樹常常被應用于專家系統(tǒng),用于解釋回答人類專家才能回答的問題畜普。例如需要考慮多個變量時期丰,我們可以利用決策樹進行預測。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末吃挑,一起剝皮案震驚了整個濱河市钝荡,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌舶衬,老刑警劉巖埠通,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異逛犹,居然都是意外死亡端辱,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進店門虽画,熙熙樓的掌柜王于貴愁眉苦臉地迎上來舞蔽,“玉大人,你說我怎么就攤上這事码撰∩粒” “怎么了?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵脖岛,是天一觀的道長朵栖。 經常有香客問我颊亮,道長,這世上最難降的妖魔是什么陨溅? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任终惑,我火速辦了婚禮,結果婚禮上声登,老公的妹妹穿的比我還像新娘狠鸳。我一直安慰自己,他們只是感情好悯嗓,可當我...
    茶點故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布件舵。 她就那樣靜靜地躺著,像睡著了一般脯厨。 火紅的嫁衣襯著肌膚如雪铅祸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天合武,我揣著相機與錄音临梗,去河邊找鬼。 笑死稼跳,一個胖子當著我的面吹牛盟庞,可吹牛的內容都是我干的。 我是一名探鬼主播汤善,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼什猖,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了红淡?” 一聲冷哼從身側響起不狮,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎在旱,沒想到半個月后摇零,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡桶蝎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年驻仅,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片登渣。...
    茶點故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡雾家,死狀恐怖,靈堂內的尸體忽然破棺而出绍豁,到底是詐尸還是另有隱情,我是刑警寧澤牙捉,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布竹揍,位于F島的核電站敬飒,受9級特大地震影響,放射性物質發(fā)生泄漏芬位。R本人自食惡果不足惜无拗,卻給世界環(huán)境...
    茶點故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望昧碉。 院中可真熱鬧英染,春花似錦、人聲如沸被饿。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽狭握。三九已至闪金,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間论颅,已是汗流浹背哎垦。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留恃疯,地道東北人漏设。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像今妄,于是被迫代替她去往敵國和親郑口。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,792評論 2 345