0. 機器學習中分類和預測算法的評估:
- 準確率
- 速度
- 強壯行
- 可規(guī)模性
- 可解釋性
1. 什么是決策樹/判定樹(decision tree)?
判定樹是一個類似于流程圖的樹結(jié)構:其中,每個內(nèi)部結(jié)點表示在一個屬性上的測試,
每個分支代表一個屬性輸出,而每個樹葉結(jié)點代表類或類分布逾一。樹的最頂層是根結(jié)點。
[圖片上傳中...(Image [2].png-4caa7a-1512386091897-0)]
2. 機器學習中分類方法中的一個重要算法
3. 構造決策樹的基本算法
image.png
image.png
3.1 熵(entropy)概念:
信息和抽象限番,如何度量弥虐?
1948年珠插,香農(nóng)提出了 ”信息熵(entropy)“的概念
一條信息的信息量大小和它的不確定性有直接的關系,要搞清楚一件非常非常不確定的事情顾患,或者
是我們一無所知的事情,需要了解大量信息==>信息量的度量就等于不確定性的多少
例子:猜世界杯冠軍犁河,假如一無所知,猜多少次彭谁?
每個隊奪冠的幾率不是相等的
比特(bit)來衡量信息的多少
image.png
變量的不確定性越大考润,熵也就越大
3.1 決策樹歸納算法 (ID3)
1970-1980唱矛, J.Ross. Quinlan, ID3算法
選擇屬性判斷結(jié)點
信息獲取量(Information Gain):Gain(A) = Info(D) - Infor_A(D)
通過A來作為節(jié)點分類獲取了多少信息
image.png
image.png
類似窃肠,Gain(income) = 0.029, Gain(student) = 0.151, Gain(credit_rating)=0.048
所以碧囊,選擇age作為第一個根節(jié)點
image.png
重復。泊窘。烘豹。
算法:
- 樹以代表訓練樣本的單個結(jié)點開始(步驟1)。
- 如果樣本都在同一個類,則該結(jié)點成為樹葉序臂,并用該類標號(步驟2 和3)奥秆。
- 否則,算法使用稱為信息增益的基于熵的度量作為啟發(fā)信息侮叮,選擇能夠最好地將樣本分類的屬
性(步驟6)悼瘾。該屬性成為該結(jié)點的“測試”或“判定”屬性(步驟7)。在算法的該版本中卸勺,
- 所有的屬性都是分類的烫扼,即離散值。連續(xù)屬性必須離散化悟狱。
- 對測試屬性的每個已知的值苹享,創(chuàng)建一個分枝挣菲,并據(jù)此劃分樣本(步驟8-10)。
- 算法使用同樣的過程椭赋,遞歸地形成每個劃分上的樣本判定樹或杠。一旦一個屬性出現(xiàn)在一個結(jié)點上向抢,
就不必該結(jié)點的任何后代上考慮它(步驟13)。
- 遞歸劃分步驟僅當下列條件之一成立停止:
- (a) 給定結(jié)點的所有樣本屬于同一類(步驟2 和3)叉信。
- (b) 沒有剩余屬性可以用來進一步劃分樣本(步驟4)艘希。在此情況下,使用多數(shù)表決(步驟5)佳遂。
- 這涉及將給定的結(jié)點轉(zhuǎn)換成樹葉撒顿,并用樣本中的多數(shù)所在的類標記它凤壁。替換地,可以存放結(jié)
- 點樣本的類分布祟峦。
- (c) 分枝
- test_attribute = a i 沒有樣本(步驟11)徙鱼。在這種情況下针姿,以 samples 中的多數(shù)類
- 創(chuàng)建一個樹葉(步驟12)
3.1 其他算法:
C4.5: Quinlan
Classification and Regression Trees (CART): (L. Breiman, J. Friedman, R. Olshen, C. Stone)
共同點:都是貪心算法距淫,自上而下(Top-down approach)
區(qū)別:屬性選擇度量方法不同: C4.5 (gain ratio), CART(gini index), ID3 (Information Gain)
3.2 如何處理連續(xù)性變量的屬性婶希?
4. 樹剪枝葉 (避免overfitting)
4.1 先剪枝
4.2 后剪枝
5. 決策樹的優(yōu)點:
直觀喻杈,便于理解,小規(guī)模數(shù)據(jù)集有效
6. 決策樹的缺點:
處理連續(xù)變量不好
類別較多時缴啡,錯誤增加的比較快
可規(guī)模性一般