決策樹與隨機(jī)森林及其在SparkMllib中的使用

一.概念

決策樹和隨機(jī)森林:決策樹和隨機(jī)森林都是非線性有監(jiān)督的分類模型。

決策樹是一種樹形結(jié)構(gòu)枪向,樹內(nèi)部每個(gè)節(jié)點(diǎn)表示一個(gè)屬性上的測(cè)試,每個(gè)分支代表一個(gè)測(cè)試輸出,每個(gè)葉子節(jié)點(diǎn)代表一個(gè)分類類別寓落。通過(guò)訓(xùn)練數(shù)據(jù)構(gòu)建決策樹,可以對(duì)未知數(shù)據(jù)進(jìn)行分類荞下。

  • 根節(jié)點(diǎn):最頂層的分類條件
  • 葉節(jié)點(diǎn):代表每一個(gè)類別號(hào)
  • 中間節(jié)點(diǎn):中間分類條件
  • 分支:代表每一個(gè)條件的輸出

隨機(jī)森林是由多個(gè)決策樹組成伶选,隨機(jī)森林中每一棵決策樹之間沒有關(guān)聯(lián),在得到一個(gè)隨機(jī)森林后尖昏,當(dāng)有新的樣本進(jìn)入的時(shí)候仰税,隨機(jī)森林中的每一棵決策樹分別進(jìn)行判斷,分析出該樣本屬于哪一類抽诉,然后最后看哪一類被選擇最多陨簇,就預(yù)測(cè)該樣本屬于這一類。

一個(gè)合理的決策樹可以描述為:決策樹的高度相對(duì)低而且樹的兩邊能將數(shù)據(jù)分類的更徹底迹淌。

而想要構(gòu)建一個(gè)最優(yōu)的決策樹河绽,和根節(jié)點(diǎn)和每一個(gè)中間節(jié)點(diǎn)的分類條件的選擇密不可分,好的分類條件可以讓類別一樣的數(shù)據(jù)在樹的一邊唉窃,從而減少數(shù)的高度耙饰,因此如何在這些節(jié)點(diǎn)上如何選擇分類條件成為了一個(gè)問題。

決策樹的生成原則:

數(shù)據(jù)不斷分裂的遞歸過(guò)程纹份,每一次分裂苟跪,盡可能讓類別一樣的數(shù)據(jù)在樹的一邊,當(dāng)樹的葉子節(jié)點(diǎn)的數(shù)據(jù)都是一類的時(shí)候蔓涧,則停止分類件已。這樣分類的數(shù)據(jù),每個(gè)節(jié)點(diǎn)兩邊的數(shù)據(jù)不同元暴,將相同的數(shù)據(jù)分類到樹的一側(cè)篷扩,能將數(shù)據(jù)分類的更純粹。減少樹的高度和訓(xùn)練決策樹的迭代次數(shù)茉盏。

注意:訓(xùn)練決策樹的數(shù)據(jù)集要離散化瞻惋,不然有可能造成訓(xùn)練出來(lái)的樹有些節(jié)點(diǎn)的分支特別多厦滤,容易造成過(guò)擬合。

二.如何選擇分類條件

1.信息熵

信息熵是用來(lái)量化信息信息量的指標(biāo)歼狼,信息熵越大掏导,則信息越混亂,信息熵越小羽峰,則信息越純粹趟咆。熵的定義如下

信息熵公式

其中,n代表當(dāng)前類別有多少類別代表當(dāng)前類別中某一類別的概率梅屉。

下面舉一個(gè)例子看一下信息熵的使用

image.png

由上圖可知值纱,最終"是否購(gòu)買電腦"類別的信息熵如下:


最終"是否購(gòu)買電腦"的信息熵

構(gòu)建上圖中最優(yōu)的決策樹,首先需要知道那個(gè)一個(gè)分類條件作為根節(jié)點(diǎn)是最優(yōu)的坯汤。

如何選擇決策樹的根節(jié)點(diǎn)分類條件虐唠,就是找到某列作為分類條件時(shí),使最終類別分類的更徹底惰聂,也就是找到在一個(gè)分類條件可以使最終的信息熵相對(duì)于沒有這個(gè)分類條件時(shí)疆偿,信息熵降低的幅度最大(降低最大,就是熵越低搓幌,分類越徹底)杆故。

而這里要使用到條件熵和信息增益。

條件熵:在某個(gè)分類條件下某個(gè)類別的信息熵叫做條件熵溉愁,類似于條件概率处铛,在知道Y的情況下,X的不確定性拐揭。條件熵一般使用H(X|Y)表示撤蟆,代表在Y條件下,X的信息熵堂污。

年齡條件下的信息熵

信息增益:代表熵的變化程度枫疆。分類前的信息熵減去分類后的信息熵。

信息增益

因此年齡條件下的信息增益 = 最終"是否購(gòu)買電腦"的信息熵 - 年齡條件下的信息熵 = 0.94-0.69=0.25

通過(guò)對(duì)所有分類條件計(jì)算信息增益敷鸦,那么信息增益最大的那個(gè)分類條件就是最優(yōu)的根節(jié)點(diǎn)分類條件的選擇。

綜上所述寝贡,在構(gòu)建決策樹時(shí)扒披,選擇分類分類條件的步驟如下:

  • 1.計(jì)算葉節(jié)點(diǎn)所對(duì)應(yīng)列的信息熵
  • 2.計(jì)算每個(gè)已知列的信息熵
  • 3.求得各個(gè)條件下的信息增益,選擇信息增益大的作為分類條件圃泡。選擇中間節(jié)點(diǎn)時(shí)碟案,也以此類推。

在構(gòu)建決策樹時(shí)颇蜡,選擇信息增益大的屬性作為分類節(jié)點(diǎn)的方法也叫 ID3 分類算法价说。

2.信息增益率

使用信息增益來(lái)篩選分類條件辆亏,更傾向于選擇更混雜的屬性。容易出現(xiàn)過(guò)擬合問題鳖目“邕叮可以使用信息增益率來(lái)解決這個(gè)問題。

信息增益率的公式:


信息增益率的公式

即在某個(gè)條件下信息增益除以這個(gè)條件的信息熵彻磁。

信息增益率消除了當(dāng)某些屬性比較混雜時(shí),使用信息增益來(lái)選擇分類條件的弊端狸捅。使用信息增益率來(lái)構(gòu)建決策樹的算法也叫 C4.5 算法衷蜓。一般相對(duì)于信息增益來(lái)說(shuō),選擇信息增益率選擇分類條件比較合適尘喝。

PS:如果決策樹最后一個(gè)條件依然沒能將數(shù)據(jù)準(zhǔn)確分類磁浇,那么在這個(gè)節(jié)點(diǎn)上就可以使用概率來(lái)決定⌒嗤剩看看哪些情況出現(xiàn)的多置吓,該情況就是該節(jié)點(diǎn)的分類結(jié)果。

3.基尼系數(shù)

基尼系數(shù)也可以表示樣本的混亂程度鞍匾。公式如下:


基尼系數(shù)公式

其中交洗,k代表當(dāng)前類別有K個(gè)類別。P代表當(dāng)前類別中某一類別的概率橡淑,1-P 代表不是當(dāng)前這個(gè)類別的概率构拳。

上圖中計(jì)算“是否購(gòu)買電腦”這列的基尼系數(shù):


是否購(gòu)買電腦”這列的基尼系數(shù)

基尼系數(shù)越小代表信息越純,類別越少梁棠,基尼系數(shù)越大置森,代表信息越混亂,類別越多符糊≠旌#基尼增益的計(jì)算和信息增益相同。假設(shè)某列只有一類值男娄,這列的基尼系數(shù)為0行贪。

三.決策樹預(yù)剪枝和后剪枝

決策樹對(duì)訓(xùn)練集有很好的分類能力,但是對(duì)于未知的測(cè)試集未必有好的分類能力模闲,導(dǎo)致模型的泛化能力弱建瘫,可能發(fā)生過(guò)擬合問題,為了防止過(guò)擬合問題的出現(xiàn)尸折,可以對(duì)決策樹進(jìn)行剪枝啰脚。剪枝分為預(yù)剪枝和后剪枝。

預(yù)剪枝:
就是在構(gòu)建決策樹的時(shí)候提前停止实夹。比如指定樹的深度最大為3橄浓,那么訓(xùn)練出來(lái)決策樹的高度就是3,預(yù)剪枝主要是建立某些規(guī)則限制決策樹的生長(zhǎng)粒梦,降低了過(guò)擬合的風(fēng)險(xiǎn),降低了建樹的時(shí)間荸实,但是有可能帶來(lái)欠擬合問題匀们。

后剪枝:
后剪枝是一種全局的優(yōu)化方法,在決策樹構(gòu)建好之后泪勒,然后才開始進(jìn)行剪枝昼蛀。后剪枝的過(guò)程就是刪除一些子樹,這個(gè)葉子節(jié)點(diǎn)的標(biāo)識(shí)類別通過(guò)大多數(shù)原則來(lái)確定圆存,即屬于這個(gè)葉子節(jié)點(diǎn)下大多數(shù)樣本所屬的類別就是該葉子節(jié)點(diǎn)的標(biāo)識(shí)叼旋。選擇減掉哪些子樹時(shí),可以計(jì)算沒有減掉子樹之前的誤差和減掉子樹之后的誤差沦辙,如果相差不大夫植,可以將子樹減掉。一般使用后剪枝得到的結(jié)果比較好油讯。

四.隨機(jī)森林

隨機(jī)森林是由多個(gè)決策樹組成详民。是用隨機(jī)的方式建立一個(gè)森林,里面由很多決策樹組成陌兑。隨機(jī)森林中每一棵決策樹之間都是沒有關(guān)聯(lián)的沈跨。得到隨機(jī)森林之后,對(duì)于一個(gè)樣本輸入時(shí)兔综,森林中的每一棵決策樹都進(jìn)行判斷饿凛,看看這個(gè)樣本屬于哪一類,最終哪一類得到的結(jié)果最多软驰,該輸入的預(yù)測(cè)值就是哪一類涧窒。

隨機(jī)森林中的決策樹生成過(guò)程是對(duì)樣本數(shù)據(jù)進(jìn)行多次行采樣和列采樣,可以指定隨機(jī)森林中的樹的個(gè)數(shù)和屬性個(gè)數(shù)锭亏,這樣當(dāng)訓(xùn)練集很大的時(shí)候纠吴,隨機(jī)選取數(shù)據(jù)集的一部分,生成一棵樹慧瘤,重復(fù)上面過(guò)程戴已,可以生成一堆形態(tài)各異的樹,這些決策樹構(gòu)成隨機(jī)森林锅减。

隨機(jī)森林的優(yōu)點(diǎn):
隨機(jī)森林中的每個(gè)決策樹可以分布式的訓(xùn)練鳖宾,解決了單棵決策樹在數(shù)據(jù)量大的情況下預(yù)算量大的問題绢片。當(dāng)訓(xùn)練樣本中出現(xiàn)異常數(shù)據(jù)時(shí)斩例,決策樹的抗干擾能力差圣拄,對(duì)于隨機(jī)森林來(lái)說(shuō)也解決了模型的抗干擾能力铛楣。

五.SparkMlLib中決策樹和隨機(jī)森林的使用

1.決策樹
/**
 * 決策樹
 */
object ClassificationDecisionTree {

  def main(args: Array[String]): Unit = {
      val conf = new SparkConf()
              conf.setAppName("analysItem")
              conf.setMaster("local[3]")
        val sc = new SparkContext(conf)
    val data: RDD[LabeledPoint] = MLUtils.loadLibSVMFile(sc, "汽車數(shù)據(jù)樣本.txt")
    // Split the data into training and test sets (30% held out for testing)
    val splits = data.randomSplit(Array(0.7, 0.3))
    val (trainingData, testData) = (splits(0), splits(1))
    //指明分類的類別
    val numClasses=2
    //指定離散變量,未指明的都當(dāng)作連續(xù)變量處理
    //某列下有1,2,3類別 處理時(shí)候要自定為4類夸研,雖然沒有0骚揍,但是程序默認(rèn)從0開始分類
    //這里天氣維度有3類,但是要指明4,這里是個(gè)坑,后面以此類推
    val categoricalFeaturesInfo=Map[Int,Int](0->4,1->4,2->3,3->3)
    //設(shè)定評(píng)判標(biāo)準(zhǔn)  "gini"/"entropy"
    val impurity="entropy"
    //樹的最大深度,太深運(yùn)算量大也沒有必要  剪枝   防止模型的過(guò)擬合!6琅ⅰ呐矾!
    val maxDepth=3
    //設(shè)置離散化程度,連續(xù)數(shù)據(jù)需要離散化,分成32個(gè)區(qū)間,默認(rèn)其實(shí)就是32,分割的區(qū)間保證數(shù)量差不多  這個(gè)參數(shù)也可以進(jìn)行剪枝
    val maxBins=32
    //生成模型
    val model =DecisionTree.trainClassifier(trainingData,numClasses,categoricalFeaturesInfo,
                    impurity,maxDepth,maxBins)
    val labelAndPreds: RDD[(Double, Double)] = testData.map { point =>
      val prediction = model.predict(point.features)
      (point.label, prediction)
    }
    //測(cè)試
    val testErr = labelAndPreds.filter(r => r._1 != r._2).count().toDouble / testData.count()
    println("Test Error = " + testErr)
    println("Learned classification tree model:\n" + model.toDebugString)

  }
}

樣本數(shù)據(jù)示例如下:

1 1:2 2:1 3:1 4:1 5:80 
1 1:3 2:2 3:1 4:1 5:77 
1 1:3 2:2 3:1 4:1 5:77 
1 1:2 2:1 3:1 4:1 5:77 
1 1:2 2:1 3:1 4:1 5:72 
1 1:3 2:2 3:1 4:1 5:40 
1 1:2 2:2 3:1 4:1 5:61 
1 1:2 2:1 3:1 4:1 5:69 
1 1:2 2:1 3:1 4:1 5:71 
2.隨機(jī)森林
/**
 * 隨機(jī)森林
 * 
 */
object ClassificationRandomForest {
  def main(args: Array[String]): Unit = {
      val conf = new SparkConf()
              conf.setAppName("analysItem")
              conf.setMaster("local[3]")
        val sc = new SparkContext(conf)
    //讀取數(shù)據(jù)
    val data =  MLUtils.loadLibSVMFile(sc,"汽車數(shù)據(jù)樣本.txt")
    //將樣本按7:3的比例分成
    val splits = data.randomSplit(Array(0.7, 0.3))
    val (trainingData, testData) = (splits(0), splits(1))
    //分類數(shù)
    val numClasses = 2
    // categoricalFeaturesInfo 為空,意味著所有的特征為連續(xù)型變量
    val categoricalFeaturesInfo =Map[Int, Int](0->4,1->4,2->3,3->3)
    //樹的個(gè)數(shù)
    val numTrees = 3 
    //特征子集采樣策略懦砂,auto 表示算法自主選取
    //"auto"根據(jù)特征數(shù)量在4個(gè)中進(jìn)行選擇
    // 1:all 全部特征 蜒犯。2:sqrt 把特征數(shù)量開根號(hào)后隨機(jī)選擇的 。 3:log2 取對(duì)數(shù)個(gè)荞膘。 4:onethird 三分之一
    val featureSubsetStrategy = "auto"
    //純度計(jì)算  "gini"/"entropy"
    val impurity = "entropy"
    //樹的最大層次
    val maxDepth = 3
    //特征最大裝箱數(shù),即連續(xù)數(shù)據(jù)離散化的區(qū)間
    val maxBins = 32
    //訓(xùn)練隨機(jī)森林分類器罚随,trainClassifier 返回的是 RandomForestModel 對(duì)象
    val model = RandomForest.trainClassifier(trainingData, numClasses, categoricalFeaturesInfo,
        numTrees, featureSubsetStrategy, impurity, maxDepth, maxBins)
//    //打印模型
//    println(model.toDebugString)
    //保存模型
   //model.save(sc,"汽車保險(xiǎn)")
    //在測(cè)試集上進(jìn)行測(cè)試
    val count = testData.map { point =>
        val prediction = model.predict(point.features)
    //    Math.abs(prediction-point.label)
        (prediction,point.label)
     }.filter(r => r._1 != r._2).count()
    println("Test Error = " + count.toDouble/testData.count().toDouble)
    println("model "+model.toDebugString)
  }
}

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市羽资,隨后出現(xiàn)的幾起案子淘菩,更是在濱河造成了極大的恐慌,老刑警劉巖屠升,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件潮改,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡腹暖,警方通過(guò)查閱死者的電腦和手機(jī)汇在,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)脏答,“玉大人糕殉,你說(shuō)我怎么就攤上這事∫栽蹋” “怎么了糙麦?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)丛肮。 經(jīng)常有香客問我赡磅,道長(zhǎng),這世上最難降的妖魔是什么宝与? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任焚廊,我火速辦了婚禮,結(jié)果婚禮上习劫,老公的妹妹穿的比我還像新娘咆瘟。我一直安慰自己,他們只是感情好诽里,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布袒餐。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪灸眼。 梳的紋絲不亂的頭發(fā)上卧檐,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音焰宣,去河邊找鬼霉囚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛匕积,可吹牛的內(nèi)容都是我干的盈罐。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼闪唆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼盅粪!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起苞氮,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤湾揽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后笼吟,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體库物,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年贷帮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了戚揭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡撵枢,死狀恐怖民晒,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情锄禽,我是刑警寧澤潜必,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站沃但,受9級(jí)特大地震影響磁滚,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜宵晚,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一垂攘、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淤刃,春花似錦晒他、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)津滞。三九已至,卻和暖如春灼伤,著一層夾襖步出監(jiān)牢的瞬間据沈,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工饺蔑, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人嗜诀。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓猾警,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親隆敢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子发皿,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345