隨機森林算法就是建立n個決策樹师崎,將要預(yù)測的數(shù)據(jù)放入n個決策樹,得到結(jié)果次數(shù)最多的類就是該數(shù)據(jù)屬于的類。
建立n個決策樹:
采用自助法重采樣技術(shù)邪乍,即在總體有放回地取n次樣本宪巨,每個樣本含有m個數(shù)據(jù)磷杏。建立n個決策樹。
每個決策樹的建立:
決策樹每個分支的根節(jié)點都是數(shù)據(jù)的一個屬性捏卓,根據(jù)條件(可以是離散值极祸,也可以是連續(xù)值的臨界點)劃分成兩個或多個子樹,并盡量讓一個分裂子集中待分類項屬于同一類別怠晴。
ID3算法中:
選擇根節(jié)點的順序是根據(jù)信息增益的大小來排的
設(shè)D為用類別對訓(xùn)練元組進行的劃分遥金,則D的熵(entropy)表示為:
其中pi表示第i個類別在整個訓(xùn)練元組中出現(xiàn)的概率,可以用屬于此類別元素的數(shù)量除以訓(xùn)練元組元素總數(shù)量作為估計蒜田。熵的實際意義表示是D中元組的類標(biāo)號所需要的平均信息量稿械。熵代表事務(wù)的不確定性,熵越大冲粤,代表越不確定美莫。
現(xiàn)在我們假設(shè)將訓(xùn)練元組D按屬性A進行劃分,則A對D劃分的期望信息為:
即為條件熵H(D|A)梯捕,
而信息增益即為兩者的差值:
然后選擇增益率最大的屬性進行分裂厢呵。遞歸使用這個方法計算子節(jié)點的分裂屬性,最終就可以得到整個決策樹傀顾。
對于臨界點的值襟铭,可以先將D中元素按照特征屬性排序,則每兩個相鄰元素的中間點可以看做潛在分裂點,從第一個潛在分裂點開始寒砖,分裂D并計算兩個集合的期望信息赐劣,具有最小期望信息的點稱為這個屬性的最佳分裂點,其信息期望作為此屬性的信息期望入撒。
C4.5算法中:
定義了“分裂信息”隆豹,其定義可以表示成:
其中各符號意義與ID3算法相同,然后茅逮,增益率被定義為:
C4.5選擇具有最大增益率的屬性作為分裂屬性
停止條件:
決策樹的構(gòu)建過程是一個遞歸的過程璃赡,所以需要確定停止條件,否則過程將不會結(jié)束献雅。一種最直觀的方式是當(dāng)每個子節(jié)點只有一種類型的記錄時停止碉考,但是這樣往往會使得樹的節(jié)點過多,導(dǎo)致過擬合問題(Overfitting)挺身。另一種可行的方法是當(dāng)前節(jié)點中的記錄數(shù)低于一個最小的閥值侯谁,那么就停止分割,將max(P(i))對應(yīng)的分類作為當(dāng)前葉節(jié)點的分類章钾。