隨機森林算法簡介

隨機森林算法就是建立n個決策樹师崎,將要預(yù)測的數(shù)據(jù)放入n個決策樹,得到結(jié)果次數(shù)最多的類就是該數(shù)據(jù)屬于的類。

建立n個決策樹:

采用自助法重采樣技術(shù)邪乍,即在總體有放回地取n次樣本宪巨,每個樣本含有m個數(shù)據(jù)磷杏。建立n個決策樹。

每個決策樹的建立:

決策樹每個分支的根節(jié)點都是數(shù)據(jù)的一個屬性捏卓,根據(jù)條件(可以是離散值极祸,也可以是連續(xù)值的臨界點)劃分成兩個或多個子樹,并盡量讓一個分裂子集中待分類項屬于同一類別怠晴。

ID3算法中:

選擇根節(jié)點的順序是根據(jù)信息增益的大小來排的

設(shè)D為用類別對訓(xùn)練元組進行的劃分遥金,則D的(entropy)表示為:

其中pi表示第i個類別在整個訓(xùn)練元組中出現(xiàn)的概率,可以用屬于此類別元素的數(shù)量除以訓(xùn)練元組元素總數(shù)量作為估計蒜田。熵的實際意義表示是D中元組的類標(biāo)號所需要的平均信息量稿械。熵代表事務(wù)的不確定性,熵越大冲粤,代表越不確定美莫。

現(xiàn)在我們假設(shè)將訓(xùn)練元組D按屬性A進行劃分,則A對D劃分的期望信息為:

即為條件熵H(D|A)梯捕,

而信息增益即為兩者的差值:

然后選擇增益率最大的屬性進行分裂厢呵。遞歸使用這個方法計算子節(jié)點的分裂屬性,最終就可以得到整個決策樹傀顾。

對于臨界點的值襟铭,可以先將D中元素按照特征屬性排序,則每兩個相鄰元素的中間點可以看做潛在分裂點,從第一個潛在分裂點開始寒砖,分裂D并計算兩個集合的期望信息赐劣,具有最小期望信息的點稱為這個屬性的最佳分裂點,其信息期望作為此屬性的信息期望入撒。

C4.5算法中:

定義了“分裂信息”隆豹,其定義可以表示成:

其中各符號意義與ID3算法相同,然后茅逮,增益率被定義為:

C4.5選擇具有最大增益率的屬性作為分裂屬性

停止條件:

決策樹的構(gòu)建過程是一個遞歸的過程璃赡,所以需要確定停止條件,否則過程將不會結(jié)束献雅。一種最直觀的方式是當(dāng)每個子節(jié)點只有一種類型的記錄時停止碉考,但是這樣往往會使得樹的節(jié)點過多,導(dǎo)致過擬合問題(Overfitting)挺身。另一種可行的方法是當(dāng)前節(jié)點中的記錄數(shù)低于一個最小的閥值侯谁,那么就停止分割,將max(P(i))對應(yīng)的分類作為當(dāng)前葉節(jié)點的分類章钾。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末墙贱,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子贱傀,更是在濱河造成了極大的恐慌惨撇,老刑警劉巖,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件府寒,死亡現(xiàn)場離奇詭異魁衙,居然都是意外死亡,警方通過查閱死者的電腦和手機株搔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門剖淀,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人纤房,你說我怎么就攤上這事纵隔。” “怎么了炮姨?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵捌刮,是天一觀的道長。 經(jīng)常有香客問我剑令,道長糊啡,這世上最難降的妖魔是什么拄查? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任吁津,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘碍脏。我一直安慰自己梭依,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布典尾。 她就那樣靜靜地躺著役拴,像睡著了一般。 火紅的嫁衣襯著肌膚如雪钾埂。 梳的紋絲不亂的頭發(fā)上河闰,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機與錄音褥紫,去河邊找鬼姜性。 笑死,一個胖子當(dāng)著我的面吹牛髓考,可吹牛的內(nèi)容都是我干的部念。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼氨菇,長吁一口氣:“原來是場噩夢啊……” “哼儡炼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起查蓉,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤乌询,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后奶是,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體楣责,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年聂沙,在試婚紗的時候發(fā)現(xiàn)自己被綠了秆麸。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡及汉,死狀恐怖沮趣,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情坷随,我是刑警寧澤房铭,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站温眉,受9級特大地震影響缸匪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜类溢,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一凌蔬、第九天 我趴在偏房一處隱蔽的房頂上張望露懒。 院中可真熱鬧,春花似錦砂心、人聲如沸懈词。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽坎弯。三九已至,卻和暖如春译暂,著一層夾襖步出監(jiān)牢的瞬間抠忘,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工外永, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留褐桌,地道東北人。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓象迎,卻偏偏與公主長得像荧嵌,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子砾淌,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內(nèi)容

  • 決策樹理論在決策樹理論中啦撮,有這樣一句話,“用較少的東西汪厨,照樣可以做很好的事情赃春。越是小的決策樹,越優(yōu)于大的決策樹”劫乱。...
    制杖灶灶閱讀 5,832評論 0 25
  • 隨機森林是一種包含多個決策樹的分類器织中。隨機森林的算法是由Leo Breiman和Adele Cutler發(fā)展推論出...
    我是吸血鬼閱讀 4,365評論 0 1
  • 轉(zhuǎn)自算法雜貨鋪--決策樹決策樹和隨機森林學(xué)習(xí)筆記-歡迎補充 http://www.cnblogs.com/fion...
    明翼閱讀 10,709評論 1 6
  • 1.隨機森林使用背景 1.1隨機森林定義 隨機森林是一種比較新的機器學(xué)習(xí)模型。經(jīng)典的機器學(xué)習(xí)模型是神經(jīng)網(wǎng)絡(luò)衷戈,有半個...
    山的那邊是什么_閱讀 27,450評論 0 28
  • Velocity是一個基于java的模板引擎(template engine)狭吼,它允許任何人僅僅簡單的使用模板語言...
    Alan_Jiang閱讀 459評論 0 0