決策樹算法

決策樹

1,決策樹是一種用于分類的樹狀結構寇漫,至今仍廣泛使用。最早源于1963年的Concept Learning System(概念學習系統(tǒng))殉摔,用于根據物體的屬性進行分類州胳;

1979年昆蘭(Quinlan)提出構造決策樹的ID3算法,該算法最初用于判斷國際象棋殘局的輸贏逸月,后用于通用分類問題栓撞;

2,專家系統(tǒng)和決策樹都以解決分類問題為目標,專家系統(tǒng)依靠規(guī)則進行分類瓤湘,決策樹不依賴于人類專家的經驗瓢颅,而是以統(tǒng)計方法直接從數據中獲得“第一手”經驗。

3弛说,決策樹概念

? ? (1)決策樹是一種樹形結構挽懦,用于描述從一組數據中提取出一些特征,并通過這些特征來進行分類或預測的過程剃浇。

? ? (2)決策樹的每個節(jié)點表示一個特征巾兆,每個分支表示這個特征的一個取值,葉子節(jié)點表示最終的分類結果虎囚。

? ? (3)它通過對數據集進行劃分,使得每個子集內部的數據盡可能地屬于同一類別蔫磨。


4淘讥,決策樹的構成

? ? (1)節(jié)點

? ? ? ? 在決策樹中,每個節(jié)點表示一個特征堤如,包括根節(jié)點蒲列、內部節(jié)點和葉子節(jié)點。

? ? (2)分支

? ? ? ? 在決策樹中搀罢,每個分支表示一個特征取值蝗岖,連接兩個節(jié)點之間的分支表示這兩個節(jié)點之間的關系。

? ? (3)葉子節(jié)點

? ? ? ? 在決策樹中榔至,葉子節(jié)點表示最終的分類結果抵赢。


5,決策樹的分類方法

? ? 常見的決策樹分類方法包括ID3算法唧取、C4.5算法铅鲤、CART算法。


6枫弟,ID3算法

? ? ID3算法是一種基于信息熵的決策樹算法邢享,它通過計算特征對分類的貢獻度來選擇最優(yōu)特征進行劃分。


7淡诗,C4.5算法

? ? C4.5算法是ID3算法的改進版骇塘,它使用信息增益比來選擇最優(yōu)特征進行劃分。


8韩容,CART算法

? ? CART算法是一種基于基尼指數的決策樹算法款违,它通過計算特征對分類的純度來選擇最優(yōu)特征進行劃分。

9宙攻,決策樹的優(yōu)缺點

? ? (1)優(yōu)點

? ? ? ? 決策樹具有直觀奠货、易于理解和解釋的特點,并且能夠處理非線性關系和高維數據座掘。同時递惋,決策樹的訓練速度較快柔滔,適用于大規(guī)模數據集。

? ? (2)缺點

? ? ? ? 決策樹容易出現(xiàn)過擬合現(xiàn)象萍虽,并且對噪聲和異常值比較敏感睛廊。同時,決策樹的準確率不如其他機器學習算法高杉编。


10超全,決策樹實現(xiàn)過程

? ? (1)數據預處理

? ? ? ? A,數據清洗:對原始數據進行去重邓馒、缺失值處理等操作嘶朱,以保證數據的質量和完整性;

? ? ? ? B光酣,數據轉換:指將原始數據轉換為適合機器學習算法使用的格式疏遏,例如將文本數據轉換為數值型數據等;

? ? (2)特征選擇

? ? ? ? A救军,特征選擇方法:從原始數據中選擇最優(yōu)特征進行劃分财异,常見的特征選擇方法包括信息熵、信息增益比和基尼指數等唱遭。

? ? ? ? B戳寸,特征選擇的評價指標:包括信息增益、信息增益比和基尼指數等拷泽。

? ? (3)決策樹構建

? ? ? ? A疫鹊,ID3算法的構建過程包括計算信息熵、計算信息增益跌穗、選擇最優(yōu)特征進行劃分等步驟订晌;

? ? ? ? B,C4.5算法的構建過程包括計算信息增益比蚌吸、選擇最優(yōu)特征進行劃分等步驟锈拨;

? ? ? ? C,CART算法的構建過程包括計算基尼指數羹唠、選擇最優(yōu)特征進行劃分等步驟奕枢;

? ? (4)決策樹剪枝(為避免過擬合現(xiàn)象)

? ? ? ? A,預剪枝:在決策樹構建過程中佩微,通過設置閾值等方式對決策樹進行剪枝缝彬;

? ? ? ? B,后剪枝:在決策樹構建完成后哺眯,通過刪除一些葉子節(jié)點并將其父節(jié)點變?yōu)樾碌娜~子節(jié)點來對決策樹進行剪枝谷浅;

11,決策樹的問題和解決方案

? ? 決策樹存在過擬合現(xiàn)象和對噪聲和異常值比較敏感等問題。

? ? 為了解決這些問題一疯,可以采用剪枝技術撼玄、集成學習等方法來提高模型準確率和穩(wěn)定性。

? ? 同時墩邀,在實際應用中也需要注意數據質量和特征選擇等問題掌猛。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市眉睹,隨后出現(xiàn)的幾起案子荔茬,更是在濱河造成了極大的恐慌,老刑警劉巖竹海,帶你破解...
    沈念sama閱讀 219,039評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件慕蔚,死亡現(xiàn)場離奇詭異,居然都是意外死亡站削,警方通過查閱死者的電腦和手機坊萝,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來许起,“玉大人,你說我怎么就攤上這事菩鲜≡跋福” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評論 0 356
  • 文/不壞的土叔 我叫張陵接校,是天一觀的道長猛频。 經常有香客問我,道長蛛勉,這世上最難降的妖魔是什么鹿寻? 我笑而不...
    開封第一講書人閱讀 58,868評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮魔吐,結果婚禮上窄瘟,老公的妹妹穿的比我還像新娘砖茸。我一直安慰自己,他們只是感情好痢法,可當我...
    茶點故事閱讀 67,892評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著杜顺,像睡著了一般财搁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上躬络,一...
    開封第一講書人閱讀 51,692評論 1 305
  • 那天尖奔,我揣著相機與錄音,去河邊找鬼。 笑死提茁,一個胖子當著我的面吹牛淹禾,可吹牛的內容都是我干的。 我是一名探鬼主播甘凭,決...
    沈念sama閱讀 40,416評論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼稀拐,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了丹弱?” 一聲冷哼從身側響起德撬,我...
    開封第一講書人閱讀 39,326評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎躲胳,沒想到半個月后蜓洪,有當地人在樹林里發(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 45,782評論 1 316
  • 正文 獨居荒郊野嶺守林人離奇死亡坯苹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,957評論 3 337
  • 正文 我和宋清朗相戀三年隆檀,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片粹湃。...
    茶點故事閱讀 40,102評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡恐仑,死狀恐怖,靈堂內的尸體忽然破棺而出为鳄,到底是詐尸還是另有隱情裳仆,我是刑警寧澤,帶...
    沈念sama閱讀 35,790評論 5 346
  • 正文 年R本政府宣布孤钦,位于F島的核電站歧斟,受9級特大地震影響,放射性物質發(fā)生泄漏偏形。R本人自食惡果不足惜静袖,卻給世界環(huán)境...
    茶點故事閱讀 41,442評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望俊扭。 院中可真熱鬧队橙,春花似錦、人聲如沸统扳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽咒钟。三九已至吹由,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間朱嘴,已是汗流浹背倾鲫。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評論 1 272
  • 我被黑心中介騙來泰國打工粗合, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人乌昔。 一個月前我還...
    沈念sama閱讀 48,332評論 3 373
  • 正文 我出身青樓隙疚,卻偏偏與公主長得像,于是被迫代替她去往敵國和親磕道。 傳聞我的和親對象是個殘疾皇子供屉,可洞房花燭夜當晚...
    茶點故事閱讀 45,044評論 2 355

推薦閱讀更多精彩內容