是否學(xué)習(xí)的決策過(guò)程解釋:
橢圓框內(nèi):是決策樹(shù)的特征(根據(jù)特征來(lái)分類)锐涯,比如<女票>蚌父;
表情圖:是決策樹(shù)的類別(決策樹(shù)是用來(lái)分類的)侠畔,比如<學(xué)習(xí)>撮慨;
有向箭頭:是決策樹(shù)特征的屬性值竿痰,比如<需要>脆粥;
一、整體直觀的了解:
決策樹(shù)算法構(gòu)成:
- 決策樹(shù)的構(gòu)造
- ①?zèng)Q策樹(shù)的特征選擇
- ②決策樹(shù)的生成
- ③決策樹(shù)的剪枝過(guò)程
- 決策樹(shù)的決策(遍歷)
決策樹(shù)算法構(gòu)成的具體解釋:
首先影涉,在《是否學(xué)習(xí)的決策過(guò)程》入門(mén)案例過(guò)程中变隔,重點(diǎn)難點(diǎn)在于怎么構(gòu)造決策樹(shù)。這又分為三部份:第一部分①?zèng)Q策樹(shù)的特征選擇蟹倾,決策樹(shù)本身是個(gè)分類決策做決定的過(guò)程匣缘,那么對(duì)我們做決策有影響(術(shù)語(yǔ)叫:信息增益Or信息增益比)的事物就可能作為特征,所以鲜棠,女票必須是特征肌厨;
第二部分②決策樹(shù)的生成,當(dāng)我們完成特征選擇后豁陆,怎么把這些特征排成一顆樹(shù)呢柑爸?哪個(gè)特征應(yīng)該放在樹(shù)的頂端Or樹(shù)的中部Or樹(shù)的底部呢?按照常識(shí)盒音,當(dāng)然是按照重要性(術(shù)語(yǔ)叫:信息增益大小)大小來(lái)排布了表鳍。而女票是個(gè)重要性(術(shù)語(yǔ)叫:信息增益)最大,所以排第一沒(méi)毛蚕榉獭譬圣!
第三部分③決策樹(shù)的剪枝:經(jīng)過(guò)②決策樹(shù)的生成,我們得到的只是一個(gè)片面的局部的決策樹(shù)模型雄坪,他只能實(shí)現(xiàn)局部最優(yōu)化厘熟,也就是可能在人生的某一時(shí)期實(shí)現(xiàn)最優(yōu)化,但不能確保整個(gè)人生的最優(yōu)化诸衔。因此為了實(shí)現(xiàn)人生損失的最小化(術(shù)語(yǔ)叫:損失函數(shù)的最小化Or正則化的極大似然估計(jì))盯漂,就必須進(jìn)行第三部分的剪枝過(guò)程颇玷。
其次笨农,根據(jù)決策樹(shù)構(gòu)成三部分的不同而組成了不同的決策樹(shù)算法。
決策樹(shù)本身是個(gè)分類過(guò)程帖渠,當(dāng)然有著不同的分法谒亦,這就像不同的人擁有著不同的價(jià)值觀,也就對(duì)同一事物(女票第一還是吃雞第一)有著不同的評(píng)價(jià)空郊。在業(yè)界內(nèi)份招,一般有著這樣三種不同的評(píng)價(jià)(女票第一還是吃雞第一)算法。
決策樹(shù)的算法
- CART算法--1984年
- ID3算法--1986年
- C4.5算法--1993年(機(jī)器學(xué)習(xí)十大算法之一)
算法的不同具體點(diǎn)說(shuō)就是決策樹(shù)組成的三大部分不同狞甚,也許是特征選擇不同锁摔、也許是決策樹(shù)的生成不同、也許是決策的剪枝不同哼审。最后谐腰,當(dāng)我們通過(guò)決策樹(shù)的算法構(gòu)造好了一顆決策樹(shù)后孕豹,我們就可以進(jìn)行決策了。決策樹(shù)的決策過(guò)程簡(jiǎn)單點(diǎn)說(shuō)就是決策樹(shù)的遍歷十气。
具體微觀的學(xué)習(xí):
這部分主要是上面所說(shuō)的三大算法的數(shù)學(xué)學(xué)習(xí)励背,側(cè)重點(diǎn)在于C4.5算法(機(jī)器學(xué)習(xí)十大算法之一)
首先,了解一下決策樹(shù)的CART算法砸西、ID3算法叶眉、C4.5算法的同與不同。我們知道芹枷,決策樹(shù)的算法由三大部分構(gòu)成衅疙,那么算法的不同當(dāng)然是三大部分的不同。
其次,來(lái)看看三類算法的具體理論蝶涩、案例理朋、總結(jié)。
CART算法:CART算法的具體理論绿聘、案例嗽上、總結(jié)
ID3算法:ID3算法的具體理論、案例熄攘、總結(jié)
C4.5算法:C4.5算法的具體理論兽愤、案例、總結(jié)
目前在自學(xué)機(jī)器學(xué)習(xí)相關(guān)的內(nèi)容挪圾,由于作者水平有限浅萧,文中難免有錯(cuò)誤和不當(dāng)之處,歡迎專家和讀者給予批評(píng)指正哲思。