時間:第14周
&關(guān)于計劃:
決策樹的學(xué)習(xí)--使用ID3算法:
(1)數(shù)據(jù)處理部分:
計算香農(nóng)熵壳影;
劃分?jǐn)?shù)據(jù)集合;
選擇最好的數(shù)據(jù)集劃分方式抽减;
構(gòu)建決策樹郁竟;
(2)Matplotlib繪圖部分:
基本節(jié)點(diǎn)繪制函數(shù);
構(gòu)造注解樹狡逢、使用決策樹執(zhí)行分類宁舰;
(本文內(nèi)容參考于《機(jī)器學(xué)習(xí)實(shí)戰(zhàn)》)
&內(nèi)容摘要:
1.計算香農(nóng)熵以及準(zhǔn)備數(shù)據(jù)集:
圖片發(fā)自簡書App
測試代碼:
(1)計算準(zhǔn)備好的數(shù)據(jù)集的香農(nóng)熵;
(2)新增一個鍵值(maybe)甚侣,計算香農(nóng)熵明吩,觀察其變化(熵越高,則混合的數(shù)據(jù)也越多)殷费;
圖片發(fā)自簡書App
2.首先印荔,關(guān)于append函數(shù)跟extend函數(shù)的區(qū)別:
圖片發(fā)自簡書App
接著,定義函數(shù)详羡,按照給定特征劃分?jǐn)?shù)據(jù)集:
圖片發(fā)自簡書App
測試:
圖片發(fā)自簡書App
圖片發(fā)自簡書App
3.選擇最好的數(shù)據(jù)集劃分方式:
代碼:
測試:
代碼運(yùn)行結(jié)果告訴我們仍律,第0個特征是最好的用于劃分?jǐn)?shù)據(jù)集的特征
4.繪制樹節(jié)點(diǎn)的函數(shù)設(shè)計:
圖片發(fā)自簡書App
圖片發(fā)自簡書App