<h1>1.決策樹(shù)構(gòu)建的一般流程<h1>
收集數(shù)據(jù):任何你能收集數(shù)據(jù)的方法
準(zhǔn)備數(shù)據(jù): 決策樹(shù)的算法只適用于標(biāo)稱(chēng)型數(shù)據(jù)(可理解為離散型的端朵,不連續(xù)的),因此數(shù)值型的數(shù)據(jù)(連續(xù)的數(shù)據(jù))必須離散化。
分析數(shù)據(jù): 可以使用任何方法,構(gòu)造樹(shù)完成之后唱蒸,我們要檢查圖形是否符合預(yù)期。
訓(xùn)練算法:構(gòu)造決策樹(shù)的數(shù)據(jù)結(jié)構(gòu)烛愧。
測(cè)試算法: 使用經(jīng)驗(yàn)樹(shù)計(jì)算錯(cuò)誤率油宜。
使用算法: 此步驟可以適用于任何監(jiān)督學(xué)習(xí)算法掂碱,而使用決策數(shù)可以更好的理解數(shù)據(jù)的內(nèi)在含義 (why? 對(duì)比于其他算法,比如說(shuō)k均值算法慎冤,就是把給定的數(shù)據(jù)按照相似度分為一類(lèi)疼燥,每一類(lèi)表示什么你可能就不知道了。就像我們上一章講的那個(gè)例子蚁堤,可以用決策樹(shù)做郵件的分類(lèi)系統(tǒng)醉者,我們可以根據(jù)分類(lèi)標(biāo)簽知道這個(gè)郵件是垃圾郵件還是需要立刻處理的郵件)
<h1>2. 數(shù)據(jù)的構(gòu)建<h1>
海洋生物數(shù)據(jù)
在這張表中我們可以發(fā)現(xiàn)這里有5個(gè)數(shù)據(jù),這里有兩個(gè)特征(要不要浮出水面生存披诗,和是否有腳蹼)來(lái)劃分這5個(gè)生物是魚(yú)類(lèi)還是非魚(yú)類(lèi)撬即。 現(xiàn)在我們要做的就是是要根據(jù)第一個(gè)特征還是第二個(gè)特征來(lái)劃分?jǐn)?shù)據(jù),進(jìn)行分類(lèi)呈队。
def createDataSet():
dataSet = [[1,1,'yes'],
[1,1,'yes'],
[1,0,'no'],
[0,1,'no'],
[0,1,'no']] # 我們定義了一個(gè)list來(lái)表示我們的數(shù)據(jù)集剥槐,這里的數(shù)據(jù)對(duì)應(yīng)的是上表中的數(shù)據(jù)
labels = ['no surfacing','flippers']
return dataSet, labels