決策樹:分類決策樹模型使一種對(duì)實(shí)例進(jìn)行分類的樹形結(jié)構(gòu)掏觉。決策樹由節(jié)點(diǎn)和有向邊組成繁堡,節(jié)點(diǎn)有兩種類型:內(nèi)部節(jié)點(diǎn)和葉節(jié)點(diǎn)。內(nèi)部節(jié)點(diǎn)表示一個(gè)特征和屬性口叙,葉節(jié)點(diǎn)表示一個(gè)類炼绘。
特征選擇:特征選擇在于選取對(duì)訓(xùn)練數(shù)據(jù)具有分類能力的特征。通常特征選擇的準(zhǔn)則是信息增益或信息增益比妄田。
信息熵:熵是表示隨機(jī)變量不確定性的度量俺亮。由定義可知,熵只依賴于X的分布疟呐,而與X的取值無關(guān)脚曾。熵越大,隨機(jī)變量的不確定性越大启具。
條件熵:條件熵H(Y|X)表示在已知隨機(jī)變量X的條件下隨機(jī)變量Y的不確定性本讥。
信息增益:
信息增益比:信息增益值的大小是相對(duì)于訓(xùn)練數(shù)據(jù)集而言的,沒有絕對(duì)意義鲁冯。在分類問題困難時(shí)拷沸,也就是說訓(xùn)練數(shù)據(jù)集的經(jīng)驗(yàn)熵大的時(shí)候,信息增益值就會(huì)偏大薯演。反之撞芍,則偏小。使用信息增益比跨扮,可以對(duì)這一問題進(jìn)行校正序无。
決策樹的生成
- ID3算法:在決策樹各個(gè)節(jié)點(diǎn)上應(yīng)用信息增益準(zhǔn)則選擇特征验毡,遞歸構(gòu)建決策樹。該算法只有決策樹的生成帝嗡,所以該算法生成的樹容易產(chǎn)生過擬合米罚。
- C4.5算法:與ID3相似,在生成決策數(shù)的過程中丈探,用信息增益比來選擇特征录择。