————DDL:2017/11/15——不定期記錄以便寫實(shí)驗(yàn)報(bào)告
信息論(需補(bǔ)充知識)
結(jié)果的不確定性
熵值H(X)=-plog2(p)-(1-p)log2(1-p)
條件熵
聯(lián)合熵
方差
熵
協(xié)方差與相關(guān)系數(shù)
P(X=1)=p
P(X=0)=1-p
誤分類率 1-max(p,1-p)
條件熵取最小
互信息取最大
H(Y)-H(Y|X)
原始數(shù)據(jù)集的熵 減去 (引入某條件)條件熵
I(X;Y)差值越大,表示X對Y的預(yù)測更重要
基于信息增益的ID3模型
缺點(diǎn):當(dāng)某個(gè)屬性分類過多時(shí)佛掖,比如說userID斑鼻,更偏向與互信息更高的節(jié)點(diǎn),會被分到較高的根節(jié)點(diǎn),但是沒有任何意義
改進(jìn):C4.5 引入信息增益率声旺,即每次選取最大增益率的屬性進(jìn)行劃分
信息增益率的分子出嘹,把屬性自己的熵作為分母,信息增益率越大越好
基于Gini指數(shù)的CART模型
處理離散型變量
如何處理連續(xù)型變量
實(shí)驗(yàn)課筆記:
決策樹剪枝
1纱注、預(yù)剪枝
a 規(guī)定樹的層次
b 根據(jù)數(shù)據(jù)葉子節(jié)點(diǎn)個(gè)個(gè)數(shù) 做一個(gè)閾值(假如該節(jié)點(diǎn)下只有一個(gè)label畏浆,有可能是噪聲,也許有可能是對模型決策沒有什么幫助的節(jié)點(diǎn))狞贱,假如該葉子節(jié)點(diǎn)的數(shù)量小于一個(gè)閾值刻获,那么把這個(gè)葉子節(jié)點(diǎn)歸并到父節(jié)點(diǎn)中,不再繼續(xù)向下分支
c 從訓(xùn)練集中瞎嬉,用交叉驗(yàn)證蝎毡,構(gòu)建驗(yàn)證集
使用驗(yàn)證集,在生成新的節(jié)點(diǎn)氧枣,判斷分出新節(jié)點(diǎn)的決策是否效果更好
2沐兵、后剪枝
a 基于錯(cuò)誤率的剪枝
b 基于模型復(fù)雜度的剪枝 懲罰系數(shù)(協(xié)同錯(cuò)誤率和模型復(fù)雜度的關(guān)系)
(理論課知識補(bǔ)充)
別的優(yōu)化方法:
a 隨機(jī)森林(決策樹泛化能力太差),對某一個(gè)訓(xùn)練集生成一顆完整的樹便监,正確率很高扎谎,這樣子在測試集上容易出現(xiàn)過擬合
begging 抽取數(shù)據(jù)集放回去碳想,抽出放回如100次
然后進(jìn)行10次
有了10個(gè)訓(xùn)練集,然后再分別生產(chǎn)決策樹毁靶,這種方法用于泛化模型
第二個(gè)隨機(jī)
重新選取 特征維度(10選7)
原來的一個(gè)節(jié)點(diǎn) 加入51個(gè)+胧奔,49個(gè)-,那如果挑選51個(gè)的+樣例作為決策目標(biāo)预吆,那么也許沒什么代表性龙填,可以利用KNN算法對節(jié)點(diǎn)重新建模(原來的模型為眾數(shù))
歸一化:不等于讓和等于1
為什么歸一化?
消除量綱
使屬性對結(jié)果的影響平均一些拐叉,不讓某些數(shù)字差別極大的屬性岩遗,直接決定整個(gè)模型的決策
對什么歸一化:
對屬性歸一化