在文本分類中利用信息增益進(jìn)行特征提取
信息增益體現(xiàn)了特征的重要性篱昔,信息增益越大說明特征越重要
假設(shè)數(shù)據(jù)中有k類:
每類出現(xiàn)的概率是:
各類的信息熵計(jì)算公式:
對(duì)某個(gè)詞匯word需要計(jì)算word在所有類別中出現(xiàn)的概率:
就是:出現(xiàn)word的文件數(shù) 除以總文件數(shù)
word不出現(xiàn)的概率:
就是沒有出現(xiàn)word的文件數(shù) 除以總文件數(shù)
條件熵的計(jì)算:
這里我們用到了T表示word這個(gè)特征
其中
表示:出現(xiàn)word的文件的信息熵
計(jì)算方式:
其中:
表示出現(xiàn)word的情況下是Ci類的概率千贯,計(jì)算方式:Ci類中出現(xiàn)word的文件數(shù) 除以 總的出現(xiàn)word的文件數(shù)
表示不出現(xiàn)word的條件熵
計(jì)算方式
其中
表示沒有出現(xiàn)word的情況下是Ci類的概率褪迟,計(jì)算方式:Ci類中沒有出現(xiàn)word的次數(shù) 除以 總類中沒有出現(xiàn)word的次數(shù)
總的信息增益計(jì)算公式
信息熵體現(xiàn)了信息的不確定程度侄刽,熵越大表示特征越不穩(wěn)定虏肾,對(duì)于此次的分類侣灶,越大表示類別之間的數(shù)據(jù)差別越大
條件熵體現(xiàn)了根據(jù)該特征分類后的不確定程度锰茉,越小說明分類后越穩(wěn)定
信息增益=信息熵-條件熵,越大說明熵的變化越大恕曲,熵的變化越大越有利于分類