期望交叉熵也稱為KL距離廉羔,反映的是文本類別的概率分布和在出現(xiàn)了某個(gè)特征的條件下文本類別的概率分布之間的距離魄衅,具體公式表示如下
P(t)表示特征t在文本中出現(xiàn)的概率
?P(ci)表示ci類文本在文本集中出現(xiàn)的概率
P(ci|t)表示文本包含特征t時(shí)屬于類別c的概率
|c|表示類別總數(shù)。
如果特征t和類別強(qiáng)相關(guān)雾狈,即P(ci|t)大,并且相應(yīng)的P(ci)又比較小,則說(shuō)明特征t對(duì)分類的影響大失尖,相應(yīng)的期望交叉熵值也較大,特征在特征子集中的排名就會(huì)比較靠前渐苏。
期望交叉熵在文本分類的特征選擇中得到了廣泛的應(yīng)用掀潮,并且取得了很好的效果,與信息增益相比琼富,期望交叉熵不再考慮特征項(xiàng)不出現(xiàn)的情況仪吧,這就大大降低了一些出現(xiàn)次數(shù)很少的稀有特征的干擾,提高了分類的效率鞠眉。期望交叉熵在特征選擇上雖然已經(jīng)取得了很好的效果薯鼠,但是還存在一些不足择诈,最明顯的一點(diǎn)就是它只考慮了特征與類別之間的相關(guān)性,而忽略了特征項(xiàng)在類內(nèi)和類間分布的均勻程度出皇。如果考慮到特征在類內(nèi)和類間分布的影響羞芍,則特征項(xiàng)集中的出現(xiàn)在某一個(gè)類中比均勻分布在很多類中含有更多的類別信息,特征項(xiàng)在某一個(gè)類中均勻地分布在很多文本中比只在該類中個(gè)別文本中出現(xiàn)含有更多的類別信息郊艘。
參考:http://blog.csdn.net/fighting_one_piece/article/details/38562183
同時(shí)發(fā)現(xiàn)在有的博客中公式?jīng)]有前面詞t的概率