相關分析最常用的方法就是用相關系數直接衡量連續(xù)值的相關性,而離散屬性的相關性是用熵增益轉換成相關性的形式來衡量琐驴。
一、分析連續(xù)值的相關性:
Pearson相關系數及Spearman相關系數如下:
二悬钳、分析離散值的相關性:
說明:
1.熵是衡量不確定的值,值越接近于0棘捣,說明不確定性越泄枷佟;數據的類別越多熵越大乍恐。
2.互信息(熵增益):缺點:對分類數目多的特征有不正確的偏向评疗,也就是說不具有歸一化的特點,它的不確定性是上不封頂的茵烈,所以對于我們相關性的界定是不方便的百匆,為了解決這個問題,有了熵增益率呜投。
3.熵增益率:是不對稱的加匈,即X對Y的增益率與Y對X的增益率是不等的,所以要進行轉換仑荐,轉換成相關性雕拼。
4.相關性:解決了X和Y的對稱性。
以下為舉例說明:
代碼實現如下: