相關(guān)性分析
tips:相關(guān)性分析不要局限在數(shù)值型數(shù)據(jù)和數(shù)值型數(shù)據(jù)之間(散點(diǎn)圖)揉燃,還有其他的相關(guān)性可供分析:
1.數(shù)值型數(shù)據(jù)和數(shù)值型數(shù)據(jù)之間的相關(guān)性:用散點(diǎn)圖破讨。
2.分類變量和分類變量之間的相關(guān)性:用馬賽克圖陷舅。
3.分類變量和數(shù)值型變量之間的相關(guān)性:柱形圖和箱線圖。
1.直接繪制散點(diǎn)圖
用 plot(kind = 'scattor')
或者
plt.scattor()
2.繪制散點(diǎn)圖矩陣
用pandas 的 scatter_matrix() 功能
3.計(jì)算相關(guān)系數(shù)
(1) pearson相關(guān)系數(shù) r 介于 -1 與 1 之間:
r>0 為 正相關(guān)杯瞻,r = 1 為完全正線性相關(guān)
r<0 為 負(fù)相關(guān), r = -1 為完全負(fù)線性相關(guān)
r=0 為 不相關(guān)
不同程度的線性相關(guān):
| r | <= 0.3 為不存在線性相關(guān)
0.3 <| r |<= 0.5 為低度線性相關(guān)
0.5 <| r |<= 0.8 為顯著線性相關(guān)
| r |>0.8 為高度線性相關(guān)
(2) Spearson 秩相關(guān)系數(shù):
這個(gè)東西有點(diǎn)迷扭吁,目前沒(méi)看懂。蜓斧。仓蛆。
(3) 判定系數(shù):
判定系數(shù)是相關(guān)系數(shù)的平方,用r^2 表示挎春。0<=r^2<= 1 越靠近1 表示x與y 的相關(guān)性越強(qiáng),越靠近0 表示兩個(gè)變量之間沒(méi)有直線相關(guān)關(guān)系看疙。