數(shù)據(jù)預(yù)處理_數(shù)據(jù)相關(guān)性分析

相關(guān)性分析

1椅邓、相關(guān)性分析是指對(duì)多個(gè)具備相關(guān)關(guān)系的變量進(jìn)行分析痘儡,從而衡量變量間的相關(guān)程度或密切程度

2驱敲、相關(guān)性可以應(yīng)用到所有數(shù)據(jù)的分析過程中撰豺,任何事物之間都是存在一定的聯(lián)系

3相味、為了更準(zhǔn)確描述變量之間的相關(guān)程度涂邀,通過計(jì)數(shù)相關(guān)系數(shù)來表示卿樱,在二元變量的相關(guān)分析中用相關(guān)系數(shù)(R)表示销部,而常用的有Pearson相關(guān)系數(shù)(皮爾遜相關(guān)系數(shù)) 和Spearman秩相關(guān)系數(shù)(斯皮爾曼相關(guān)系數(shù))

  • 相關(guān)系數(shù)取值范圍:-1≤R≤1眠饮,R>0為正相關(guān)表示兩個(gè)變量的增長趨勢(shì)相同奥帘,R<0為負(fù)相關(guān)表示兩個(gè)變量的增長趨勢(shì)相反
  • 相關(guān)性的強(qiáng)弱看相關(guān)系數(shù)R的絕對(duì)值。
    • |R|=0仪召,不存在線性關(guān)系寨蹋,|R|=-1,完全線性相關(guān)
    • |R|≤0.3扔茅,極弱線性相關(guān)或不存在線性相關(guān)
    • 0.3<|R|≤0.5已旧,低度線性相關(guān)
    • 0.5≤|R|≤0.8,顯著線性相關(guān)
    • |R|>0.8,高度線性相關(guān)
# 設(shè)置cell多行輸出

from IPython.core.interactiveshell import InteractiveShell 
InteractiveShell.ast_node_interactivity = 'all' #默認(rèn)為'last'

# 導(dǎo)入相關(guān)庫
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os
import warnings

warnings.filterwarnings('ignore')
os.chdir(r'E:\python_learn\data\python_book_v2\chapter3')
file_name='data5.txt'
data = pd.read_table(file_name,names=list('ABCDEFGHIJ'))
data.head()

Pearson相關(guān)系數(shù) → data.corr(method='pearson')

  • pearson相關(guān)系數(shù)一般用于分析兩個(gè)連續(xù)性變量之間的關(guān)系召娜,且要求連續(xù)變量的取值服從正態(tài)分布运褪。

→pandas的corr()函數(shù)可以直接給出數(shù)據(jù)字段的相關(guān)系數(shù)矩陣,返各類型之間的相關(guān)系數(shù)DataFrame表格。

  • 參數(shù)說明:
    • method:可選值為{‘pearson’, ‘kendall’, ‘spearman’}
      • pearson:Pearson相關(guān)系數(shù)來衡量?jī)蓚€(gè)數(shù)據(jù)集合是否在一條線上面玖瘸,即針對(duì)線性數(shù)據(jù)的相關(guān)系數(shù)計(jì)算秸讹,針對(duì)非線性數(shù)據(jù)便會(huì)有誤差。
      • kendall:用于反映分類變量相關(guān)性的指標(biāo)雅倒,即針對(duì)無序序列的相關(guān)系數(shù)璃诀,非正太分布的數(shù)據(jù)
      • spearman:非線性的,非正太分析的數(shù)據(jù)的相關(guān)系數(shù)
    • min_periods:樣本最少的數(shù)據(jù)量
# 此處假設(shè)數(shù)據(jù)服從正態(tài)分布

# pearson相關(guān)系數(shù)矩陣
pearson = round(data.corr(method='pearson',min_periods=1),2)   # method默認(rèn)pearson
pearson
# 用色彩映射表現(xiàn)返回的相關(guān)性矩陣的相關(guān)性強(qiáng)弱
pearson_abs = np.abs(pearson)
pearson_abs.style.background_gradient(cmap='Blues',axis =1,low=0,high=1)
# cmap:顏色
# axis:映射參考蔑匣,0為行劣欢,1以列
# 用熱力圖可視化
fig,ax = plt.subplots(1,1,figsize=(8,6))
hot_img = ax.matshow(np.abs(pearson),vmin=0,vmax=1,cmap='Greens')
# vmin=0,vmax=1  設(shè)置值域從0-1
fig.colorbar(hot_img)  # 生成顏色漸變條(右側(cè))
ax.set_title('熱力圖-Pearson相關(guān)性矩陣',fontsize=14,pad=12)
ax.set_xticks(range(0,10,1))
ax.set_yticks(range(0,10,1))
ax.set_xticklabels(['x'+str(i) for i in range(len(pearson))],fontsize=12)
ax.set_yticklabels(['x'+str(i) for i in range(len(pearson))],fontsize=12)

Spearman秩相關(guān)系數(shù) → data.corr(method='spearman')

  • 不服從正態(tài)分布的變量棕诵、分類或等級(jí)變量之間的關(guān)聯(lián)性可采用Spearman秩相關(guān)系數(shù)來描述,因此Spearman秩相關(guān)系數(shù)又稱為等級(jí)相關(guān)系數(shù)
# Sperman秩相關(guān)系數(shù)矩陣
spearman = round(data.corr(method='spearman'),2)
spearman
  • 當(dāng)數(shù)據(jù)變量之間的相關(guān)性較強(qiáng)的時(shí)凿将,說明變量間可能存在共線性相關(guān)性校套,可以采取降維的處理方法,從原有的變量中提取部分特征代替原數(shù)據(jù)的所有特征牧抵。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末笛匙,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子灭忠,更是在濱河造成了極大的恐慌膳算,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件弛作,死亡現(xiàn)場(chǎng)離奇詭異涕蜂,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)映琳,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門机隙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人萨西,你說我怎么就攤上這事有鹿。” “怎么了谎脯?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵葱跋,是天一觀的道長。 經(jīng)常有香客問我源梭,道長娱俺,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任废麻,我火速辦了婚禮荠卷,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘烛愧。我一直安慰自己油宜,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布怜姿。 她就那樣靜靜地躺著慎冤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪沧卢。 梳的紋絲不亂的頭發(fā)上粪薛,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天,我揣著相機(jī)與錄音搏恤,去河邊找鬼违寿。 笑死,一個(gè)胖子當(dāng)著我的面吹牛熟空,可吹牛的內(nèi)容都是我干的藤巢。 我是一名探鬼主播,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼息罗,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼掂咒!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起迈喉,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤绍刮,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后挨摸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體孩革,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年得运,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了膝蜈。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡熔掺,死狀恐怖饱搏,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情置逻,我是刑警寧澤推沸,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站券坞,受9級(jí)特大地震影響鬓催,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜报慕,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一深浮、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧眠冈,春花似錦飞苇、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至雇盖,卻和暖如春忿等,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背崔挖。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國打工贸街, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留庵寞,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓薛匪,卻偏偏與公主長得像捐川,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子逸尖,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容