皮爾遜相關系數
兩種最常用的相關系數:皮爾遜person相關系數和斯皮爾曼spearman等級相關系數博秫。
他可以用來衡量兩個變量之間相關性的大小潦牛,根據數據滿足不同的條件,我們要選擇不同的相關系數進行計算和分析挡育。
注:用皮爾遜相關系數進行分析時巴碗,選取兩兩變量,需要 通過作圖 看出兩兩變量 有線性相關性 才可進一步獲知其相關系數即寒。
若上述滿足了橡淆,得出了皮爾遜相關系數,還要看每個相關系數是否顯著異于0母赵,這樣之后才能看出兩兩變量線性相關性有多大逸爵。
但是此時樣本數據需要滿足 正態(tài)分布,若不滿足不可進行假設檢驗市咽。因此有幾種檢驗數據是否正態(tài)分布的方法痊银。
若滿足正態(tài)分布,得出了p值矩陣施绎,和顯著性比較后可以知道是否顯著異于0溯革,用*表示出來,這才完成了相關性檢驗的步驟谷醉,得出了這個兩兩變量間是顯著正相關還是負相關致稀,或者是不顯著的相關。
皮爾遜相關系數介紹
總體 ——所要考察對象的全部個體叫做總體.
我們總是希望得到總體數據的一些特征(例如均值方差等)
樣本 ——從總體中所抽取的一部分個體叫做總體的一個樣本.
1. 總體皮爾遜相關系數
- 先算均值
- 再算協(xié)方差
- 再算標準差(方差)
- 最后算相關系數
2. 樣本皮爾遜相關系數
兩者的區(qū)別只在于n變成了n-1.
相關性可視化
通過繪制散點圖可以很容易地判定兩個數據對象x和y之間的相關性俱尼。
- x與y趨勢相反為負相關
- x與y趨勢相同為正相關
- 相關系數絕對值越接近1抖单,相關性越大
皮爾遜相關系數的一些誤區(qū)
-
相關系數很大,但是圖像不是線性相關
- 非線性相關也會導致線性相關系數很大遇八,例如圖2矛绘。
- 離群點對相關系數的影響很大,例如圖3刃永,去掉離群點后货矮,相關系數為0.98。
- 如果兩個變量的相關系數很大也不能說明兩者相關斯够,例如圖4囚玫,可能是受到了異常值的影響喧锦。
-
圖像有相關性,但是相關系數很小
- 相關系數計算結果為0抓督,只能說不是線性相關燃少,但說不定會有更復雜的相關關系(非線性相關)
因此:
- 必須先確定兩個變量是線性相關的,然后才能通過相關系數知道相關程度如何铃在。
- 在不確定兩個變量是什么關系的情況下阵具,即使算出皮爾遜相關系數,發(fā)現(xiàn)很大涌穆,也不能說明那兩個變量線性相關怔昨,甚至不能說他們相關,我們一定要畫出散點圖來看才行宿稀。
描述性統(tǒng)計
對整體的數據進行不同角度的統(tǒng)計趁舀。
用matlab統(tǒng)計
用Excel統(tǒng)計
數據-數據分析
用SPSS統(tǒng)計
矩陣散點圖:兩兩變量間作圖
用于查看兩兩變量間的關系,看看是否有線性關系
求皮爾遜相關系數的函數corrcoef()
可以對一個矩陣兩兩列求相關系數祝沸,也可以求給的兩向量的相關系數矮烹。
美化相關系數矩陣
這里用excel來做
對獲得的矩陣復制到excel中,調整行高罩锐,使他為正方形
然后選中數據奉狈,然后條件格式|色階即可
- 條件格式|管理規(guī)則里修改改規(guī)則,把最小值設為數值-1涩惑,最大值設為數值1仁期,因為相關系數在[-1,1]之間。這樣的圖才準確
假設檢驗
假設檢驗一般步驟:
假設檢驗-p值:
對皮爾遜相關系數進行假設檢驗竭恬,得顯著性水平
手動計算出檢驗值和臨界值跛蛋,進行假設檢驗
第一步:提出原假設和備擇假設
- 已知皮爾遜相關系數,我們想檢驗他是否顯著地異于0
第二步:在原假設成立的前提下痊硕,利用要檢驗的量()構造符合某一分布的統(tǒng)計量
? 對于皮爾遜相關系數r而言赊级,在滿足一定的條件下,我們可以構造出統(tǒng)計量:
? 是服從自由度為n-2的分布岔绸。至此我們根據構造出了一個分布(證明略)
第三步:將要檢驗的值帶入該統(tǒng)計量理逊,得到特定值
? 如相關系數,樣本數量為30盒揉,則
第四步:根據分布和置信水平找到臨界值晋被,就可以找到接受域和拒絕域
- 方法:
- 查表:t分布,置信水平0.95刚盈,則右側累積置信水平0.975墨微,自由度28,找到臨界值2.048
- 函數計算:臨界值=tinv(0.975,28) % 這個函數是累積密度函數tcdf的反函數
- 判斷結果
- 檢驗值>臨界值扁掸,拒絕原假設-->相關系數r和0有顯著差異(即可以視這個相關系數為0)
- 檢驗值<臨界值翘县,接受原假設-->相關系數r和0沒有顯著差異
計算p值檢驗
單個相關系數檢驗顯著性:
已知檢驗值為3.055,自由度28谴分,雙側檢驗锈麸,求其p值:
p=(1-tcdf(3.055,28))*2
% tcdf:t分布的累計概率密度函數
?
另一種便捷方法:直接得出相關系數矩陣及其p值矩陣:
[R,P]=corrcoef(X)
% R 為相關系數矩陣
% P 為p值矩陣
相關系數的顯著性水平表示方法
看p值和顯著性水平的關系(p在哪個段里):
- 0-0.01:r和0有很大顯著區(qū)別,三星
- 0.01-0.05:r和0有較大顯著區(qū)別牺蹄,二星
- 0.05-0.10:r和0有顯著區(qū)別忘伞,一星
代碼篩選:
star3=P<0.01
star2=(P>0.01) .* (P<0.05)
star1=(P>0.05) .* (P<0.1)
皮爾遜相關系數假設檢驗的條件
要進行假設檢驗,你這個實驗數據要符合一些條件沙兰,才能進行檢驗氓奈,得顯著水平:
這里只要保證第一個:實驗數據符合正態(tài)分布即可。
那么鼎天,
如何檢驗數據是否是正態(tài)分布舀奶?
雅克貝拉檢驗JB檢驗(Jarque-bera test)
要求大樣本,n>30斋射。
matlab:[h,p] = jbtest(x,alpha)
h為結果育勺,1拒絕原假設,0接受原假設罗岖。
p為p值涧至,與alpha顯著水平比較,小于則拒絕原假設桑包,大于接受原假設
x為一個向量
alpha為顯著水平南蓬,一般為
0.05
,此時置信水平為0.95
如:
[h,p]=jbtest(Test(:,1),0.05)
夏皮洛-威爾克檢驗 (Shapiro‐wilk)
小樣本 3≤n≤50哑了。
這里用SPSS檢驗赘方。
Q-Q圖
要求數據量很大,500以上吧垒手,不然會有偏差蒜焊。而且QQ圖不太常用。
matlab使用:
qqplot(x)
% x為向量