[數學建模第五講] 皮爾遜相關系數

皮爾遜相關系數

目錄

兩種最常用的相關系數:皮爾遜person相關系數和斯皮爾曼spearman等級相關系數博秫。

他可以用來衡量兩個變量之間相關性的大小潦牛,根據數據滿足不同的條件,我們要選擇不同的相關系數進行計算和分析挡育。

注:用皮爾遜相關系數進行分析時巴碗,選取兩兩變量,需要 通過作圖 看出兩兩變量 有線性相關性 才可進一步獲知其相關系數即寒。

若上述滿足了橡淆,得出了皮爾遜相關系數,還要看每個相關系數是否顯著異于0母赵,這樣之后才能看出兩兩變量線性相關性有多大逸爵。

但是此時樣本數據需要滿足 正態(tài)分布,若不滿足不可進行假設檢驗市咽。因此有幾種檢驗數據是否正態(tài)分布的方法痊银。

若滿足正態(tài)分布,得出了p值矩陣施绎,和顯著性比較后可以知道是否顯著異于0溯革,用*表示出來,這才完成了相關性檢驗的步驟谷醉,得出了這個兩兩變量間是顯著正相關還是負相關致稀,或者是不顯著的相關。

皮爾遜相關系數介紹

總體 ——所要考察對象的全部個體叫做總體.
我們總是希望得到總體數據的一些特征(例如均值方差等)
樣本 ——從總體中所抽取的一部分個體叫做總體的一個樣本.

1. 總體皮爾遜相關系數

  • 先算均值
  • 再算協(xié)方差
  • 再算標準差(方差)
  • 最后算相關系數
image.png

2. 樣本皮爾遜相關系數

image.png

兩者的區(qū)別只在于n變成了n-1.

相關性可視化

通過繪制散點圖可以很容易地判定兩個數據對象x和y之間的相關性俱尼。

  • x與y趨勢相反為負相關
  • x與y趨勢相同為正相關
  • 相關系數絕對值越接近1抖单,相關性越大
image.png

皮爾遜相關系數的一些誤區(qū)

  1. 相關系數很大,但是圖像不是線性相關

    • 非線性相關也會導致線性相關系數很大遇八,例如圖2矛绘。
    • 離群點對相關系數的影響很大,例如圖3刃永,去掉離群點后货矮,相關系數為0.98。
    • 如果兩個變量的相關系數很大也不能說明兩者相關斯够,例如圖4囚玫,可能是受到了異常值的影響喧锦。
image.png
  1. 圖像有相關性,但是相關系數很小

    • 相關系數計算結果為0抓督,只能說不是線性相關燃少,但說不定會有更復雜的相關關系(非線性相關)
image.png

因此:

  1. 必須先確定兩個變量是線性相關的,然后才能通過相關系數知道相關程度如何铃在。
  2. 在不確定兩個變量是什么關系的情況下阵具,即使算出皮爾遜相關系數,發(fā)現(xiàn)很大涌穆,也不能說明那兩個變量線性相關怔昨,甚至不能說他們相關,我們一定要畫出散點圖來看才行宿稀。

描述性統(tǒng)計

對整體的數據進行不同角度的統(tǒng)計趁舀。

用matlab統(tǒng)計

image.png

用Excel統(tǒng)計

數據-數據分析

image.png

用SPSS統(tǒng)計

image.png

矩陣散點圖:兩兩變量間作圖

用于查看兩兩變量間的關系,看看是否有線性關系

image.png

求皮爾遜相關系數的函數corrcoef()

可以對一個矩陣兩兩列求相關系數祝沸,也可以求給的兩向量的相關系數矮烹。

image.png

美化相關系數矩陣

這里用excel來做

  1. 對獲得的矩陣復制到excel中,調整行高罩锐,使他為正方形

  2. 然后選中數據奉狈,然后條件格式|色階即可

image.png
image.png
  1. 條件格式|管理規(guī)則里修改改規(guī)則,把最小值設為數值-1涩惑,最大值設為數值1仁期,因為相關系數在[-1,1]之間。這樣的圖才準確

假設檢驗

假設檢驗一般步驟:

image.png

假設檢驗-p值:

image.png

對皮爾遜相關系數進行假設檢驗竭恬,得顯著性水平

手動計算出檢驗值和臨界值跛蛋,進行假設檢驗

第一步:提出原假設H_0和備擇假設H_1

  • 已知皮爾遜相關系數r,我們想檢驗他是否顯著地異于0
  • H_0:r=0 \,\,r和0沒有顯著差異\,\, H_1:r!=0 \,\,r和0有顯著差異

第二步:在原假設成立的前提下痊硕,利用要檢驗的量(r)構造符合某一分布的統(tǒng)計量

? 對于皮爾遜相關系數r而言赊级,在滿足一定的條件下,我們可以構造出統(tǒng)計量:
t=r\sqrt{{n-2}\over{1-r^2}}
? t是服從自由度為n-2的t分布岔绸。至此我們根據r構造出了一個t分布(證明略)

第三步:將要檢驗的r值帶入該統(tǒng)計量理逊,得到特定值

? 如相關系數r=0.5,樣本數量為30盒揉,則t^*=0.5\sqrt{{30-2}\over{1-0.5^2}}=3.055

第四步:根據分布和置信水平找到臨界值晋被,就可以找到接受域和拒絕域

  • 方法:
    • 查表:t分布,置信水平0.95刚盈,則右側累積置信水平0.975墨微,自由度28,找到臨界值2.048
    • 函數計算:臨界值=tinv(0.975,28) % 這個函數是累積密度函數tcdf的反函數
  • 判斷結果
    • 檢驗值>臨界值扁掸,拒絕原假設-->相關系數r和0有顯著差異(即可以視這個相關系數為0)
    • 檢驗值<臨界值翘县,接受原假設-->相關系數r和0沒有顯著差異

計算p值檢驗

單個相關系數檢驗顯著性:

已知檢驗值為3.055,自由度28谴分,雙側檢驗锈麸,求其p值:

p=(1-tcdf(3.055,28))*2 
% tcdf:t分布的累計概率密度函數

?

另一種便捷方法:直接得出相關系數矩陣及其p值矩陣:

[R,P]=corrcoef(X)
% R 為相關系數矩陣
% P 為p值矩陣

相關系數的顯著性水平表示方法

看p值和顯著性水平的關系(p在哪個段里):

  • 0-0.01:r和0有很大顯著區(qū)別,三星
  • 0.01-0.05:r和0有較大顯著區(qū)別牺蹄,二星
  • 0.05-0.10:r和0有顯著區(qū)別忘伞,一星
image.png

代碼篩選:

star3=P<0.01

star2=(P>0.01) .* (P<0.05)

star1=(P>0.05) .* (P<0.1)
image.png

皮爾遜相關系數假設檢驗的條件

要進行假設檢驗,你這個實驗數據要符合一些條件沙兰,才能進行檢驗氓奈,得顯著水平:

image.png

這里只要保證第一個:實驗數據符合正態(tài)分布即可。

那么鼎天,

如何檢驗數據是否是正態(tài)分布舀奶?

雅克貝拉檢驗JB檢驗(Jarque-bera test)

要求大樣本,n>30斋射。

matlab:[h,p] = jbtest(x,alpha)

  • h為結果育勺,1拒絕原假設,0接受原假設罗岖。

  • p為p值涧至,與alpha顯著水平比較,小于則拒絕原假設桑包,大于接受原假設

  • x為一個向量

  • alpha為顯著水平南蓬,一般為0.05,此時置信水平為0.95

如:

[h,p]=jbtest(Test(:,1),0.05)

夏皮洛-威爾克檢驗 (Shapiro‐wilk)

小樣本 3≤n≤50哑了。

這里用SPSS檢驗赘方。

image.png

Q-Q圖

要求數據量很大,500以上吧垒手,不然會有偏差蒜焊。而且QQ圖不太常用。


image.png

matlab使用:

qqplot(x)
% x為向量
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末科贬,一起剝皮案震驚了整個濱河市泳梆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌榜掌,老刑警劉巖优妙,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件子巾,死亡現(xiàn)場離奇詭異跳纳,居然都是意外死亡,警方通過查閱死者的電腦和手機霹疫,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門胞皱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來邪意,“玉大人九妈,你說我怎么就攤上這事∥砉恚” “怎么了萌朱?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵,是天一觀的道長策菜。 經常有香客問我晶疼,道長,這世上最難降的妖魔是什么又憨? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任翠霍,我火速辦了婚禮,結果婚禮上蠢莺,老公的妹妹穿的比我還像新娘寒匙。我一直安慰自己,他們只是感情好浪秘,可當我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布蒋情。 她就那樣靜靜地躺著,像睡著了一般耸携。 火紅的嫁衣襯著肌膚如雪棵癣。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天夺衍,我揣著相機與錄音狈谊,去河邊找鬼。 笑死沟沙,一個胖子當著我的面吹牛河劝,可吹牛的內容都是我干的。 我是一名探鬼主播矛紫,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼赎瞎,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了颊咬?” 一聲冷哼從身側響起务甥,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎喳篇,沒想到半個月后敞临,有當地人在樹林里發(fā)現(xiàn)了一具尸體,經...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡麸澜,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年挺尿,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡编矾,死狀恐怖熟史,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情窄俏,我是刑警寧澤以故,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站裆操,受9級特大地震影響,放射性物質發(fā)生泄漏炉媒。R本人自食惡果不足惜踪区,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望吊骤。 院中可真熱鬧缎岗,春花似錦白粉、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽恬口。三九已至祖能,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間雁芙,已是汗流浹背揭厚。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工筛圆, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人闽晦。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓笋敞,卻偏偏與公主長得像荠瘪,于是被迫代替她去往敵國和親哀墓。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 43,472評論 2 348

推薦閱讀更多精彩內容