1 相關關系
相關關系指變量之間存在著非確定性依存關系戒良。即當一個或一組變量每取一個值時势决,相應的另一個變量可能有多個不同值與之對應豺型。
——相關關系可以理解為多個變量均值之間的一種數(shù)量關系!
1.1 相關關系的種類
按變量的個數(shù)分類:
- 研究2個變量之間的關系为迈,為單相關删性;
- 研究1個變量與N個變量之間的關系江滨,為復相關庸论;
- 就多個變量測定其中兩個變量的相關程度而假定其他變量不變职辅,為偏相關。
1.2 相關分析的特點
- 兩個變量全是隨機變量聂示,X是隨機變量域携,Y也是隨機變量;
- 變量X與變量Y只能計算出一個相關系數(shù)鱼喉,相關系數(shù)是唯一的秀鞭;
- 計算相關系數(shù)時,變量X與Y獲取的資料方式相同扛禽。
2 相關性度量
2.1 相關系數(shù)
對變量之間關系密切程度的度量
若相關系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的锋边,稱為總體相關系數(shù),記為 旋圆。若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關系數(shù)麸恍, 記為 r灵巧。
根據(jù)數(shù)值大小來判定相關密切程度方面,尚無一致意見抹沪。一般常劃分為四級: 數(shù)值在0.3以下者視為不相關刻肄,0.3~0.5屬低度相關,0.5-0.8屬顯著相關融欧,0.8以上屬高度相關(僅供參考敏弃,需根據(jù)實際情況判斷)。
為了定量的描述線性相關性噪馏,統(tǒng)計學奠基人K. Pearson提出了Pearson積差相關系數(shù)麦到、心理學家CE. Spearman提出了Spearman等級相關系數(shù)、統(tǒng)計學家M. Kendall提出了Kendall秩相關系數(shù)欠肾。這三種相關系數(shù)最具有代表性瓶颠、應用也最廣泛,它們既有聯(lián)系又有不同刺桃,分別有不同的適用場景粹淋。
重要參考: 作者:Treant;出處:http://www.cnblogs.com/en-heng/
2.1.1 Pearson相關系數(shù)
Pearson相關系數(shù) (Pearson correlation coefficient)用于度量兩個變量X、Y的相關性桃移,定義如下:
上述公式又被稱為相關系數(shù)的積差法計算公式屋匕,其中分子位置的 表示變量X與Y的協(xié)方差(消除了變量個數(shù)的影響),分母位置的兩變量的標準差 的作用是使不同變量的協(xié)方差標準化借杰,用于消除變量本身數(shù)值大小的影響过吻。
!注意:
- 此公式計算的是變量之間的線性相關系數(shù)第步。如果變量之間屬于非線性相關疮装,則此公式失效;
- 相關系數(shù)計算出的結果是唯一的粘都,并且數(shù)值在 之間廓推;
- 樣本資料說明總體時,要進行假設檢驗翩隧;
- 其分析的是直接關系樊展,不是間接關系;
下圖給出了當Pearson相關系數(shù)為不同值時X和Y的散點圖(以下三張圖片均來自于Wikipedia):
2.1.2 Spearman相關系數(shù)
Spearman相關系數(shù)實際上就是將變量X和Y替換成其對應等級x, y的Pearson相關系數(shù):
相較于Pearson相關系數(shù)堆生,Spearman相關系數(shù)更能描述兩個變量之間的單調(diào)性的相關性专缠,對于樣本中的顯著離群點更為不敏感。比如淑仆,下圖中變量X和Y的Pearson相關系數(shù)涝婉、Spear-man相關系數(shù)分別為0.88與1,顯然Spearman相關系數(shù)更好地刻畫了兩個變量增長趨勢的相關性蔗怠。
下圖更好地表現(xiàn)出了Spearman相關系數(shù)的抗噪音性:
2.1.3 Kendall相關系數(shù)
Kendall相關系數(shù)是另一種等級相關統(tǒng)計量墩弯,其主要思想是根據(jù)兩個變量序?qū)Φ囊恢滦?(concordance)來判斷相關性的。一致性序?qū)?(concordant pair)定義如下:如果變量對寞射、 且 滿足當 時 渔工,或者當時。反之桥温,則為非一致性序?qū)Α?/p>
Kendall相關系數(shù)的定義如下:
其中引矩,P為一致性序?qū)Φ膫€數(shù),Q為非一致性序?qū)€數(shù)侵浸,則P+Q=n(n?1/2)旺韭,因此上式可改寫為:, 顯然τ的取值范圍為[-1, 1] 掏觉。
2.2 線性相關的假設檢驗
基本步驟:
- 提出原假設與備擇假設
- 給定顯著性水平
- 選擇檢驗方法履腋,構建檢驗統(tǒng)計量
- 將檢驗統(tǒng)計量與臨界值比較珊燎,如檢驗統(tǒng)計量的絕對值大于臨界值惭嚣,則拒絕原假設,否則悔政,就不拒絕原假設晚吞。
檢驗方法:
- t 檢驗法:
- r 檢驗法:
用已經(jīng)算好的 r 作為檢驗統(tǒng)計量,其臨界值可以在附表中找到谋国。