相關分析

1 相關關系

相關關系指變量之間存在著非確定性依存關系戒良。即當一個或一組變量每取一個值時势决,相應的另一個變量可能有多個不同值與之對應豺型。
——相關關系可以理解為多個變量均值之間的一種數(shù)量關系!

1.1 相關關系的種類

按變量的個數(shù)分類:

  • 研究2個變量之間的關系为迈,為單相關删性;
  • 研究1個變量與N個變量之間的關系江滨,為復相關庸论;
  • 就多個變量測定其中兩個變量的相關程度而假定其他變量不變职辅,為偏相關

1.2 相關分析的特點

  1. 兩個變量全是隨機變量聂示,X是隨機變量域携,Y也是隨機變量;
  2. 變量X與變量Y只能計算出一個相關系數(shù)鱼喉,相關系數(shù)是唯一的秀鞭;
  3. 計算相關系數(shù)時,變量X與Y獲取的資料方式相同扛禽。

2 相關性度量

2.1 相關系數(shù)

對變量之間關系密切程度的度量

若相關系數(shù)是根據(jù)總體全部數(shù)據(jù)計算的锋边,稱為總體相關系數(shù),記為 \rho旋圆。若是根據(jù)樣本數(shù)據(jù)計算的,則稱為樣本相關系數(shù)麸恍, 記為 r灵巧。

根據(jù)數(shù)值大小來判定相關密切程度方面,尚無一致意見抹沪。一般常劃分為四級:|r| 數(shù)值在0.3以下者視為不相關刻肄,0.3~0.5屬低度相關,0.5-0.8屬顯著相關融欧,0.8以上屬高度相關(僅供參考敏弃,需根據(jù)實際情況判斷)。

為了定量的描述線性相關性噪馏,統(tǒng)計學奠基人K. Pearson提出了Pearson積差相關系數(shù)麦到、心理學家CE. Spearman提出了Spearman等級相關系數(shù)、統(tǒng)計學家M. Kendall提出了Kendall秩相關系數(shù)欠肾。這三種相關系數(shù)最具有代表性瓶颠、應用也最廣泛,它們既有聯(lián)系又有不同刺桃,分別有不同的適用場景粹淋。

重要參考: 作者:Treant;出處:http://www.cnblogs.com/en-heng/

2.1.1 Pearson相關系數(shù)

Pearson相關系數(shù) (Pearson correlation coefficient)用于度量兩個變量X、Y的相關性桃移,定義如下:
r=\frac{\sigma_{XY}}{\sigma_X\sigma_Y} =\frac{\sum_{i=1}^n (X_i-\overline{X}) (Y_i-\overline{Y})}{\sqrt{\sum_{i}^n(X_i-\overline{X})^2} \sqrt{\sum_{i}^n(Y_i-\overline{Y})^2}}上述公式又被稱為相關系數(shù)的積差法計算公式屋匕,其中分子位置的 \sigma_{XY} 表示變量X與Y的協(xié)方差(消除了變量個數(shù)的影響),分母位置的兩變量的標準差 \sigma_X,\sigma_Y 的作用是使不同變量的協(xié)方差標準化借杰,用于消除變量本身數(shù)值大小的影響过吻。

!注意:

  • 此公式計算的是變量之間的線性相關系數(shù)第步。如果變量之間屬于非線性相關疮装,則此公式失效;
  • 相關系數(shù)計算出的結果是唯一的粘都,并且數(shù)值在 \pm1 之間廓推;
  • 樣本資料說明總體時,要進行假設檢驗翩隧;
  • 其分析的是直接關系樊展,不是間接關系;

下圖給出了當Pearson相關系數(shù)為不同值時X和Y的散點圖(以下三張圖片均來自于Wikipedia):

不同相關系數(shù)散點圖

2.1.2 Spearman相關系數(shù)

Spearman相關系數(shù)實際上就是將變量X和Y替換成其對應等級x, y的Pearson相關系數(shù):
\rho = \frac{\sum_{i=1} (x_i - \overline{x}) (y_i - \overline{y})}{\sqrt{\sum_{i}(x_i - \overline{x})^2} \sqrt{\sum_{i}(y_i - \overline{y})^2}}相較于Pearson相關系數(shù)堆生,Spearman相關系數(shù)更能描述兩個變量之間的單調(diào)性的相關性专缠,對于樣本中的顯著離群點更為不敏感。比如淑仆,下圖中變量X和Y的Pearson相關系數(shù)涝婉、Spear-man相關系數(shù)分別為0.88與1,顯然Spearman相關系數(shù)更好地刻畫了兩個變量增長趨勢的相關性蔗怠。

下圖更好地表現(xiàn)出了Spearman相關系數(shù)的抗噪音性:

2.1.3 Kendall相關系數(shù)

Kendall相關系數(shù)是另一種等級相關統(tǒng)計量墩弯,其主要思想是根據(jù)兩個變量序?qū)Φ囊恢滦?(concordance)來判斷相關性的。一致性序?qū)?(concordant pair)定義如下:如果變量對(X_i, Y_i)寞射、(X_j, Y_j)i \neq j 滿足當X_i < X_jY_i < Y_j渔工,或者當X_i > X_jY_i > Y_j。反之桥温,則為非一致性序?qū)Α?/p>

Kendall相關系數(shù)的定義如下:
\tau = \frac{P - Q}{n(n-1)/2}其中引矩,P為一致性序?qū)Φ膫€數(shù),Q為非一致性序?qū)€數(shù)侵浸,則P+Q=n(n?1/2)旺韭,因此上式可改寫為:\tau = \frac{4P}{n(n-1)/2} -1, 顯然τ的取值范圍為[-1, 1] 掏觉。

2.2 線性相關的假設檢驗

基本步驟:

  1. 提出原假設與備擇假設 茂翔,H_0:\rho=0,H_1:\rho\neq0
  2. 給定顯著性水平 \alpha
  3. 選擇檢驗方法履腋,構建檢驗統(tǒng)計量
  4. 將檢驗統(tǒng)計量與臨界值比較珊燎,如檢驗統(tǒng)計量的絕對值大于臨界值惭嚣,則拒絕原假設,否則悔政,就不拒絕原假設晚吞。

檢驗方法:

  • t 檢驗法:
    t=\frac{r}{\sqrt{\frac{1-r^2}{n-2}}}- r 檢驗法:
    用已經(jīng)算好的 r 作為檢驗統(tǒng)計量,其臨界值可以在附表中找到谋国。
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末槽地,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子芦瘾,更是在濱河造成了極大的恐慌捌蚊,老刑警劉巖近弟,帶你破解...
    沈念sama閱讀 210,978評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件缅糟,死亡現(xiàn)場離奇詭異,居然都是意外死亡祷愉,警方通過查閱死者的電腦和手機窗宦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 89,954評論 2 384
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來二鳄,“玉大人赴涵,你說我怎么就攤上這事《┧希” “怎么了髓窜?”我有些...
    開封第一講書人閱讀 156,623評論 0 345
  • 文/不壞的土叔 我叫張陵,是天一觀的道長欺殿。 經(jīng)常有香客問我寄纵,道長,這世上最難降的妖魔是什么祈餐? 我笑而不...
    開封第一講書人閱讀 56,324評論 1 282
  • 正文 為了忘掉前任擂啥,我火速辦了婚禮哄陶,結果婚禮上帆阳,老公的妹妹穿的比我還像新娘。我一直安慰自己屋吨,他們只是感情好蜒谤,可當我...
    茶點故事閱讀 65,390評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著至扰,像睡著了一般鳍徽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上敢课,一...
    開封第一講書人閱讀 49,741評論 1 289
  • 那天阶祭,我揣著相機與錄音绷杜,去河邊找鬼。 笑死濒募,一個胖子當著我的面吹牛鞭盟,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播瑰剃,決...
    沈念sama閱讀 38,892評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼齿诉,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了晌姚?” 一聲冷哼從身側(cè)響起粤剧,我...
    開封第一講書人閱讀 37,655評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎挥唠,沒想到半個月后抵恋,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,104評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡猛遍,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,451評論 2 325
  • 正文 我和宋清朗相戀三年馋记,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片懊烤。...
    茶點故事閱讀 38,569評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡梯醒,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出腌紧,到底是詐尸還是另有隱情茸习,我是刑警寧澤,帶...
    沈念sama閱讀 34,254評論 4 328
  • 正文 年R本政府宣布壁肋,位于F島的核電站号胚,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏浸遗。R本人自食惡果不足惜猫胁,卻給世界環(huán)境...
    茶點故事閱讀 39,834評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望跛锌。 院中可真熱鬧弃秆,春花似錦、人聲如沸髓帽。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,725評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽郑藏。三九已至衡查,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間必盖,已是汗流浹背拌牲。 一陣腳步聲響...
    開封第一講書人閱讀 31,950評論 1 264
  • 我被黑心中介騙來泰國打工俱饿, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人塌忽。 一個月前我還...
    沈念sama閱讀 46,260評論 2 360
  • 正文 我出身青樓稍途,卻偏偏與公主長得像,于是被迫代替她去往敵國和親砚婆。 傳聞我的和親對象是個殘疾皇子械拍,可洞房花燭夜當晚...
    茶點故事閱讀 43,446評論 2 348

推薦閱讀更多精彩內(nèi)容

  • 基本概念 現(xiàn)實中,事物之間的聯(lián)系是錯綜復雜的装盯,而事物之間的關系可以看作兩類:一類是函數(shù)關系坷虑,一類是相關關系。函數(shù)關...
    辛辛辛烷閱讀 5,767評論 0 15
  • 上周SPSSAU做了一個小調(diào)查埂奈,結果讓我們十分意外迄损。得到最多的反饋是大家對于常見分析方法,不知道如何選擇账磺,如何分析...
    spssau閱讀 910評論 0 5
  • 在很多研究中芹敌,研究者都把數(shù)據(jù)的相關性放在一個非常重要的位置上。甚至專門寫上一整篇的文章闡述其研究變量之間的相關關系...
    spssau閱讀 851評論 0 0
  • 相關分析 是研究現(xiàn)象之間是否存在某種依存關系垮抗,并對具體有依存關系的現(xiàn)象探討其相關方向以及相關程度氏捞,是研究隨機變量之...
    ICY小姐閱讀 1,354評論 0 0
  • 多個子vc公有一個navgationController,一個tabbarController 1.自定義個nav...
    fly大夢想家閱讀 638評論 0 0