協(xié)方差與相關(guān)系數(shù)

1.三類關(guān)系趨勢

如下嘴高,在測量5個(gè)肝細(xì)胞gene x 轉(zhuǎn)錄本表達(dá)情況的基礎(chǔ)上,同時(shí)也測量這5個(gè)肝細(xì)胞gene y轉(zhuǎn)錄本表達(dá)量和屎。對來自同一細(xì)胞(sample)的兩個(gè)數(shù)據(jù)進(jìn)行配對,利用其在X軸(green)和Y軸(red)上的數(shù)據(jù)在二維平面組成一個(gè)新的點(diǎn)(藍(lán)色的點(diǎn))并用直線對其進(jìn)行擬合春瞬。
1)如果斜率為正柴信,gene x與gene y在細(xì)胞中表達(dá)成正相關(guān)。gene x表達(dá)水平隨gene Y表達(dá)水平的增加而增加宽气。利用擬合的直線随常,可以根據(jù)gene x的表達(dá)量預(yù)測gene y表達(dá)水平,也可以基于gene y的表達(dá)量預(yù)測gene x的表達(dá)水平萄涯。


image.png

2)如果斜率為負(fù)绪氛,Gene x與gene y的表達(dá)呈現(xiàn)負(fù)相關(guān)趨勢。較低的gene x表達(dá)水平對應(yīng)較高的gene y表達(dá)水平涝影,較高的gene x水平對應(yīng)較低的gene y表達(dá)水平枣察。


image.png

3)如果斜率為0或者斜率不存在,gene x與gene y的表達(dá)水平之間無關(guān)聯(lián)燃逻。表現(xiàn)為gene y/x的表達(dá)水平不隨gene x/y的表達(dá)量變化而變化序目。
image.png

小結(jié):協(xié)方差的主要思想之一,其可以將數(shù)據(jù)分為三類關(guān)系:正向趨勢的關(guān)系伯襟;負(fù)向趨勢的關(guān)系猿涨;無任何趨勢的關(guān)系。

2. 引入?yún)f(xié)方差來描述三類關(guān)系趨勢

協(xié)方差的計(jì)算公式:
image.png

「當(dāng)協(xié)方差為正時(shí)姆怪,gene x與gene y兩變量間表現(xiàn)為正相關(guān)性叛赚。」 依次將數(shù)據(jù)代入公式稽揭,可以發(fā)現(xiàn):兩個(gè)黃色象限(一俺附、三象限)的樣本都對整體協(xié)方差做成正的貢獻(xiàn)。協(xié)方差為116淀衣,它意味著gene x與gene y之間的擬合相關(guān)直線斜率是正值昙读。因此,可以得出這樣的結(jié)論:當(dāng)協(xié)方差為正時(shí)膨桥,gene x與gene y之間呈正的變化趨勢蛮浑。
image.png

「當(dāng)協(xié)方差為負(fù)唠叛,gene x與gene y兩變量間表現(xiàn)為負(fù)相關(guān)性【谥桑」 假設(shè)gene y的值與以前不同艺沼,gene y的樣本均值變?yōu)?0.2。Gene x的值保持不變蕴掏,gene x的均值為17.6障般。我們使用協(xié)方差的計(jì)算公式計(jì)算gene x與gene y的協(xié)方差,在黃色象限的數(shù)據(jù)對整體協(xié)方差做出負(fù)的貢獻(xiàn)盛杰,最后協(xié)方差等于-105.15挽荡。因此可以得出結(jié)論:當(dāng)協(xié)方差為負(fù)時(shí),gene x與gene y兩變量間的相關(guān)性直線的斜率為負(fù)即供。
image.png

「將協(xié)方差為0時(shí)定拟,gene x與gene y兩變量間表現(xiàn)為無相關(guān)性《旱眨」 同樣的計(jì)算方法青自,我們可以推算出,當(dāng)gene x與gene y表達(dá)水平無關(guān)系時(shí)驱证,協(xié)方差等于0延窜。因此可以得出結(jié)論:當(dāng)協(xié)方差為0時(shí),gene x與gene y兩變量間無相關(guān)關(guān)系抹锄。
image.png

注意D嫒稹!祈远!協(xié)方差本身并不容易被闡釋呆万,它不能告訴我們相關(guān)性直線的斜率(陡峭或平坦),也不能告訴我們樣本是否靠近相關(guān)性直線车份,它僅僅告訴我們兩變量之間的相關(guān)性直線的斜率是正還是負(fù)谋减。

3.協(xié)方差缺點(diǎn):對數(shù)據(jù)的scale敏感

「協(xié)方差對數(shù)據(jù)的scale敏感,使其不能揭示數(shù)據(jù)間的相關(guān)性程度扫沼〕龅」

例如,計(jì)算gene x與gene x的協(xié)方差缎除,帶入公式可得102严就;將gene x的表達(dá)水平擴(kuò)大2倍后,求得gene x與其自身的協(xié)方差為408器罐,是原來數(shù)據(jù)的4倍(如下)梢为。故協(xié)方差對數(shù)據(jù)的scale非常敏感,此造成了協(xié)方差本身的難以闡釋。
image.png

又例如:左邊的數(shù)據(jù)較右邊的數(shù)據(jù)更接近相關(guān)性直線铸董,左邊數(shù)據(jù)對應(yīng)的協(xié)方差為102祟印;右邊數(shù)據(jù)對應(yīng)的協(xié)方差為381,遠(yuǎn)大于左側(cè)數(shù)據(jù)的協(xié)方差粟害。將右側(cè)數(shù)據(jù)同時(shí)縮小4倍后蕴忆,數(shù)據(jù)距離相關(guān)性直線的距離未發(fā)生改變,但對應(yīng)的協(xié)方差變?yōu)?4悲幅,小于原來的協(xié)方差套鹅,也小于左側(cè)數(shù)據(jù)的協(xié)方差。
image.png

4.小結(jié):

協(xié)方差值并不能告訴我們關(guān)系強(qiáng)弱汰具,只能告訴我們是正/負(fù)相關(guān)卓鹿。

協(xié)方差值的具體大小沒有意義

協(xié)方差值對數(shù)據(jù)的波動(dòng)(方差)較為敏感

5.協(xié)方差的替代指標(biāo):pearson相關(guān)系數(shù)

當(dāng)數(shù)據(jù)波動(dòng)變大后,數(shù)據(jù)的協(xié)方差也會(huì)變大留荔,但是我們想用一個(gè)不會(huì)受數(shù)據(jù)波動(dòng)影響的系數(shù)來反映數(shù)據(jù)之間的相關(guān)性减牺。那么最簡單的辦法就是把這個(gè)波動(dòng)給去除掉就好,我們可以通過除以數(shù)據(jù)的SD(波動(dòng)程度值)來去除存谎,這樣就得到了我們的pearson相關(guān)系數(shù)的計(jì)算公式:


image.png

為什么要除以SD:假設(shè)有一組數(shù)據(jù)
X1:1,2,3,4,5
Y1:1,2,3,4,5
根據(jù)協(xié)方差公式,可以計(jì)算出兩個(gè)變量的協(xié)方差為2肥隆,SD分別為√2既荚,√2
根據(jù)pearson相關(guān)系數(shù)的計(jì)算公式:相關(guān)系數(shù)為1
現(xiàn)在將X1,Y1同時(shí)擴(kuò)大2倍
X1:2,4栋艳,6恰聘,8,10
Y1:2吸占,4晴叨,6,8矾屯,10
根據(jù)協(xié)方差公式兼蕊,可以計(jì)算出兩個(gè)變量的協(xié)方差為8,SD分別為2√2件蚕,2√2
根據(jù)pearson相關(guān)系數(shù)的計(jì)算公式:相關(guān)系數(shù)為1
可以看出孙技,當(dāng)數(shù)據(jù)擴(kuò)大2倍的是時(shí)候,協(xié)方差與標(biāo)準(zhǔn)差都發(fā)生了變化排作,但相關(guān)系數(shù)并沒有發(fā)生改變牵啦。

6.相關(guān)系數(shù)的特性

同時(shí)測量5個(gè)細(xì)胞中g(shù)ene x與gene y的轉(zhuǎn)錄水平,將其繪制如下妄痪。將配對的數(shù)據(jù)用藍(lán)色的小圓點(diǎn)表示哈雏,并使用直線展示gene x與gene y表達(dá)水平之間的相關(guān)趨勢。基于該趨勢裳瘪,可以用gene x預(yù)測gene y的可能取值范圍土浸,也可用gene y預(yù)測gene x的可能取值范圍。
image.png

「(左圖)強(qiáng)相關(guān)」:如果基于gene x的表達(dá)量能夠無偏差地預(yù)測gene y的表達(dá)量盹愚,說明二者之間有很強(qiáng)的聯(lián)系栅迄;

「(右圖)弱相關(guān)」:如果基于gene x的表達(dá)量不能較準(zhǔn)確地預(yù)測gene y的表達(dá)量,說明二者之間僅有較弱的聯(lián)系皆怕。
以上涉及的是直線相關(guān)毅舆,相關(guān)系數(shù)的取值為【-1,1】:
散點(diǎn)完全在同一條直線上,預(yù)測的準(zhǔn)確性最高愈腾,相關(guān)系數(shù)的正負(fù)號(hào)表示相關(guān)性的正負(fù)憋活。若x與y是同向變化,相關(guān)系數(shù)等于1虱黄,為完全正相關(guān)悦即;若x與y是反向變化,相關(guān)系數(shù)等于-1橱乱,為完全負(fù)相關(guān)辜梳。
散點(diǎn)不完全在同一直線上,沿直線分布越集中泳叠,相關(guān)系數(shù)越接近1作瞄,預(yù)測準(zhǔn)確性逐漸增加。相反危纫,沿直線分布越分散宗挥,相關(guān)系數(shù)越接近0,預(yù)測的準(zhǔn)確性逐漸減弱种蝶。

散點(diǎn)無相關(guān)性時(shí)契耿,即x與y不相關(guān)時(shí),相關(guān)系數(shù)為0螃征,不能基于x預(yù)測y搪桂,也不能基于y預(yù)測x。
image.png
小結(jié)

1.r 的取值范圍在 [0,1]
|r|>=0.8:高度相關(guān)

0.5<=|r|<0.8:中度相關(guān)

0.3<=|r|<0.5:低度相關(guān)

|r|<0.3:不相關(guān)
2.r 具有對稱性会傲,x與y的相關(guān)性系數(shù)和y與x的相關(guān)性系數(shù)相等
3.r 的數(shù)值與x和y的原點(diǎn)及尺度無關(guān)
4.r 僅僅表示線性關(guān)系的度量锅棕,不能用于非線性關(guān)系。例如淌山,當(dāng)r=0時(shí)只能表示兩個(gè)變量之間沒有線性相關(guān)關(guān)系裸燎,但是它們之間可能存著非線性相關(guān)關(guān)系

注意點(diǎn):

皮爾森相關(guān)性系數(shù)對數(shù)據(jù)是有比較高的要求的:
第一, 實(shí)驗(yàn)數(shù)據(jù)通常假設(shè)是成對的來自于正態(tài)分布的總體泼疑。為啥通常會(huì)假設(shè)為正態(tài)分布呢德绿?因?yàn)槲覀冊谇笃柹嚓P(guān)性系數(shù)以后,通常還會(huì)用t檢驗(yàn)之類的方法來進(jìn)行皮爾森相關(guān)性系數(shù)檢驗(yàn),而 t檢驗(yàn)是基于數(shù)據(jù)呈正態(tài)分布的假設(shè)的移稳。

第二蕴纳, 實(shí)驗(yàn)數(shù)據(jù)之間的差距不能太大,或者說皮爾森相關(guān)性系數(shù)受異常值的影響比較大个粱。比如剛才心跳與跑步的例子古毛,萬一這個(gè)人的心臟不太好,跑到一定速度后承受不了都许,突發(fā)心臟病稻薇,那這時(shí)候我們會(huì)測到一個(gè)偏離正常值的心跳(過快或者過慢,甚至為0)胶征,如果我們把這個(gè)值也放進(jìn)去進(jìn)行相關(guān)性分析塞椎,它的存在會(huì)大大干擾計(jì)算的結(jié)果的。
第三睛低,兩個(gè)變量之間是線性關(guān)系案狠,都是連續(xù)數(shù)據(jù)。

7.協(xié)方差與相關(guān)系數(shù)的關(guān)系

「相同點(diǎn)」:二者符號(hào)的正負(fù)代表兩變量變化趨勢是同向還是反向钱雷;
「差異點(diǎn)」:相關(guān)系數(shù)的取值與數(shù)據(jù)的scale無關(guān)骂铁,不論數(shù)據(jù)的多少,只要數(shù)據(jù)完全在同一條直線上(陡峭或者平緩)罩抗,相關(guān)系數(shù)就為1或者-1从铲;而協(xié)方差取值對數(shù)據(jù)的scale敏感。這個(gè)原因使得協(xié)方差本身的意義難以闡釋澄暮。皮爾森相關(guān)性系數(shù)是協(xié)方差與標(biāo)準(zhǔn)差的比值。

使用R語言對相關(guān)系數(shù)的計(jì)算

假設(shè)我們有一組數(shù)據(jù)阱扬,每一列代表一個(gè)樣本泣懊,每一行代表一個(gè)基因在不同樣本中的表達(dá)量

> head(a,3)#查看數(shù)據(jù)
                X1_untreated X2_untreated X3_untreated X4_untreated    X1_Dex
ENSG00000223972    -2.089725    -2.090478    -2.090475    -2.089265 -2.079351
ENSG00000227232     6.760110     6.892673     6.346646     6.739761  6.450597
ENSG00000243485     0.000000     0.000000     0.000000     0.000000  0.000000
                   X2_Dex    X3_Dex    X4_Dex
ENSG00000223972 -2.087724 -2.091304 -2.089408
ENSG00000227232  6.749787  6.623112  6.524621
ENSG00000243485  0.000000  0.000000  0.000000
> cor_a = cor(a)使用cor函數(shù)計(jì)算相關(guān)性
> cor_a查看相關(guān)系數(shù)

8.Pearson(皮爾遜)相關(guān)系數(shù)與Spearman Rank(斯皮爾曼等級(jí))相關(guān)系數(shù)區(qū)別

斯皮爾曼相關(guān)性系數(shù),通常也叫斯皮爾曼秩相關(guān)系數(shù)麻惶,這是一種無參數(shù)(與分布無關(guān))檢驗(yàn)方法馍刮,要求數(shù)據(jù)具有同升或同降變化趨勢,但明顯不具有線性相關(guān)關(guān)系窃蹋。

“秩”卡啰,可以理解成就是一種順序或者排序,那么它就是根據(jù)原始數(shù)據(jù)的排序位置進(jìn)行求解警没,這種表征形式就沒有了求皮爾森相關(guān)性系數(shù)時(shí)那些限制匈辱。

也就是說,我們不用管X和Y這兩個(gè)變量具體的值到底差了多少杀迹,只需要算一下它們每個(gè)值所處的排列位置的差值亡脸,就可以求出相關(guān)性系數(shù)了。

另外,即使出現(xiàn)異常值浅碾,由于異常值的秩次通常不會(huì)有明顯的變化(比如過大或者過小大州,那要么排第一,要么排最后)垂谢,所以對斯皮爾曼相關(guān)性系數(shù)的影響也非常邢没!

用“秩”的概念滥朱,一方面可以解決異常值的問題根暑,但是有好就有壞,這在另外一方面焚虱,也說明购裙,這種方法的檢驗(yàn)效力沒有pearson相關(guān)系數(shù)強(qiáng),因?yàn)樗雎粤讼嚓P(guān)性的具體大小鹃栽,而只保留了大小關(guān)系躏率。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市民鼓,隨后出現(xiàn)的幾起案子薇芝,更是在濱河造成了極大的恐慌,老刑警劉巖丰嘉,帶你破解...
    沈念sama閱讀 221,888評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件夯到,死亡現(xiàn)場離奇詭異,居然都是意外死亡饮亏,警方通過查閱死者的電腦和手機(jī)耍贾,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來路幸,“玉大人荐开,你說我怎么就攤上這事〖螂龋” “怎么了晃听?”我有些...
    開封第一講書人閱讀 168,386評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長砰识。 經(jīng)常有香客問我能扒,道長,這世上最難降的妖魔是什么辫狼? 我笑而不...
    開封第一講書人閱讀 59,726評(píng)論 1 297
  • 正文 為了忘掉前任初斑,我火速辦了婚禮,結(jié)果婚禮上膨处,老公的妹妹穿的比我還像新娘越平。我一直安慰自己频蛔,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評(píng)論 6 397
  • 文/花漫 我一把揭開白布秦叛。 她就那樣靜靜地躺著晦溪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪挣跋。 梳的紋絲不亂的頭發(fā)上三圆,一...
    開封第一講書人閱讀 52,337評(píng)論 1 310
  • 那天,我揣著相機(jī)與錄音避咆,去河邊找鬼舟肉。 笑死,一個(gè)胖子當(dāng)著我的面吹牛查库,可吹牛的內(nèi)容都是我干的路媚。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼樊销,長吁一口氣:“原來是場噩夢啊……” “哼整慎!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起围苫,我...
    開封第一講書人閱讀 39,807評(píng)論 0 276
  • 序言:老撾萬榮一對情侶失蹤裤园,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后剂府,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體拧揽,經(jīng)...
    沈念sama閱讀 46,349評(píng)論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評(píng)論 3 340
  • 正文 我和宋清朗相戀三年腺占,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了淤袜。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,567評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡衰伯,死狀恐怖饮怯,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情嚎研,我是刑警寧澤,帶...
    沈念sama閱讀 36,242評(píng)論 5 350
  • 正文 年R本政府宣布库倘,位于F島的核電站临扮,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏教翩。R本人自食惡果不足惜杆勇,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評(píng)論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望饱亿。 院中可真熱鬧蚜退,春花似錦闰靴、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至幅恋,卻和暖如春杏死,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背捆交。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評(píng)論 1 272
  • 我被黑心中介騙來泰國打工淑翼, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人品追。 一個(gè)月前我還...
    沈念sama閱讀 48,995評(píng)論 3 377
  • 正文 我出身青樓玄括,卻偏偏與公主長得像,于是被迫代替她去往敵國和親肉瓦。 傳聞我的和親對象是個(gè)殘疾皇子遭京,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容