1.三類關(guān)系趨勢
如下嘴高,在測量5個(gè)肝細(xì)胞gene x 轉(zhuǎn)錄本表達(dá)情況的基礎(chǔ)上,同時(shí)也測量這5個(gè)肝細(xì)胞gene y轉(zhuǎn)錄本表達(dá)量和屎。對來自同一細(xì)胞(sample)的兩個(gè)數(shù)據(jù)進(jìn)行配對,利用其在X軸(green)和Y軸(red)上的數(shù)據(jù)在二維平面組成一個(gè)新的點(diǎn)(藍(lán)色的點(diǎn))并用直線對其進(jìn)行擬合春瞬。
1)如果斜率為正柴信,gene x與gene y在細(xì)胞中表達(dá)成正相關(guān)。gene x表達(dá)水平隨gene Y表達(dá)水平的增加而增加宽气。利用擬合的直線随常,可以根據(jù)gene x的表達(dá)量預(yù)測gene y表達(dá)水平,也可以基于gene y的表達(dá)量預(yù)測gene x的表達(dá)水平萄涯。
2)如果斜率為負(fù)绪氛,Gene x與gene y的表達(dá)呈現(xiàn)負(fù)相關(guān)趨勢。較低的gene x表達(dá)水平對應(yīng)較高的gene y表達(dá)水平涝影,較高的gene x水平對應(yīng)較低的gene y表達(dá)水平枣察。
3)如果斜率為0或者斜率不存在,gene x與gene y的表達(dá)水平之間無關(guān)聯(lián)燃逻。表現(xiàn)為gene y/x的表達(dá)水平不隨gene x/y的表達(dá)量變化而變化序目。
小結(jié):協(xié)方差的主要思想之一,其可以將數(shù)據(jù)分為三類關(guān)系:正向趨勢的關(guān)系伯襟;負(fù)向趨勢的關(guān)系猿涨;無任何趨勢的關(guān)系。
2. 引入?yún)f(xié)方差來描述三類關(guān)系趨勢
協(xié)方差的計(jì)算公式:「當(dāng)協(xié)方差為正時(shí)姆怪,gene x與gene y兩變量間表現(xiàn)為正相關(guān)性叛赚。」 依次將數(shù)據(jù)代入公式稽揭,可以發(fā)現(xiàn):兩個(gè)黃色象限(一俺附、三象限)的樣本都對整體協(xié)方差做成正的貢獻(xiàn)。協(xié)方差為116淀衣,它意味著gene x與gene y之間的擬合相關(guān)直線斜率是正值昙读。因此,可以得出這樣的結(jié)論:當(dāng)協(xié)方差為正時(shí)膨桥,gene x與gene y之間呈正的變化趨勢蛮浑。
「當(dāng)協(xié)方差為負(fù)唠叛,gene x與gene y兩變量間表現(xiàn)為負(fù)相關(guān)性【谥桑」 假設(shè)gene y的值與以前不同艺沼,gene y的樣本均值變?yōu)?0.2。Gene x的值保持不變蕴掏,gene x的均值為17.6障般。我們使用協(xié)方差的計(jì)算公式計(jì)算gene x與gene y的協(xié)方差,在黃色象限的數(shù)據(jù)對整體協(xié)方差做出負(fù)的貢獻(xiàn)盛杰,最后協(xié)方差等于-105.15挽荡。因此可以得出結(jié)論:當(dāng)協(xié)方差為負(fù)時(shí),gene x與gene y兩變量間的相關(guān)性直線的斜率為負(fù)即供。
「將協(xié)方差為0時(shí)定拟,gene x與gene y兩變量間表現(xiàn)為無相關(guān)性《旱眨」 同樣的計(jì)算方法青自,我們可以推算出,當(dāng)gene x與gene y表達(dá)水平無關(guān)系時(shí)驱证,協(xié)方差等于0延窜。因此可以得出結(jié)論:當(dāng)協(xié)方差為0時(shí),gene x與gene y兩變量間無相關(guān)關(guān)系抹锄。
注意D嫒稹!祈远!協(xié)方差本身并不容易被闡釋呆万,它不能告訴我們相關(guān)性直線的斜率(陡峭或平坦),也不能告訴我們樣本是否靠近相關(guān)性直線车份,它僅僅告訴我們兩變量之間的相關(guān)性直線的斜率是正還是負(fù)谋减。
3.協(xié)方差缺點(diǎn):對數(shù)據(jù)的scale敏感
「協(xié)方差對數(shù)據(jù)的scale敏感,使其不能揭示數(shù)據(jù)間的相關(guān)性程度扫沼〕龅」
又例如:左邊的數(shù)據(jù)較右邊的數(shù)據(jù)更接近相關(guān)性直線铸董,左邊數(shù)據(jù)對應(yīng)的協(xié)方差為102祟印;右邊數(shù)據(jù)對應(yīng)的協(xié)方差為381,遠(yuǎn)大于左側(cè)數(shù)據(jù)的協(xié)方差粟害。將右側(cè)數(shù)據(jù)同時(shí)縮小4倍后蕴忆,數(shù)據(jù)距離相關(guān)性直線的距離未發(fā)生改變,但對應(yīng)的協(xié)方差變?yōu)?4悲幅,小于原來的協(xié)方差套鹅,也小于左側(cè)數(shù)據(jù)的協(xié)方差。
4.小結(jié):
協(xié)方差值并不能告訴我們關(guān)系強(qiáng)弱汰具,只能告訴我們是正/負(fù)相關(guān)卓鹿。
協(xié)方差值的具體大小沒有意義
協(xié)方差值對數(shù)據(jù)的波動(dòng)(方差)較為敏感
5.協(xié)方差的替代指標(biāo):pearson相關(guān)系數(shù)
當(dāng)數(shù)據(jù)波動(dòng)變大后,數(shù)據(jù)的協(xié)方差也會(huì)變大留荔,但是我們想用一個(gè)不會(huì)受數(shù)據(jù)波動(dòng)影響的系數(shù)來反映數(shù)據(jù)之間的相關(guān)性减牺。那么最簡單的辦法就是把這個(gè)波動(dòng)給去除掉就好,我們可以通過除以數(shù)據(jù)的SD(波動(dòng)程度值)來去除存谎,這樣就得到了我們的pearson相關(guān)系數(shù)的計(jì)算公式:
為什么要除以SD:假設(shè)有一組數(shù)據(jù)
X1:1,2,3,4,5
Y1:1,2,3,4,5
根據(jù)協(xié)方差公式,可以計(jì)算出兩個(gè)變量的協(xié)方差為2肥隆,SD分別為√2既荚,√2
根據(jù)pearson相關(guān)系數(shù)的計(jì)算公式:相關(guān)系數(shù)為1
現(xiàn)在將X1,Y1同時(shí)擴(kuò)大2倍
X1:2,4栋艳,6恰聘,8,10
Y1:2吸占,4晴叨,6,8矾屯,10
根據(jù)協(xié)方差公式兼蕊,可以計(jì)算出兩個(gè)變量的協(xié)方差為8,SD分別為2√2件蚕,2√2
根據(jù)pearson相關(guān)系數(shù)的計(jì)算公式:相關(guān)系數(shù)為1
可以看出孙技,當(dāng)數(shù)據(jù)擴(kuò)大2倍的是時(shí)候,協(xié)方差與標(biāo)準(zhǔn)差都發(fā)生了變化排作,但相關(guān)系數(shù)并沒有發(fā)生改變牵啦。
6.相關(guān)系數(shù)的特性
同時(shí)測量5個(gè)細(xì)胞中g(shù)ene x與gene y的轉(zhuǎn)錄水平,將其繪制如下妄痪。將配對的數(shù)據(jù)用藍(lán)色的小圓點(diǎn)表示哈雏,并使用直線展示gene x與gene y表達(dá)水平之間的相關(guān)趨勢。基于該趨勢裳瘪,可以用gene x預(yù)測gene y的可能取值范圍土浸,也可用gene y預(yù)測gene x的可能取值范圍。「(左圖)強(qiáng)相關(guān)」:如果基于gene x的表達(dá)量能夠無偏差地預(yù)測gene y的表達(dá)量盹愚,說明二者之間有很強(qiáng)的聯(lián)系栅迄;
「(右圖)弱相關(guān)」:如果基于gene x的表達(dá)量不能較準(zhǔn)確地預(yù)測gene y的表達(dá)量,說明二者之間僅有較弱的聯(lián)系皆怕。
以上涉及的是直線相關(guān)毅舆,相關(guān)系數(shù)的取值為【-1,1】:
散點(diǎn)完全在同一條直線上,預(yù)測的準(zhǔn)確性最高愈腾,相關(guān)系數(shù)的正負(fù)號(hào)表示相關(guān)性的正負(fù)憋活。若x與y是同向變化,相關(guān)系數(shù)等于1虱黄,為完全正相關(guān)悦即;若x與y是反向變化,相關(guān)系數(shù)等于-1橱乱,為完全負(fù)相關(guān)辜梳。
散點(diǎn)不完全在同一直線上,沿直線分布越集中泳叠,相關(guān)系數(shù)越接近1作瞄,預(yù)測準(zhǔn)確性逐漸增加。相反危纫,沿直線分布越分散宗挥,相關(guān)系數(shù)越接近0,預(yù)測的準(zhǔn)確性逐漸減弱种蝶。
小結(jié)
1.r 的取值范圍在 [0,1]
|r|>=0.8:高度相關(guān)
0.5<=|r|<0.8:中度相關(guān)
0.3<=|r|<0.5:低度相關(guān)
|r|<0.3:不相關(guān)
2.r 具有對稱性会傲,x與y的相關(guān)性系數(shù)和y與x的相關(guān)性系數(shù)相等
3.r 的數(shù)值與x和y的原點(diǎn)及尺度無關(guān)
4.r 僅僅表示線性關(guān)系的度量锅棕,不能用于非線性關(guān)系。例如淌山,當(dāng)r=0時(shí)只能表示兩個(gè)變量之間沒有線性相關(guān)關(guān)系裸燎,但是它們之間可能存著非線性相關(guān)關(guān)系
注意點(diǎn):
皮爾森相關(guān)性系數(shù)對數(shù)據(jù)是有比較高的要求的:
第一, 實(shí)驗(yàn)數(shù)據(jù)通常假設(shè)是成對的來自于正態(tài)分布的總體泼疑。為啥通常會(huì)假設(shè)為正態(tài)分布呢德绿?因?yàn)槲覀冊谇笃柹嚓P(guān)性系數(shù)以后,通常還會(huì)用t檢驗(yàn)之類的方法來進(jìn)行皮爾森相關(guān)性系數(shù)檢驗(yàn),而 t檢驗(yàn)是基于數(shù)據(jù)呈正態(tài)分布的假設(shè)的移稳。
第二蕴纳, 實(shí)驗(yàn)數(shù)據(jù)之間的差距不能太大,或者說皮爾森相關(guān)性系數(shù)受異常值的影響比較大个粱。比如剛才心跳與跑步的例子古毛,萬一這個(gè)人的心臟不太好,跑到一定速度后承受不了都许,突發(fā)心臟病稻薇,那這時(shí)候我們會(huì)測到一個(gè)偏離正常值的心跳(過快或者過慢,甚至為0)胶征,如果我們把這個(gè)值也放進(jìn)去進(jìn)行相關(guān)性分析塞椎,它的存在會(huì)大大干擾計(jì)算的結(jié)果的。
第三睛低,兩個(gè)變量之間是線性關(guān)系案狠,都是連續(xù)數(shù)據(jù)。
7.協(xié)方差與相關(guān)系數(shù)的關(guān)系
「相同點(diǎn)」:二者符號(hào)的正負(fù)代表兩變量變化趨勢是同向還是反向钱雷;
「差異點(diǎn)」:相關(guān)系數(shù)的取值與數(shù)據(jù)的scale無關(guān)骂铁,不論數(shù)據(jù)的多少,只要數(shù)據(jù)完全在同一條直線上(陡峭或者平緩)罩抗,相關(guān)系數(shù)就為1或者-1从铲;而協(xié)方差取值對數(shù)據(jù)的scale敏感。這個(gè)原因使得協(xié)方差本身的意義難以闡釋澄暮。皮爾森相關(guān)性系數(shù)是協(xié)方差與標(biāo)準(zhǔn)差的比值。
使用R語言對相關(guān)系數(shù)的計(jì)算
假設(shè)我們有一組數(shù)據(jù)阱扬,每一列代表一個(gè)樣本泣懊,每一行代表一個(gè)基因在不同樣本中的表達(dá)量
> head(a,3)#查看數(shù)據(jù)
X1_untreated X2_untreated X3_untreated X4_untreated X1_Dex
ENSG00000223972 -2.089725 -2.090478 -2.090475 -2.089265 -2.079351
ENSG00000227232 6.760110 6.892673 6.346646 6.739761 6.450597
ENSG00000243485 0.000000 0.000000 0.000000 0.000000 0.000000
X2_Dex X3_Dex X4_Dex
ENSG00000223972 -2.087724 -2.091304 -2.089408
ENSG00000227232 6.749787 6.623112 6.524621
ENSG00000243485 0.000000 0.000000 0.000000
> cor_a = cor(a)使用cor函數(shù)計(jì)算相關(guān)性
> cor_a查看相關(guān)系數(shù)
8.Pearson(皮爾遜)相關(guān)系數(shù)與Spearman Rank(斯皮爾曼等級(jí))相關(guān)系數(shù)區(qū)別
斯皮爾曼相關(guān)性系數(shù),通常也叫斯皮爾曼秩相關(guān)系數(shù)麻惶,這是一種無參數(shù)(與分布無關(guān))檢驗(yàn)方法馍刮,要求數(shù)據(jù)具有同升或同降變化趨勢,但明顯不具有線性相關(guān)關(guān)系窃蹋。
“秩”卡啰,可以理解成就是一種順序或者排序,那么它就是根據(jù)原始數(shù)據(jù)的排序位置進(jìn)行求解警没,這種表征形式就沒有了求皮爾森相關(guān)性系數(shù)時(shí)那些限制匈辱。
也就是說,我們不用管X和Y這兩個(gè)變量具體的值到底差了多少杀迹,只需要算一下它們每個(gè)值所處的排列位置的差值亡脸,就可以求出相關(guān)性系數(shù)了。
另外,即使出現(xiàn)異常值浅碾,由于異常值的秩次通常不會(huì)有明顯的變化(比如過大或者過小大州,那要么排第一,要么排最后)垂谢,所以對斯皮爾曼相關(guān)性系數(shù)的影響也非常邢没!
用“秩”的概念滥朱,一方面可以解決異常值的問題根暑,但是有好就有壞,這在另外一方面焚虱,也說明购裙,這種方法的檢驗(yàn)效力沒有pearson相關(guān)系數(shù)強(qiáng),因?yàn)樗雎粤讼嚓P(guān)性的具體大小鹃栽,而只保留了大小關(guān)系躏率。