MDS and PCoA
多維縮放(Multi-Dimensional Scaling)分為:
-
經(jīng)典的(classical)或者標(biāo)準(zhǔn)的(metric)
- 也被稱為:Principal Coordinate Analysis(主坐標(biāo)分析 PCoA)
非度量(Non-Metric)
我們有一群cell凰荚,做RNA-seq。當(dāng)我們進(jìn)行PCA時(shí)褒脯,我們將樣本之間的相關(guān)性(或缺乏相關(guān)性)轉(zhuǎn)換為二維圖便瑟。高度相關(guān)的cell聚集成類。
多維縮放(MDS)和主坐標(biāo)分析(PCoA)與主成分分析(PCA)非常相似番川,不同的是到涂,它們不是將相關(guān)性轉(zhuǎn)換為二維圖,而是將樣本之間的距離轉(zhuǎn)換為二維圖颁督。為了計(jì)算MDS或PCoA践啄,我們必須計(jì)算cell1和cell2、cell3沉御、cell4之間的距離屿讽,cell2和、cell3吠裆、4之間的距離.....
現(xiàn)在伐谈,讓我們假設(shè)我們只需要計(jì)算cell1和cell2之間的距離,計(jì)算兩個(gè)物體之間距離的一種常見方法是計(jì)算歐幾里得距離(Euclidian distance)试疙。
如果我們只有兩個(gè)基因诵棵,我們可以計(jì)算cell1和cell2之間的距離通過公式:
有了更多的基因,我們只是把更多基因之間的差異的平方加起來
一旦我們計(jì)算出每一對(duì)細(xì)胞之間的距離效斑,MDS和PCoA就會(huì)把它們縮小成二維圖非春。壞消息是,如果我們使用歐幾里得距離(Euclidian distance)缓屠,得到圖會(huì)和PCA圖相同奇昙。換句話說,基于最小化線性距離的聚類和最大化線性相關(guān)性的聚類是一樣的敌完。
好消息是還有很多其他的方法來測(cè)量距離储耐,例如,另一種測(cè)量細(xì)胞間距離的方法是計(jì)算各基因間log倍數(shù)變化絕對(duì)值的平均值滨溉。首先計(jì)算cell1和cell2基因的log倍數(shù)變化什湘,然后計(jì)算所有l(wèi)og倍數(shù)變化的絕對(duì)值长赞,最后求平均值。
最終闽撤,我們將得到看起來不同的圖形
生物學(xué)家可能會(huì)選擇用log Fold Change來計(jì)算距離得哆,因?yàn)樗麄兘?jīng)常對(duì)基因間的log Fold Change感興趣。但是有很多距離可供選擇哟旗,Manhattan Distance 贩据、Hamming Distance、Great Circle Distance etc.etc.etc.闸餐。選擇“最佳”距離是數(shù)據(jù)“科學(xué)”的“藝術(shù)”的一部分饱亮。