前言
在以往常規(guī)轉錄組測序中佛呻,由于實驗生物學重復,同組內測序得到的數據是接近的诫肠,通過簡單的線性降維PCA主成分分析法漱受,即可得到想要的可視化結果(組內樣本聚集虐先,組間樣本分離)。
此時泣刹,我們想要的實驗結果就是組內有極高的相似性掀泳,與其說是聚類固灵,不如說其實只是通過降維圖將本來就“應該在一起”的數據可視化,以此來判斷是否有離群樣本需要剔除,是否組間有差異可進行后續(xù)差異分析菜拓。而這就讓人產生了一個誤解劝贸,聚類就是基于降維圖把“在一起”的點聚為一類。但是,實際上聚類和降維是兩個獨立的過程。
所謂物以類聚您单,人以群分蜈彼,聚類是把相近的樣本歸到一起,屬于無監(jiān)督學習;降維(PCA,UMAP,TSNE)晌块,則是減少特征數量,只保留解釋性強的部分特征,也屬于無監(jiān)督學習;嚴格來說歉嗓,二者是沒有聯(lián)系的,但是當我們在對高維數據進行聚類時會碰到兩個問題:
1、高位數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零载慈;
2、高維空間中數據較低維空間中數據分布要稀疏课幕,其中數據間距離幾乎相等是普遍現(xiàn)象匙监。
解決這兩個問題的方法之一就是在對高維數據進行聚類前,先嘗試降維,但話又說回來了辐宾,對于高維數據而言,在使用任何機器學習算法之前都可以先降維(并不推薦)進行預處理综液,這樣的好處是可以減輕在樣本聚類的過程計算樣本和中心點距離井誉,將數據從高維處理成低維. 而聚類通常是通個一定的距離度量方式如歐式距離蛮寂,馬式距離,編輯距離等將樣本按照設定類別進行聚合操作.
1 降維----摘樹葉
在單細胞轉錄組測序中年缎,一個項目可以得到上萬個細胞樣本馋缅,基因數量通常也是幾萬個,這樣高緯度的數據集不適合人直接進行閱讀和解析細胞之間的功能差異皆的。因此我們要通過一定方式完成數據的降維和聚類伟众,讓數據特征更明顯 账胧,數據點更少泡孩。
細胞的降維與聚類就好比是“摘葉子”意狠,而整份單細胞轉錄組的數據則好比是一株巨大的樹澎灸。這棵樹很高很大榴徐,看著很累朋譬,所以我們需要降維來讓樹更容易觀測盐茎;這棵樹的葉子(細胞)很多,所以我們需要聚類來將葉子進行分類徙赢。這樣字柠,我們就可以通過相對簡單的方式來閱讀這一份數據了探越。
1.1 什么是降維?為何我們需要降維窑业?
降維就是復雜的高維數據信息簡化為更容易閱讀的低維數據信息钦幔,就像素描把三維的立體圖形繪制在二維的平面上,而我們可以通過繪制而成的二維平面來了解到三維物體本身是什么常柄,卻不用我們到作者的繪畫現(xiàn)場去看畫的東西到底是什么樣鲤氢。我們需要通過對單細胞轉錄組數據降維,來獲得更容易閱讀的低維數據信息西潘。
這里用三種摘葉子的方法來對應說明三種常見的可視化降維方法卷玉。
1.2 搖樹(PCA)
讓樹葉以近乎垂直的方式掉落在地面(低緯度)。這種方法雖然“簡單粗暴”喷市,但可以使所有葉子快速地落在地面上相种。雖然會一定程度上丟失樹葉生長高度的信息,但能夠還原大部分真實的生長位置信息品姓。
這種方法其實就與線性降維PCA的原理相似寝并,將高維特征收斂到低維上。而低維的各個維度(正交特征)也被稱為主成分PC腹备,是在原有高維特征的基礎上重新構造出來的低維特征衬潦。
1.3 搭梯子摘(tSNE)
以一個隨機的位置作為起始點,架個梯子爬上去摘馏谨,每次摘一部分就得爬到樹下放葉子别渔,然后再爬上梯子繼續(xù)摘,那整個過程就會變得十分漫長惧互,耗時耗力,但優(yōu)點是能有效地還原一部分樹生長高度的位置信息喇伯,并能將生長在一起的葉子放在同一摞喊儡。
這種方法與之對應的降維法便是非線性降維tSNE算法,由于tSNE的計算過程較為復雜且耗時長稻据,往往需要先通過PCA進行預降維處理艾猜。PCA降維過的數據再進行tSNE降維(降至二維或三維)實現(xiàn)可視化。而tSNE算法其實主要就是通過將臨近的相似點距離收縮捻悯,較遠的(非相似)點距離增大將各集群邊界分開匆赃。
1.4 請專人搭梯子摘(UMAP)
第三種,請一個經驗老道的園藝工幫忙摘今缚。(上一種的假設是一個沒有經驗的人的摘葉子方式)由于園藝工經驗老道算柳,雖然摘葉子的方法是差不多的,但是速度要快上許多姓言。在摘的過程中瞬项,還能夠下意識地有選擇性地把相近相似的葉子摘下來蔗蹋,同時,還能夠將摘下來地每一摞葉子都簡單地打個包壓縮空間囱淋,并把不同時候摘的相似葉子都放在一塊猪杭。
最后的這種方法便是現(xiàn)在炙手可熱的可視化工具UMAP。在可視化質量方面妥衣,UMAP算法與tSNE具有競爭優(yōu)勢皂吮。由于對嵌入維度沒有計算限制,使得其在高維數據分析中不僅可以比tSNE有更快的計算處理速度(對PCA預降維的需求度降低)税手,還能更有效地保留了更多全局結構涮较,可以通過可視化結果看出具有相關性集群大多相近。
2 聚類----摘完樹葉冈止,相似的樹葉之間什么關系狂票?
2.1 什么是聚類?為何我們需要聚類熙暴?
聚類就是歸類闺属,按照一定的標準來進行歸類就是聚類。我們得到降維后的數據后周霉,就能根據聚類算法對細胞進行分群聚類掂器,通過可視化圖來呈現(xiàn)更直觀的效果。
這里俱箱,我們還是以樹葉比作細胞來方便大家理解国瓮。我們把不同年份的葉子比作不同種類的細胞來進行分類。由于上述摘葉子(降維)的方式不同狞谱,我們最終呈現(xiàn)出來分葉子(聚類)的可視化情況也會有所不同乃摹。
相同或相近年份的葉子會在一定程度上相似(如顏色、大小跟衅、葉脈紋路等)孵睬,就好比我們同類細胞或者相近來源的細胞,他們某些基因表達量是相近的伶跷。將不同年份的葉子顏色掰读、大小、葉脈紋路等的差異理解為不同細胞的基因的表達情況和表達量的差異叭莫。然后我們人為的設定一個分辨率閾值蹈集,將表達量差異小于一定范圍的細胞歸為一類。
3 降維和聚類的關系
降維和聚類是同時進行的兩個獨立過程雇初,將兩者結果合并才是我們最終得到的可視化結果拢肆。但這個合并過程中一定會存在矛盾的地方,這也是影響了可視化圖中分群邊界與聚集遠近的最主要原因。
PCA是經典的線性降維方式善榛,每一個維度代表了數據的一個特征信息辩蛋,用越多的特征信息去描述一個數據就越接近真實;取用的維度越少移盆,信息的丟失量越多悼院。而在可視化中,我們只能使用“最有特色”的兩個或三個主成分去描述數據咒循,這就使得大量的細胞無法被良好地區(qū)分開据途,最終呈現(xiàn)的結果就是不同類型的細胞類型之間的邊界不明顯 (如下圖)。
此外叙甸,還需要提及的一點是颖医,并不是所有聚類分出的同種細胞都會降維在一起。在可視化圖中相同的細胞類型可能也會有較遠的分布裆蒸。例如下圖中熔萧,tSNE圖的cluster 4和UMAP圖的cluster 7。
tSNE的算法使得高維的相近距離在低維觀測的時候有一定幾率變成較遠距離僚祷,可視化圖上就會看起來不像是同一簇細胞佛致。而UMAP雖然能比tSNE更好地將相似細胞簇聚集,不同類細胞簇分開辙谜,但當UMAP的計算距離和聚類的計算距離差異較大時俺榆,可視化結果就也會顯示同一個細胞聚類被分了開來。
4 小結
在單細胞轉錄組測序中装哆,降維和聚類其實是兩個獨立的過程罐脊。會讓人容易混淆是因為降維和聚類經常體現(xiàn)出一定的一致性,本質原因是他們都是使用的高維數據特征蜕琴。
用前面分樹葉的例子來說萍桌,聚類是把一類相同特征的葉子歸為一類,這一類葉子具有相同的葉脈奸绷、顏色等等特征梗夸;而為什么他們具有這些特征呢,就是因為這些葉子生長在相近的地方(數據在高維空間的距離較近)号醉,容易受到相同的光照、水運辛块、激素等的影響畔派,而這些葉子在落下來時,也更容易落在相近的位置(降維時聚在一起)润绵。正是因此线椰,降維和聚類具有相當的一致性。
此外尘盼,像前面提及的tSNE憨愉,雖然可以保證降維在一個集群內的細胞之間會具有相似性烦绳,但各個集群之間的相似性無法得到保證,集群之間的遠近也無法代表集群間的相似性配紫。而UMAP也會有一定概率出現(xiàn)同種細胞在可視化圖中呈現(xiàn)不同簇的情況径密。