單細胞轉錄組測序中的降維和聚類

前言

在以往常規(guī)轉錄組測序中佛呻，由于實驗生物學重復，同組內測序得到的數據是接近的诫肠，通過簡單的線性降維PCA主成分分析法漱受，即可得到想要的可視化結果（組內樣本聚集虐先，組間樣本分離）。

PCA樣本分析圖

此時泣刹，我們想要的實驗結果就是組內有極高的相似性掀泳，與其說是聚類固灵，不如說其實只是通過降維圖將本來就“應該在一起”的數據可視化，以此來判斷是否有離群樣本需要剔除，是否組間有差異可進行后續(xù)差異分析菜拓。而這就讓人產生了一個誤解劝贸，聚類就是基于降維圖把“在一起”的點聚為一類。但是，實際上聚類和降維是兩個獨立的過程。

所謂物以類聚您单，人以群分蜈彼，聚類是把相近的樣本歸到一起，屬于無監(jiān)督學習；降維(PCA,UMAP,TSNE)晌块，則是減少特征數量，只保留解釋性強的部分特征，也屬于無監(jiān)督學習；嚴格來說歉嗓，二者是沒有聯(lián)系的，但是當我們在對高維數據進行聚類時會碰到兩個問題：
1、高位數據集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零载慈；
2、高維空間中數據較低維空間中數據分布要稀疏课幕，其中數據間距離幾乎相等是普遍現(xiàn)象匙监。
解決這兩個問題的方法之一就是在對高維數據進行聚類前，先嘗試降維，但話又說回來了辐宾，對于高維數據而言，在使用任何機器學習算法之前都可以先降維（并不推薦）進行預處理综液，這樣的好處是可以減輕在樣本聚類的過程計算樣本和中心點距離井誉，將數據從高維處理成低維. 而聚類通常是通個一定的距離度量方式如歐式距離蛮寂，馬式距離，編輯距離等將樣本按照設定類別進行聚合操作.

1 降維----摘樹葉

在單細胞轉錄組測序中年缎，一個項目可以得到上萬個細胞樣本馋缅，基因數量通常也是幾萬個，這樣高緯度的數據集不適合人直接進行閱讀和解析細胞之間的功能差異皆的。因此我們要通過一定方式完成數據的降維和聚類伟众，讓數據特征更明顯账胧，數據點更少泡孩。

細胞的降維與聚類就好比是“摘葉子”意狠，而整份單細胞轉錄組的數據則好比是一株巨大的樹澎灸。這棵樹很高很大榴徐，看著很累朋譬，所以我們需要降維來讓樹更容易觀測盐茎；這棵樹的葉子（細胞）很多，所以我們需要聚類來將葉子進行分類徙赢。這樣字柠，我們就可以通過相對簡單的方式來閱讀這一份數據了探越。

1.1 什么是降維？為何我們需要降維窑业？

降維就是復雜的高維數據信息簡化為更容易閱讀的低維數據信息钦幔，就像素描把三維的立體圖形繪制在二維的平面上，而我們可以通過繪制而成的二維平面來了解到三維物體本身是什么常柄，卻不用我們到作者的繪畫現(xiàn)場去看畫的東西到底是什么樣鲤氢。我們需要通過對單細胞轉錄組數據降維，來獲得更容易閱讀的低維數據信息西潘。

這里用三種摘葉子的方法來對應說明三種常見的可視化降維方法卷玉。

1.2 搖樹（PCA）

讓樹葉以近乎垂直的方式掉落在地面（低緯度）。這種方法雖然“簡單粗暴”喷市，但可以使所有葉子快速地落在地面上相种。雖然會一定程度上丟失樹葉生長高度的信息，但能夠還原大部分真實的生長位置信息品姓。

這種方法其實就與線性降維PCA的原理相似寝并，將高維特征收斂到低維上。而低維的各個維度（正交特征）也被稱為主成分PC腹备，是在原有高維特征的基礎上重新構造出來的低維特征衬潦。

image.png

1.3 搭梯子摘（tSNE）

以一個隨機的位置作為起始點，架個梯子爬上去摘馏谨，每次摘一部分就得爬到樹下放葉子别渔，然后再爬上梯子繼續(xù)摘，那整個過程就會變得十分漫長惧互，耗時耗力，但優(yōu)點是能有效地還原一部分樹生長高度的位置信息喇伯，并能將生長在一起的葉子放在同一摞喊儡。

這種方法與之對應的降維法便是非線性降維tSNE算法，由于tSNE的計算過程較為復雜且耗時長稻据，往往需要先通過PCA進行預降維處理艾猜。PCA降維過的數據再進行tSNE降維（降至二維或三維）實現(xiàn)可視化。而tSNE算法其實主要就是通過將臨近的相似點距離收縮捻悯，較遠的（非相似）點距離增大將各集群邊界分開匆赃。

1.4 請專人搭梯子摘（UMAP）

第三種，請一個經驗老道的園藝工幫忙摘今缚。（上一種的假設是一個沒有經驗的人的摘葉子方式）由于園藝工經驗老道算柳，雖然摘葉子的方法是差不多的，但是速度要快上許多姓言。在摘的過程中瞬项，還能夠下意識地有選擇性地把相近相似的葉子摘下來蔗蹋，同時，還能夠將摘下來地每一摞葉子都簡單地打個包壓縮空間囱淋，并把不同時候摘的相似葉子都放在一塊猪杭。

最后的這種方法便是現(xiàn)在炙手可熱的可視化工具UMAP。在可視化質量方面妥衣，UMAP算法與tSNE具有競爭優(yōu)勢皂吮。由于對嵌入維度沒有計算限制，使得其在高維數據分析中不僅可以比tSNE有更快的計算處理速度（對PCA預降維的需求度降低）税手，還能更有效地保留了更多全局結構涮较，可以通過可視化結果看出具有相關性集群大多相近。

2 聚類----摘完樹葉冈止，相似的樹葉之間什么關系狂票？

2.1 什么是聚類？為何我們需要聚類熙暴？

聚類就是歸類闺属，按照一定的標準來進行歸類就是聚類。我們得到降維后的數據后周霉，就能根據聚類算法對細胞進行分群聚類掂器，通過可視化圖來呈現(xiàn)更直觀的效果。

這里俱箱，我們還是以樹葉比作細胞來方便大家理解国瓮。我們把不同年份的葉子比作不同種類的細胞來進行分類。由于上述摘葉子（降維）的方式不同狞谱，我們最終呈現(xiàn)出來分葉子（聚類）的可視化情況也會有所不同乃摹。

相同或相近年份的葉子會在一定程度上相似（如顏色、大小跟衅、葉脈紋路等）孵睬，就好比我們同類細胞或者相近來源的細胞，他們某些基因表達量是相近的伶跷。將不同年份的葉子顏色掰读、大小、葉脈紋路等的差異理解為不同細胞的基因的表達情況和表達量的差異叭莫。然后我們人為的設定一個分辨率閾值蹈集，將表達量差異小于一定范圍的細胞歸為一類。

3 降維和聚類的關系

降維和聚類是同時進行的兩個獨立過程雇初，將兩者結果合并才是我們最終得到的可視化結果拢肆。但這個合并過程中一定會存在矛盾的地方，這也是影響了可視化圖中分群邊界與聚集遠近的最主要原因。

PCA是經典的線性降維方式善榛，每一個維度代表了數據的一個特征信息辩蛋，用越多的特征信息去描述一個數據就越接近真實；取用的維度越少移盆，信息的丟失量越多悼院。而在可視化中，我們只能使用“最有特色”的兩個或三個主成分去描述數據咒循，這就使得大量的細胞無法被良好地區(qū)分開据途，最終呈現(xiàn)的結果就是不同類型的細胞類型之間的邊界不明顯（如下圖）。

此外叙甸，還需要提及的一點是颖医，并不是所有聚類分出的同種細胞都會降維在一起。在可視化圖中相同的細胞類型可能也會有較遠的分布裆蒸。例如下圖中熔萧，tSNE圖的cluster 4和UMAP圖的cluster 7。

tSNE的算法使得高維的相近距離在低維觀測的時候有一定幾率變成較遠距離僚祷，可視化圖上就會看起來不像是同一簇細胞佛致。而UMAP雖然能比tSNE更好地將相似細胞簇聚集，不同類細胞簇分開辙谜，但當UMAP的計算距離和聚類的計算距離差異較大時俺榆，可視化結果就也會顯示同一個細胞聚類被分了開來。

4 小結

在單細胞轉錄組測序中装哆，降維和聚類其實是兩個獨立的過程罐脊。會讓人容易混淆是因為降維和聚類經常體現(xiàn)出一定的一致性，本質原因是他們都是使用的高維數據特征蜕琴。

用前面分樹葉的例子來說萍桌，聚類是把一類相同特征的葉子歸為一類，這一類葉子具有相同的葉脈奸绷、顏色等等特征梗夸；而為什么他們具有這些特征呢，就是因為這些葉子生長在相近的地方（數據在高維空間的距離較近）号醉，容易受到相同的光照、水運辛块、激素等的影響畔派，而這些葉子在落下來時，也更容易落在相近的位置（降維時聚在一起）润绵。正是因此线椰，降維和聚類具有相當的一致性。

此外尘盼，像前面提及的tSNE憨愉，雖然可以保證降維在一個集群內的細胞之間會具有相似性烦绳，但各個集群之間的相似性無法得到保證，集群之間的遠近也無法代表集群間的相似性配紫。而UMAP也會有一定概率出現(xiàn)同種細胞在可視化圖中呈現(xiàn)不同簇的情況径密。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

禁止轉載，如需轉載請通過簡信或評論聯(lián)系作者躺孝。

人面猴
序言：七十年代末享扔，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子植袍，更是在濱河造成了極大的恐慌惧眠，老刑警劉巖，帶你破解...
沈念sama閱讀 222,183評論 6贊 516
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件于个，死亡現(xiàn)場離奇詭異氛魁，居然都是意外死亡，警方通過查閱死者的電腦和手機厅篓，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,850評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門秀存，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人贷笛，你說我怎么就攤上這事应又。” “怎么了乏苦？”我有些...
開封第一講書人閱讀 168,766評論 0贊 361
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵株扛，是天一觀的道長。經常有香客問我汇荐，道長洞就，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 59,854評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任掀淘，我火速辦了婚禮旬蟋，結果婚禮上，老公的妹妹穿的比我還像新娘革娄。我一直安慰自己倾贰，他們只是感情好，可當我...
茶點故事閱讀 68,871評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布拦惋。她就那樣靜靜地躺著匆浙，像睡著了一般。火紅的嫁衣襯著肌膚如雪厕妖。梳的紋絲不亂的頭發(fā)上首尼，一...
開封第一講書人閱讀 52,457評論 1贊 311
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼软能。笑死迎捺，一個胖子當著我的面吹牛，可吹牛的內容都是我干的查排。我是一名探鬼主播凳枝，決...
沈念sama閱讀 40,999評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼雹嗦！你這毒婦竟也來了范舀？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 39,914評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤了罪，失蹤者是張志新（化名）和其女友劉穎锭环，沒想到半個月后，有當地人在樹林里發(fā)現(xiàn)了一具尸體泊藕，經...
沈念sama閱讀 46,465評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡辅辩，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 38,543評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了娃圆。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片玫锋。...
茶點故事閱讀 40,675評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖讼呢，靈堂內的尸體忽然破棺而出撩鹿，到底是詐尸還是另有隱情，我是刑警寧澤悦屏，帶...
沈念sama閱讀 36,354評論 5贊 351
?日本核電站爆炸內幕
正文年R本政府宣布节沦，位于F島的核電站，受9級特大地震影響础爬，放射性物質發(fā)生泄漏甫贯。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 42,029評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一看蚜、第九天我趴在偏房一處隱蔽的房頂上張望叫搁。院中可真熱鬧，春花似錦供炎、人聲如沸渴逻。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,514評論 0贊 25
一樁弒父案音诫，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽裸卫。三九已至，卻和暖如春纽竣，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 33,616評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工蜓氨，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留聋袋，地道東北人。一個月前我還...
沈念sama閱讀 49,091評論 3贊 378
代替公主和親
正文我出身青樓穴吹，卻偏偏與公主長得像幽勒，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子港令，可洞房花燭夜當晚...
茶點故事閱讀 45,685評論 2贊 360