最近年中總結(jié)倔韭,我們學(xué)習(xí)一下基礎(chǔ)知識(shí)
隨著單細(xì)胞測(cè)序技術(shù)的發(fā)展贝奇,每個(gè)研究或?qū)嶒?yàn)中測(cè)定的細(xì)胞數(shù)量在顯著增加『嚼猓現(xiàn)在很多單細(xì)胞研究中睡雇,少則產(chǎn)生幾百,多則產(chǎn)生幾十萬的細(xì)胞數(shù)量饮醇,甚至更多它抱。其中,細(xì)胞亞型(cell subtype or cell subpopulations)的鑒定是單細(xì)胞測(cè)序技術(shù)一個(gè)非常重要的基礎(chǔ)應(yīng)用驳阎。但由于單細(xì)胞測(cè)序數(shù)據(jù)通常涉及到很多細(xì)胞抗愁,而每個(gè)細(xì)胞中的基因數(shù)量又可能是幾萬個(gè)馁蒂,所以,單細(xì)胞測(cè)序數(shù)據(jù)是一個(gè)高維的復(fù)雜數(shù)據(jù)蜘腌。
為了有效地對(duì)單細(xì)胞測(cè)序數(shù)據(jù)進(jìn)行各種處理分析沫屡,特別是細(xì)胞亞型的鑒定,通常需要首先對(duì)單細(xì)胞測(cè)序數(shù)據(jù)進(jìn)行降維撮珠。單細(xì)胞測(cè)序數(shù)據(jù)的降維方法主要可分為兩大類:
1沮脖、Dimensionality reduction(降維)。降維方法通常是把高維數(shù)據(jù)通過優(yōu)化保留原始數(shù)據(jù)中的關(guān)鍵特征后投射到低維空間芯急,從而可以通過二維或三維的形式把數(shù)據(jù)展示出來勺届。
常用的降維方法有:
1)PCA(Principle Component Analysis),主成分分析娶耍,是一種線性的降維方法免姿;
2)t-SNE(T-distributed stochastic neighbor embedding),是一種非線性的降維方法榕酒;
3)UMAP (uniform manifold approximation and projection) (Becht et al., 2018, Nat. Biotechnol.),
4)scvis (Ding et al., 2018, Nat. Commun.)
其中PCA和t-SNE被廣泛應(yīng)用于已發(fā)表的單細(xì)胞測(cè)序相關(guān)文章中胚膊。特別注意,PCA和t-SNE是降維的方法想鹰,并不是聚類方法紊婉。
2、Feature selection(特征選擇)辑舷,主要是通過去除信息含量少的基因而保留信息含量最多的基因來降低數(shù)據(jù)的維度喻犁。
常用的Feature selection的方法有:
1)基于先驗(yàn)信息的方法(如已知細(xì)胞的亞型)。比如通過SCDE軟件鑒定已知不同細(xì)胞亞型間的差異表達(dá)基因何缓,然后再基于差異表達(dá)基因來聚類分析等肢础。
-
2)非監(jiān)督方法。又可細(xì)分為:
(i) 基于highly variable genes (HVG) 歌殃;
(ii) 基于spike-in乔妈,如scLVM (Buettner et al., 2015)和BASiCS (Vallejos et al., 2015)等;
(iii)基于 dropout氓皱,如M3Drop (Andrews and Hemberg, 2018)路召。
單細(xì)胞測(cè)序數(shù)據(jù)細(xì)胞亞型鑒定方法
1、監(jiān)督的方法波材。比如基于特定細(xì)胞亞型的已知marker基因來聚類分析股淡。
2、非監(jiān)督的方法(unsupervised clustering)廷区。又可細(xì)分為:
(i) k-means唯灵,通常可結(jié)合PCA和t-SNE等來使用隙轻;
(ii) hierarchical clustering埠帕,運(yùn)行速度比K-means要慢垢揩;
(iii) density-based clustering,需要基于大樣本才能提高聚類的精度敛瓷;
(iv) graph-based clustering叁巨,是density-based clustering的一個(gè)延伸,可以應(yīng)用于上百萬的細(xì)胞數(shù)量呐籽。
不同細(xì)胞亞型鑒定聚類方法運(yùn)行時(shí)間和具體性能的比較
因此锋勺,從上面的圖中可知,不同的聚類方法所具備的特點(diǎn)可能不一樣狡蝶,有些聚類方法運(yùn)行時(shí)間短庶橱,有些聚類方法的結(jié)果更準(zhǔn)確√叭牵可根據(jù)具體的數(shù)據(jù)情況苏章,選擇相應(yīng)的軟件。建議選擇最新發(fā)表馍乙、且發(fā)表在高質(zhì)量期刊的軟件布近。
基礎(chǔ)知識(shí),了解即可