作者,Evil Genius
今天是令人沉重的一天,所有的網(wǎng)頁軟件變成了灰色。
昨晚還是看了世界杯,日本隊確實(shí)值得尊重
今天我想來一篇關(guān)于單細(xì)胞分析的合集伍俘,包括以下內(nèi)容
- 單細(xì)胞基礎(chǔ)分析之單樣本分析篇
- 單細(xì)胞基礎(chǔ)分析之多樣本整合篇
- 單細(xì)胞個性化分析之細(xì)胞注釋篇
- 單細(xì)胞個性化分析之軌跡分析篇
- 單細(xì)胞個性化分析之細(xì)胞通訊篇
- 單細(xì)胞個性化分析之CNV篇
- 單細(xì)胞個性化分析之轉(zhuǎn)錄因子篇
本篇主要說前4個部分邪锌,因?yàn)榉旁谝黄鹞恼绿L,客戶端無法保存并發(fā)表癌瘾,下一篇主要講后四個部分
不要怪我說的多觅丰,想從事單細(xì)胞空間分析的研究者,這些都是必須掌握的妨退,不僅僅要會寫代碼妇萄,原理方法和算法都要掌握蜕企,只會跑官方教程,公司的面試就過不去冠句。
單細(xì)胞基礎(chǔ)分析之單樣本分析篇
單細(xì)胞數(shù)據(jù)集成分析軟件Seurat由Rahul Satija[1]等人于2015年提出轻掩,然后經(jīng)歷了不斷的更新開發(fā),目前已經(jīng)升級到了V4.0版本懦底,從最開始處理單細(xì)胞轉(zhuǎn)錄組擴(kuò)充到現(xiàn)在包括單細(xì)胞轉(zhuǎn)錄組唇牧、單細(xì)胞ATAC、空間轉(zhuǎn)錄組聚唐、單細(xì)胞蛋白組丐重,它主要包括以下主要分析內(nèi)容:單細(xì)胞數(shù)據(jù)過濾、降維杆查、聚類和計算差異扮惦。因?yàn)镾eurat集成了很多專業(yè)的軟件和算法,并且完美契合單細(xì)胞的數(shù)據(jù)分析亲桦,目前已經(jīng)廣泛運(yùn)用到了單細(xì)胞數(shù)據(jù)的基礎(chǔ)研究中崖蜜。借助clusterprofile進(jìn)行差異基因的富集,分析每個類群的生物學(xué)功能烙肺,組成了單細(xì)胞數(shù)據(jù)的基礎(chǔ)分析內(nèi)容纳猪。
單細(xì)胞數(shù)據(jù)過濾
過濾指標(biāo)
單細(xì)胞的數(shù)據(jù)分析中,需要盡可能保留正程殷希活性的細(xì)胞進(jìn)行下游分析氏堤,但是由于樣本在處理過程中的人為操作以及機(jī)器因素,不可避免地對細(xì)胞造成了損傷搏明,甚至引入了雙細(xì)胞鼠锈,圖1.1是使用Seurat軟件對樣本進(jìn)行基礎(chǔ)信息分析的一個例子。
在數(shù)據(jù)分析中如果不對數(shù)據(jù)進(jìn)行嚴(yán)格的過濾星著,會嚴(yán)重干擾下游分析购笆,得出錯誤的結(jié)論。對數(shù)據(jù)進(jìn)行過濾主要包括以下幾個方面:
(1)在每個細(xì)胞中檢測到的基因種類的數(shù)量:低質(zhì)量的細(xì)胞通常含有很少的基因虚循;而捕獲到的雙細(xì)胞含有明顯較高的基因數(shù)量同欠。
(2)在每個細(xì)胞內(nèi)檢測到的UMI數(shù)量與基因數(shù)量具有明顯的相關(guān)性,離群值的細(xì)胞往往由污染横缔、低質(zhì)量和雙細(xì)胞造成铺遂,如圖1.2.
(3)線粒體基因的比例,低質(zhì)量或者壞死的細(xì)胞具有相對高的線粒體基因比例(線粒體污染)茎刚。
(4)有些樣本會有特定的細(xì)胞污染襟锐,例如:pbmc的紅細(xì)胞污染等等,實(shí)際分析中也要去除膛锭。
閾值選擇
閾值1 細(xì)胞最低表達(dá)的Feature數(shù)
關(guān)于細(xì)胞最少需要表達(dá)多少Feature粮坞,科學(xué)家們一直在進(jìn)行研究蚊荣,目前發(fā)現(xiàn)的最小細(xì)胞----支原體,表達(dá)的基因數(shù)量為480莫杈,Cell Ranger對細(xì)胞的過濾閾值是UMI大于500互例,考慮到同一個基因可能表達(dá)多個mRNA分子,將最低閾值設(shè)置為200是合理的選擇姓迅。
閾值2 雙細(xì)胞的過濾閾值
單細(xì)胞在實(shí)驗(yàn)處理過程中敲霍,不可避免地引入了雙細(xì)胞,如前所述丁存,雙細(xì)胞的主要特征為含有明顯較高的基因數(shù)量肩杈。10x genomics也總結(jié)了捕獲的細(xì)胞量與雙細(xì)胞的大致比例關(guān)系,如下表:
Multiplet Rate(%) | Cells loaded | Cells Recovered |
---|---|---|
~0.4 | ~800 | ~500 |
~0.8 | ~1600 | ~1000 |
~1.6 | ~3200 | ~2000 |
~2.3 | ~4800 | ~3000 |
~3.1 | ~6400 | ~4000 |
~3.9 | ~8000 | ~5000 |
~4.6 | ~9600 | ~6000 |
~5.4 | ~11200 | ~7000 |
~6.1 | ~12800 | ~8000 |
~6.9 | ~14400 | ~9000 |
~7.6 | ~16000 | ~10000 |
由此可見解寝,捕獲到的細(xì)胞數(shù)越多扩然,雙細(xì)胞的概率越大,目前文獻(xiàn)中去除雙細(xì)胞主要是以下三種策略:
(1)設(shè)置高表達(dá)基因的閾值:通常將UMI高于一定閾值的細(xì)胞去除聋伦,這種方法通常需要一定的經(jīng)驗(yàn)積累夫偶,如圖1.1所示,F(xiàn)eature高于7000的部分明顯屬于異常值觉增,需要予以去除兵拢。
(2)Marker鑒定:如果表達(dá)兩種細(xì)胞的marker gene,當(dāng)作雙細(xì)胞處理(注:隨著研究的深入逾礁,這種現(xiàn)象不能一概而論说铃,有的研究發(fā)現(xiàn)組織細(xì)胞在某些情況下也會表達(dá)免疫細(xì)胞的標(biāo)志物)。
(3)借助專業(yè)的軟件識別雙細(xì)胞:例如DoubletFinder[2]嘹履、Scrublet[3]腻扇。這也是文獻(xiàn)更為普遍的做法(這一部分放在個性化分析詳細(xì)介紹)。
閾值3 線粒體基因的表達(dá)比例
線粒體基因的比例過高通常與細(xì)胞狀態(tài)較差有關(guān)砾嫉,線粒體主要特征:
(1)線粒體基因轉(zhuǎn)錄和翻譯的場所 :線粒體幼苛,對比于核轉(zhuǎn)錄組,翻譯在細(xì)胞質(zhì)焕刮。
(2)線粒體參與的生物學(xué)功能:能量供給,自由基生成和細(xì)胞凋亡舶沿,其中后兩種功能都跟細(xì)胞狀態(tài)差有關(guān)。
那么首先第一個問題配并,應(yīng)該選擇的閾值是多少呢括荡?細(xì)胞為了維持正常的生命活動,必然含有一定的線粒體基因荐绝。但是各個組織的細(xì)胞所含線粒體的正常比例差別較大:
(1)不同類型的細(xì)胞線粒體含量不一樣一汽,其中肌肉細(xì)胞線粒體含量最高可達(dá)50%避消,腫瘤區(qū)域的正常細(xì)胞線粒體含量有時也在30%以上低滩。
(2)統(tǒng)計文章的閾值召夹,在5%~30%之間不等,個別文章閾值放寬到50%恕沫。
(3)文獻(xiàn)中使用頻率最高的閾值是10%监憎。
所以具體情況要根據(jù)數(shù)據(jù)來做出判斷,如圖1.1為例婶溯,大部分細(xì)胞的線粒體比例均在20%以下鲸阔,所以閾值為20%是合理的選擇。
單細(xì)胞數(shù)據(jù)標(biāo)準(zhǔn)化
通常在單細(xì)胞RNA測序數(shù)據(jù)中觀察到文庫之間測序覆蓋率的系統(tǒng)差異迄委。它們通常是由細(xì)胞間的cDNA捕獲或PCR擴(kuò)增效率方面的技術(shù)差異引起的褐筛,這歸因于用最少的起始材料難以實(shí)現(xiàn)一致的文庫制備。標(biāo)準(zhǔn)化旨在消除這些差異叙身,以使它們不干擾細(xì)胞之間表達(dá)譜的比較渔扎。這樣可以確保在細(xì)胞群體中觀察到的任何異質(zhì)性或差異表達(dá)都是由生物學(xué)而不是技術(shù)偏倚引起的。
在這一點(diǎn)上信轿,標(biāo)準(zhǔn)化和批次校正之間的區(qū)別需要注意晃痴。標(biāo)準(zhǔn)化的發(fā)生與批次結(jié)構(gòu)無關(guān),并且僅考慮技術(shù)偏差财忽,而批次矯正僅在批次之間發(fā)生倘核,并且必須同時考慮技術(shù)偏差和生物學(xué)差異。技術(shù)偏差傾向于以相似的方式或至少以與它們的生物物理特性(例如長度即彪,GC含量)有關(guān)的方式影響基因紧唱,而批次之間的生物學(xué)差異可能是高度不可預(yù)測的。這樣祖凫,這兩個任務(wù)涉及不同的假設(shè)琼蚯,并且通常涉及不同的計算方法(盡管某些軟件包旨在一次執(zhí)行兩個步驟)引矩。因此荞驴,避免混淆“標(biāo)準(zhǔn)化”和“批次校正”的數(shù)據(jù)非常重要,因?yàn)檫@些數(shù)據(jù)通常表示不同的事物蓖乘。
軟件Seurat提供了三種標(biāo)準(zhǔn)化的方法稠屠,分別為LogNormalize峦睡、CLR、RC权埠,通常情況下我們采用LogNormalize的方式進(jìn)行標(biāo)準(zhǔn)化榨了,計算公式為:
標(biāo)準(zhǔn)化數(shù)據(jù)的意義在于:
(1)集中離散程度較大的數(shù)據(jù)(例如單細(xì)胞、空間測序數(shù)據(jù))攘蔽。
(2)如果表達(dá)量離散程度很大龙屉,存在異常值和較多噪音,用標(biāo)準(zhǔn)化可以避免異常值和極端值的影響,降低離散程度转捕。
(3)使數(shù)據(jù)符合正態(tài)分布作岖,為下游分析做準(zhǔn)備。
高變基因
單細(xì)胞數(shù)據(jù)的稀疏性:稀疏數(shù)據(jù)是指五芝,數(shù)據(jù)框中絕大多數(shù)數(shù)值缺失或者為零的數(shù)據(jù)痘儡。在數(shù)據(jù)挖掘領(lǐng)域,常常要面對海量的復(fù)雜型數(shù)據(jù)枢步。其中沉删,無論使單細(xì)胞數(shù)據(jù)還是空間數(shù)據(jù),都存在大量的零值醉途,稀疏程度會達(dá)到95%以上矾瑰,這使得傳統(tǒng)的統(tǒng)計方法不適于處理此類數(shù)據(jù)。但與此同時也要注意隘擎,零值并不代表無效信息脯倚。
正因?yàn)閱渭?xì)胞數(shù)據(jù)的稀疏性,為了尋找生物學(xué)差異的主要信號嵌屎,需要計算在數(shù)據(jù)集中表現(xiàn)出高細(xì)胞間差異的特征子集(即推正,基因在某些細(xì)胞中高度表達(dá),而在其他細(xì)胞中表達(dá)低)宝惰,在下游分析中關(guān)注這些基因有助于突出單細(xì)胞數(shù)據(jù)集中的生物信號植榕。
高變基因的挑選方法,Seurat內(nèi)置了三種尋找高變基因的方法:
(1)vst:首先尼夺,使用局部多項(xiàng)式回歸 (loess) 擬合 log(variance) 和 log(mean) 的關(guān)系尊残。 然后使用觀察到的均值和預(yù)期方差(由擬合線給出)對特征值進(jìn)行標(biāo)準(zhǔn)化。 然后在裁剪到最大值后根據(jù)標(biāo)準(zhǔn)化值計算特征方差淤堵。
(2)mean.var.plot (mvp):首先寝衫,使用一個函數(shù)來計算每個特征的平均表達(dá)(mean.function)和離散度(dispersion.function)。 接下來拐邪,根據(jù)特征的平均表達(dá)將特征劃分為 num.bin(默認(rèn) 20)個 bin慰毅,并計算每個 bin 內(nèi)分散的 z 分?jǐn)?shù)。 這樣做的目的是識別可變特征扎阶,同時控制可變性和平均表達(dá)之間的強(qiáng)關(guān)系汹胃。
(3)dispersion (disp):選擇具有最高離散度的基因.
通常采用的方法是vst,默認(rèn)選取前2000個高變基因用于下游分析东臀,如下圖着饥。
這里需要注意一點(diǎn),就是高變基因數(shù)量的選擇惰赋,如果選取的過多宰掉,就會帶入一些噪音信號,影響下游的分析,選取的過少轨奄,無法真正表征生物學(xué)信號仇穗,得到錯誤的結(jié)論,從目前文獻(xiàn)的通常選取數(shù)量來看戚绕,2000是一個合理的閾值,但是在對某一細(xì)胞類型進(jìn)行再分群分析時枝冀,選取的高變基因數(shù)量要適當(dāng)減少舞丛。
單細(xì)胞數(shù)據(jù)標(biāo)準(zhǔn)化與中心化
單細(xì)胞數(shù)據(jù)的標(biāo)準(zhǔn)化操作本質(zhì)上是對基因表達(dá)量的數(shù)值進(jìn)行了z-score的轉(zhuǎn)換((0,1)正態(tài)分布化),計算公式如下:
當(dāng)數(shù)據(jù)集的特征間具有不同的值范圍時果漾,數(shù)據(jù)歸一化是非常有必要的球切,數(shù)據(jù)歸一化的目的是使特征具有相同的度量尺度。