在線書籍:https://osca.bioconductor.org
1. 數(shù)據(jù)結(jié)構(gòu)
Bioconductor 采用了一種稱為S4
的靈活的面向?qū)ο蠓妒角拗荆梢允褂秘S富且用戶友好的方式將多個對象組件封裝到單個實例中。
Bioconductor 使用 SingleCellExperiment 類來存儲單細(xì)胞測序數(shù)據(jù)(single-cell assay data)和元數(shù)據(jù)(metadata)曹抬。計數(shù)矩陣之類的原始數(shù)據(jù)以一個或多個矩陣的形式存儲在 assay 組件中恋捆,其中行代表特征(例如基因和轉(zhuǎn)錄本)照皆,列代表細(xì)胞。此外沸停,基本數(shù)據(jù)的低維形式和描述細(xì)胞或特征屬性的metadata也可以存儲在 SingleCellExperiment 對象中膜毁。通過 SingleCellExperiment,可以將與 scRNA-seq 實驗相關(guān)的所有數(shù)據(jù)和結(jié)果存儲在單個實例中愤钾。通過單細(xì)胞數(shù)據(jù)和結(jié)果的標(biāo)準(zhǔn)化存儲瘟滨,Bioconductor 促進(jìn)了單細(xì)胞分析程序包之間的交互性,并促進(jìn)了復(fù)雜分析工作流程的開發(fā)和使用能颁。
2. 數(shù)據(jù)處理
該部分旨在描述大多數(shù) scRNA-seq 分析所共有的前期分析步驟杂瘸。這些基本步驟遵循通用的分析流程:
(1) 預(yù)處理原始測序數(shù)據(jù),生成行為基因(或轉(zhuǎn)錄本)伙菊,列為每個細(xì)胞的表達(dá)計數(shù)矩陣败玉,并創(chuàng)建 SingleCellExperiment對象;
(2) 對數(shù)據(jù)進(jìn)行質(zhì)控镜硕,去除可能會干擾下游分析的低質(zhì)量細(xì)胞运翼;
(3) 對原始計數(shù)進(jìn)行標(biāo)準(zhǔn)化標(biāo)準(zhǔn)化以消除細(xì)胞和基因特異性偏好;
(4) 進(jìn)行特征選擇篩選生物學(xué)相關(guān)基因進(jìn)行下游分析兴枯;
(5) 應(yīng)用降維方法壓縮數(shù)據(jù)并降噪血淌;
(6) 如果需要,整合多批次 scRNA-seq 數(shù)據(jù)财剖。
2.1 預(yù)處理
對于 scRNA-seq 數(shù)據(jù)悠夯,預(yù)處理包括將測序 reads 與參考轉(zhuǎn)錄組進(jìn)行比對和定量,獲得每個細(xì)胞和每個基因的表達(dá)值計數(shù)矩陣峰伙。盡管多種命令行軟件形式的預(yù)處理方法已經(jīng)存在疗疟,scPipe
和scruff
等 Bioconductor 軟件包提供了完全用 R 編寫的預(yù)處理工作流程。對于使用命令行的預(yù)處理軟件瞳氓,DropletUtils
和tximeta
等 Bioconductor 軟件包可以讀入各種命令行軟件工具如 Cell Ranger
(10X Genomics)策彤, Kallisto-Bustools
和 Alevin
的結(jié)果栓袖。值得注意的是,偽對齊(pseudo-alignment )方法(例如 Alevin 和 Kallisto)可以顯著減少計算時間和運(yùn)行內(nèi)存店诗。
在上述所有工作流程中裹刮,最終結(jié)果是將計數(shù)矩陣導(dǎo)入 R 并創(chuàng)建 SingleCellExperiment 對象。對于特定的文件格式庞瘸,我們可以使用 DropletUtils
(用于 10X 數(shù)據(jù))或 tximeta
(用于偽對齊方法)包中的專用方法捧弃。
2.2 質(zhì)量控制
造成 scRNA-seq 數(shù)據(jù)中的低質(zhì)量文庫可能有多種原因,如解離時的細(xì)胞損傷或文庫制備失敳聊摇(例如逆轉(zhuǎn)錄或 PCR 擴(kuò)增異常)违霞。這些通常表現(xiàn)為“細(xì)胞”總數(shù)低、表達(dá)的基因數(shù)少瞬场、線粒體基因表達(dá)比例高买鸽。這些低質(zhì)量的文庫可能會導(dǎo)致下游分析中獲得誤導(dǎo)性結(jié)果。詳見Quality control of scRNAseq data贯被。
對于基于液滴的實驗步驟(droplet-based protocols)眼五,通常只保留包含且只包含一個細(xì)胞的液滴所生成的數(shù)據(jù)。DropletUtils
包根據(jù)觀察到的每個液滴的表達(dá)譜與周圍溶液的表達(dá)譜來區(qū)分空(只含溶液中 RNA )液滴和含細(xì)胞的液滴彤灶。它還可以去除基于液滴的實驗中由于 barcode 序列錯誤產(chǎn)生的假細(xì)胞看幼。同樣,scran
或scds
包可以通過比較實驗檢測到的液滴與模擬的 doublets 液滴的表達(dá)譜來識別可能包含多個細(xì)胞(doublets)的液滴幌陕。
在排除空液滴并識別潛在的雙細(xì)胞后诵姜,包含潛在受損細(xì)胞或測序覆蓋度較差的液滴將被過濾掉。文庫大邪巍(定義為每個細(xì)胞所有相關(guān)基因的總計數(shù)之和)是一個常用的過濾指標(biāo)茅诱。 具有較小文庫大小的細(xì)胞更可能是低質(zhì)量細(xì)胞,這可能是因為在 RNA 制備過程中的某個步驟如細(xì)胞裂解搬卒、不成功的 cDNA 捕獲和擴(kuò)增等造成了 RNA 丟失。另一個指標(biāo)是每個細(xì)胞中表達(dá)的基因的數(shù)量翎卓, 定義為該細(xì)胞中具有非零計數(shù)的內(nèi)源基因的數(shù)量契邀。表達(dá)基因很少的細(xì)胞可能是轉(zhuǎn)錄本群體沒有被成功捕獲。線粒體基因組中基因的表達(dá)比例也是一個指標(biāo)失暴,因為線粒體基因比例高可能是因為細(xì)胞損傷造成細(xì)胞質(zhì)RNA丟失坯门,而線粒體因為體積大于單個轉(zhuǎn)錄物分子不太可能通過細(xì)胞膜上的孔逸出。 Scater
軟件包簡化了這些指標(biāo)的計算逗扒。
2.3 標(biāo)準(zhǔn)化
scRNA-seq 數(shù)據(jù)不同文庫之間存在覆蓋率的系統(tǒng)差異古戴,例如測序深度差異。這通常是由于細(xì)胞之間 cDNA 捕獲或 PCR 擴(kuò)增效率不同而引起的矩肩,而這又是由于起始 RNA 量低引起獲得一致性文庫困難所導(dǎo)致的现恼。標(biāo)準(zhǔn)化的目的是消除這些系統(tǒng)差異,使它們不干擾聚類或差異表達(dá)分析時細(xì)胞之間表達(dá)譜的比較。
我們先只考慮在單個 scRNA-seq 實驗中降低系統(tǒng)差異的方法叉袍,因為它們造成數(shù)據(jù)的偏好性的原因相 似始锚。例如,測序深度的變化將所有基因的表達(dá)計數(shù)按一定因子進(jìn)行縮放喳逛。如在scater
中所實現(xiàn)的文庫大小歸一化是最簡單的策略瞧捌。盡管此方法假設(shè)任何一對細(xì)胞之間的差異表達(dá)基因(DEG)上下調(diào)平衡 (基因整體表達(dá)量不變),但是標(biāo)準(zhǔn)化準(zhǔn)確性通常不是 scRNA-seq探索性分析的主要考慮因素润文,因為 它們對簇聚類的影響很小姐呐。
但是,準(zhǔn)確的標(biāo)準(zhǔn)化在解釋每個基因的統(tǒng)計數(shù)據(jù)如差異基因分析時非常重要典蝌。當(dāng)在一個給定的 scRNA-seq 數(shù)據(jù)集中存在多種細(xì)胞類型時皮钠,最經(jīng)常觀察到表達(dá)偏差是表達(dá)變化對數(shù)值的偏移。通過反卷積進(jìn)行歸一化可以克服這一點(diǎn)赠法,方法是合并許多細(xì)胞中的計數(shù)數(shù)據(jù)增加計數(shù)的大小以進(jìn)行準(zhǔn)確的 size factor 估計麦轰,然后將其解卷積為基于細(xì)胞的因子以對每個細(xì)胞進(jìn)行標(biāo)準(zhǔn)化(如在 scran 中實現(xiàn)).
另外,BASiCS, zinbwave 和 MAST 提供了基于模型的標(biāo)準(zhǔn)化方法砖织,不僅可以處理此類文庫大小或組成偏差款侵,還可以針對已知的協(xié)變量或其他可能干擾生物學(xué)上有意義的變異的技術(shù)因素進(jìn)行校正。 這些方法支持更復(fù)雜的標(biāo)準(zhǔn)化策略侧纯,例如數(shù)據(jù)的非線性轉(zhuǎn)換新锈。有關(guān)此主題可參考如下文獻(xiàn)。
2.4 缺失數(shù)據(jù)填充 (imputation)
數(shù)據(jù)插補(bǔ)方法可以用來解決單細(xì)胞測序數(shù)據(jù)的稀疏性問題眶熬。由于 scRNA-seq 實驗經(jīng)常無法測量到某些基因的表達(dá)妹笆,從而導(dǎo)致數(shù)據(jù)表中零值過多,為此開發(fā)了零膨脹模型(zero-inflated models)娜氏。但是拳缠,其效果取決于檢測方法或 protocol 的類型,尚無適應(yīng)所有數(shù)據(jù)的最優(yōu)工具贸弥。此外窟坐,研究表明,scRNA-seq 數(shù)據(jù)的插補(bǔ)方法會導(dǎo)致假陽性結(jié)果绵疲,并降低了細(xì)胞類型特異性標(biāo)記基因鑒定的可重復(fù)性哲鸳。
2.5 特征選擇
scRNA-seq 數(shù)據(jù)的探索性分析通常旨在表征細(xì)胞間的異質(zhì)性。諸如聚類和降維之類的分析會根據(jù)細(xì)胞的基因表達(dá)譜進(jìn)行比較盔憨。但是徙菠,在這些計算中選擇哪些基因用于下游分析影響重大。 特征選擇方法旨在識別能對研究的生物系統(tǒng)提供有用信息的基因郁岩,同時刪除導(dǎo)致隨機(jī)噪聲的基因婿奔。 通過只對此類基因進(jìn)行分析缺狠,可以在排除混淆信息的基礎(chǔ)上保留有意義的生物學(xué)結(jié)構(gòu)。此外脸秽, 只關(guān)注轉(zhuǎn)錄組的這一子集可以顯著減小數(shù)據(jù)集的大小儒老,從而提高下游分析的計算效率。
特征選擇的最簡單方法是根據(jù)基因在整個細(xì)胞群體中的表達(dá)來選擇變化最大的基因记餐。這基于一個假設(shè)驮樊,真正的生物學(xué)差異導(dǎo)致的基因表達(dá)變化大于其他僅受技術(shù)噪聲影響或無關(guān)的生物因素引起的表達(dá)變化。但是片酝,對數(shù)轉(zhuǎn)換無法實現(xiàn)完美的方差穩(wěn)定化(variance stabilization)囚衔。這意味著相比生物異質(zhì)性,基因的豐度對其程度影響更大雕沿。因此练湿,特征選擇計算每個基因的方差時通常需要對均值-方差關(guān)系進(jìn)行建模。軟件包scran
审轮,BASiCS
和scFeatureFilter
都采用這種方法肥哎。
另外,還有可以替代方差的度量標(biāo)準(zhǔn)疾渣,例如基于基因的偏離度(deviance)選擇特征基因篡诽,該方法評估每個基因與細(xì)胞間恒定表達(dá)的零模型(null model)的擬合程度。與基于方差的特征選擇方法不同榴捡,偏離度的計算是根據(jù)原始的唯一分子標(biāo)識符(UMI)計數(shù)完成的杈女,因此該方法對標(biāo)準(zhǔn)化帶來的錯誤不太敏感。偏離度可以使用 glmpca
軟件包進(jìn)行計算吊圾。
2.6 降維
降維旨在減少數(shù)據(jù)中獨(dú)立維度的數(shù)量达椰。如果不同的基因受同一生物學(xué)過程的影響,它們的表達(dá)就會存在相關(guān)性项乒,這使得降維是可行的啰劲。因此,我們不需要單獨(dú)存儲每個基因的信息板丽,而是可以將多個基因的信息壓縮成一個特征存儲呈枉。降維方法在保留數(shù)據(jù)集中最有意義的信息結(jié)構(gòu)基礎(chǔ)上實現(xiàn)了數(shù)據(jù)的降維。降維的一個額外好處是降低了噪音埃碱,它可以把多個基因(比如,跟某一個通路相關(guān)的基因)用類似平均值的操作整合在一起酥泞,獲得的特征可以反應(yīng)更精確的表達(dá)變化模式砚殿。降維后下游分析中的計算工作也減少了,因為只需要針對幾個維度而不是數(shù)千個基因進(jìn)行計算芝囤。效果更好的降維方案(aggressive dimensionality reduction schemes)可以在二維或三維空間對數(shù)據(jù)進(jìn)行可視化以幫助解釋結(jié)果似炎。
scRNA-seq 數(shù)據(jù)降維的常見第一步是主成分分析(PCA)辛萍。PCA 在高維空間中鑒定可捕獲數(shù)據(jù)變異最大的軸(也成為主成分,PC)羡藐。前幾個主成分維度捕獲了數(shù)據(jù)集中主要的異質(zhì)性的信息贩毕,因此可以有效的降維。這利用了 PCA 成熟的理論特性仆嗦,即對于給定的矩陣辉阶,由前幾維 PC 形成的低階近似矩陣是原始數(shù)據(jù)的最佳表示。鑒于此屬性瘩扼,使用前幾維 PC(或任何類似的低秩近似表示)執(zhí)行的計算(諸如聚類之類的下游分析)將充分利用數(shù)據(jù)壓縮和去噪的優(yōu)勢谆甜。
無論采用哪種方法,用于可視化的降維必然涉及信息丟失并改變細(xì)胞之間的距離集绰。因此规辱,直接分析用于繪圖的低維坐標(biāo)是不明智的。相反栽燕,這些圖應(yīng)僅只用于解釋或傳達(dá)基于更精確的罕袋、更多維度的定量分析結(jié)果。這樣可以保證分析充分利用了壓縮到二維空間時丟失的信息碍岔。假如二維圖上呈現(xiàn)的細(xì)胞分布與使用更多數(shù)目的 PC 進(jìn)行聚類獲得的結(jié)果之間存在差異浴讯,應(yīng)傾向于相信后者的結(jié)果。
SingleCellExperiment 類具有一個專用存儲空間 reducedDims 用于存儲降維后的數(shù)據(jù)付秕。scater
軟件包提供了多個用于降維分析的便捷函數(shù)兰珍,可以進(jìn)行主成分分析(PCA),t-SNE(t-Distributed Stochastic Neighbor Embedding)询吴,以及 UMAP(Uniform Manifold Approximation and Projection)分析掠河。destiny
包提供了 Diffusion map 降維方法。zinbwave
和 glmpca
程序包分別使用零膨脹 (zero-inflated)負(fù)二項模型和多項式模型進(jìn)行基于模型的降維分析猛计,優(yōu)勢是在模型中可以考慮混雜因素的影響唠摹。
2.7 數(shù)據(jù)整合
由于技術(shù)限制(logistical constraints),大型 scRNA-seq 項目通常需要分多個批次生成數(shù)據(jù)奉瘤。但是勾拉,不同批次的處理通常會遇到無法控制的差異,例如操作員操作獨(dú)特性或試劑質(zhì)量的差異等盗温。這導(dǎo)致在不同批次的細(xì)胞中觀察到的表達(dá)發(fā)生系統(tǒng)性差異藕赞。此外,隨著 scRNA-seq 數(shù)據(jù)的普及和參考數(shù)據(jù)集的普及卖局,在整合分析中不可避免地會遇到這種混雜變量的影響斧蜕。在這個情況下,批次效應(yīng)可能是數(shù)據(jù)異質(zhì)性的主要驅(qū)動力砚偶,會掩蓋相關(guān)的生物學(xué)差異并使結(jié)果的解釋變得復(fù)雜批销。
盡管可以使用廣義線性模型來整合不同的數(shù)據(jù)集洒闸,但在 scRNA-seq 分析中,這些方法可能不是最佳的均芽。因為它們基于一個假設(shè)丘逸,即不同批次的細(xì)胞中細(xì)胞群體的組成是已知的或相同的。為了克服這一限制掀宋,研究者開發(fā)了不基于細(xì)胞群體構(gòu)成的先驗知識的特制方法用于單細(xì)胞數(shù)據(jù)的批次校正深纲。這便利了 scRNA-seq 數(shù)據(jù)的探索性分析,因為這些先驗知識通常是不可用的布朦。
在批次校正之前囤萤,最好先檢查是否有批次影響∈桥浚基于特征基因的對數(shù)表達(dá)值進(jìn)行 PCA 分析涛舍,再使用基于圖的聚類方法展示群體結(jié)構(gòu)。理想情況下唆途,每個聚類簇都應(yīng)包含來自各個重復(fù) scRNA-seq 數(shù)據(jù)集的細(xì)胞富雅。然而,如果細(xì)胞簇只包含單個批次的細(xì)胞肛搬,則表明批次效應(yīng)把本來相同類型的細(xì)胞錯誤地區(qū)分開了没佑。諸如 t-SNE 和 UMAP 之類的方法也會顯示出來自不同批次的細(xì)胞之間的差異,這與聚類結(jié)果是一致的温赔。值得注意的是蛤奢,如果某個批次確實包含獨(dú)特的細(xì)胞亞群時,這種依賴于混合程度的可視化診斷可能并不有效陶贼,但是仍然是有用的近似方法啤贩。
諸如 scMerge
、scmap
之類的包可以使用先驗細(xì)胞標(biāo)記(請參閱“注釋”部分)進(jìn)行有監(jiān)督的整合分析拜秧,用以指導(dǎo)對基因表達(dá)值進(jìn)行任何批次校正或調(diào)整較低維度的展示形式痹屹。另一方面,諸如相互最近鄰(MNN枉氮,mutual nearest neighbours)之類的無監(jiān)督方法會從彼此相鄰的鄰居集合中識別 不同批次中成對的細(xì)胞志衍。然后,MNN 對中的細(xì)胞之間的差異可以用作批次效應(yīng)的估計值聊替,將其相減得出批處理校正值楼肪。實際上,通過調(diào)整最近鄰居的數(shù)量值 k惹悄,可以調(diào)整批次校正的強(qiáng)弱淹辞,其中,較 高的 k 值會導(dǎo)致批次之間子群體的匹配更加廣泛(generous matching)俘侠。這種基于 MNN 的方法在 batchelor 軟件包中有實現(xiàn)象缀。
批次校正的成功取決于生物異質(zhì)性信息的保留,因為可以設(shè)想一種校正方法將所有細(xì)胞簡單地聚集在一起爷速,雖然實現(xiàn)了細(xì)胞的完美混合央星,但丟棄了感興趣的生物信息。為此惫东,CellMixS
軟件包可用于評估批次之間的細(xì)胞混合程度莉给。另一個有用的評估方法是將數(shù)據(jù)合并后的聚簇結(jié)果與每個批次數(shù)據(jù) 分別獲得的聚簇結(jié)果相比較。理想情況下廉沮,我們應(yīng)該看到多對一的映射關(guān)系颓遏,跨批次聚簇結(jié)果嵌套 在批次內(nèi)聚類結(jié)果,這表明任何批次內(nèi)結(jié)構(gòu)都在校正后得以保留滞时。統(tǒng)計量如蘭德指數(shù)(Rand index)可用于評估聚類結(jié)果(蘭德指數(shù)越大聚類效果越好)叁幢。
3. 下游統(tǒng)計分析
因研究目標(biāo)或?qū)嶒炇侄蔚牟煌掠畏治龅姆椒ê凸ぷ髁鞒痰倪x擇也差異很大坪稽。數(shù)據(jù)前期處理后曼玩, 可以使用 Bioconductor 中能夠處理SingleCellExperiment 類并且可以處理大量細(xì)胞的工具進(jìn)行具體 的生物探索分析。在線圖書中提供了用于下游分析和可視化的分析流程和案例研究窒百。
3.1 聚類
在 scRNA-seq 數(shù)據(jù)分析中使用經(jīng)驗性的聚類方式定義具有相似表達(dá)譜的細(xì)胞為一簇黍判。這使我們可以用更容易理解的離散標(biāo)記來描述種群異質(zhì)性,而不是試圖理解細(xì)胞自身所處的高維流形篙梢。在 基于差異表達(dá)獲得的標(biāo)記基因進(jìn)行注釋后顷帖,可以將簇視為更抽象的生物學(xué)概念(例如細(xì)胞類型或狀態(tài))的代名詞。
值得強(qiáng)調(diào)的是細(xì)胞簇與細(xì)胞類型之間的區(qū)別渤滞。前者是一種經(jīng)驗稱謂贬墩,而后者是一個生物學(xué)事實(盡管定義有些模糊)。因此蔼水,需要認(rèn)識到聚類震糖,其實像顯微鏡一樣,只是探索數(shù)據(jù)的一個工具趴腋。更改聚類參數(shù)可以類比于放大和縮小分辨率來調(diào)整觀察的粒度吊说,并嘗試使用不同的聚類算法來獲得數(shù)據(jù)的其它查看角度。
基于圖的聚類方法是對大型 scRNA-seq 數(shù)據(jù)集進(jìn)行聚類分析的一種靈活且擴(kuò)展性強(qiáng)的技術(shù)优炬。在一個高維空間中颁井,每個點(diǎn)(也就是一個細(xì)胞)與其最近的鄰居相連構(gòu)成一幅網(wǎng)絡(luò)圖。邊基于相連的細(xì)胞的相似性加權(quán)蠢护,連接越相似的細(xì)胞的邊的權(quán)重越高雅宾。louvain 和 leiden 等算法可以用來鑒定細(xì)胞簇。
BiocNeighbors 提供了用于精確和近似最近鄰檢測的分析工具葵硕,并通過 scran 構(gòu)建實際連接圖形眉抬。 值得注意的是贯吓,對于大型 scRNA-seq 數(shù)據(jù)集,近似 NN 方法以可接受的準(zhǔn)確性損失為代價極大地縮短了運(yùn)行時間蜀变,并具有平滑噪聲和稀疏性的額外優(yōu)勢悄谐。替代方法包括 SIMLR 軟件包,它使用多個 kernal 來學(xué)習(xí)最適合數(shù)據(jù)的細(xì)胞距離度量方式库北,并可用于聚類和降維爬舰。對于大數(shù)據(jù),mbkmeans 軟件包實現(xiàn)了 k-means 算法的高速版本寒瓦。最后情屹,SC 和 clusterExperiment 程序包構(gòu)建了基于多重參
數(shù)的一致性聚類比較分析。
許多這些程序包都可以對聚類結(jié)果進(jìn)行定量和視覺評估杂腰,此外垃你,還專門設(shè)計有用于數(shù)據(jù)可視化和評估的其它程序包(例如clustree)。另外可以通過一些度量參數(shù)(例如簇模塊性或輪廓系數(shù)silhouette coefficient)來獨(dú)立評估聚類結(jié)果颈墅。
3.2 差異表達(dá)
差異基因表達(dá)(DGE)分析可用于識別驅(qū)動簇分離的標(biāo)記基因蜡镶。這些標(biāo)記基因使我們能 夠根據(jù)其功能注釋為每個簇賦予生物學(xué)意義。在最明顯的情況下恤筛,每個簇的標(biāo)記基因與已經(jīng)注釋的特定細(xì)胞類型相關(guān)官还,從而讓聚類結(jié)果等同于細(xì)胞類型鑒定結(jié)果。同時還可以應(yīng)用相同原理檢測更細(xì)微的差異毒坛,例如激活狀態(tài)或分化狀態(tài)之間的比較望伦。DGE 分析用于細(xì)胞類型注釋的替代方案是基因集富集分析,該分析將基因歸類到先驗的基因模塊或生物途徑煎殷,以便于進(jìn)行生物解釋屯伞。我們將在“注釋”部分中討論此主題。
在差異表達(dá)方法中豪直,有兩種通用方法很突出劣摇。第一種方法是把最初廣泛應(yīng)用于普通轉(zhuǎn)錄組測序的 R 包(如edgeR
,DESeq2
和limma-voom
)等通過各種方法(例如通過創(chuàng)建偽普通轉(zhuǎn)錄組圖譜)改造后應(yīng)用于 scRNA-seq 分析弓乙∧┤冢或者,諸如 zinbwave 之類的方法在離散度估計和模型擬合步驟中減輕在 scRNA-seq數(shù)據(jù)中大量零的權(quán)重暇韧,然后再進(jìn)行差異分析勾习,也可以促進(jìn)普通轉(zhuǎn)錄組差異基因分析方法應(yīng)用于 scRNA-seq 數(shù)據(jù)。第二類方法是專門針對單細(xì)胞數(shù)據(jù)的特征開發(fā)的懈玻,其使用的統(tǒng)計方法直接對 scRNA-seq 數(shù)據(jù)常見的大量零值直接建模巧婶。這些方法將基因表達(dá)明確地分為兩個部分:離散部分(描述零與非零表達(dá)的基因的比例)以及連續(xù)部分(基因表達(dá)定量水平)捺萌。盡管本文提到的所有方法都可以對”連續(xù)部分”進(jìn)行差異分析寓辱,但是只有第二類方法可以明確地對“離散部分”進(jìn)行建模(explicitly model)芯急,從而對表達(dá)頻率的差異進(jìn)行統(tǒng)計分析拙泽。為此玫氢,MAST
軟件包使用了 hurdle model(Hurdle 模型是二分類模型與零截尾模型的聯(lián)合变姨,它可通過對兩部分分別進(jìn)行極大似然估計而得到參數(shù)估計值)寺渗。而scDD
大猛,BASiCS
和SCDE
分別使用貝葉斯混合和層級模型。這些方法可以提 供更廣泛的檢測功能诅需,并且可以直接用于 SingleCellExperiment 類中包含的 scRNA-seq 數(shù)據(jù)。
有關(guān) DE 分析和上述各種軟件包的比較分析的更多詳細(xì)信息下下列文章荧库。
3.3 軌跡分析
細(xì)胞異質(zhì)性還可以建模為一個連續(xù)的生物過程堰塌,如細(xì)胞分化。軌跡分析(或偽時間推斷)是專門針對單細(xì)胞降維分析的一個特殊應(yīng)用分衫,它使用系統(tǒng)發(fā)育方法來沿著(通常是時間連續(xù)性的)軌跡對細(xì)胞進(jìn)行排序场刑,如隨時間的發(fā)育。推斷的軌跡可以識別細(xì)胞狀態(tài)之間的過渡蚪战、分化過程或動態(tài)細(xì)胞過程中導(dǎo)致的二分事件牵现。
軌跡推斷的最新方法的改進(jìn)在最大程度地減少了用戶輸入?yún)?shù),并且可以基于各種拓?fù)浣Y(jié)構(gòu)進(jìn)行差 異基因表達(dá)分析(例如 Monocle
邀桑,LineagePulse
和 switchde
)瞎疼。此外,用于軌跡推斷的多個 Bioconductor 軟件包(例如slingshot
壁畸,TSCAN
贼急,Monocle
,cellTree
和MFA
)最近被證明具有出色的性能捏萍。由于對于同一個數(shù)據(jù)集太抓,不同的方法可能產(chǎn)生截然不同的結(jié)果,因此一系列的方法和參 數(shù)設(shè)置需要進(jìn)行比較測試以評估其魯棒性(robustness)令杈。
4. 注釋
scRNA-seq 數(shù)據(jù)分析中最具挑戰(zhàn)性的任務(wù)可以說是聚類簇注釋走敌。獲得細(xì)胞簇方法非常直接,但是要
確定每個簇代表的細(xì)胞類型或細(xì)胞狀態(tài)則更加困難逗噩。完成這個工作需要彌合當(dāng)前數(shù)據(jù)集和先驗生物學(xué)知識之間的鴻溝掉丽,而后者并不總能以一致和定量的方式獲得。因此给赞,對 scRNA-seq 數(shù)據(jù)的注釋通常是手動的机打,并且是分析流程中的常見瓶頸。
為了加快此步驟片迅,可以應(yīng)用各種計算方法利用先驗信息為新的 scRNA-seq 數(shù)據(jù)集賦予生物意義残邀。先驗信息的最明顯來源是與特定生物學(xué)過程相關(guān)的認(rèn)證基因集(例如,來自GO或 KEGG 通路信息)。另一種方法是將表達(dá)譜與已發(fā)布的經(jīng)過領(lǐng)域?qū)<易鲞^注釋的參考數(shù)據(jù)集直接進(jìn)行比較芥挣。
基因集富集
經(jīng)典基因集富集(GSE)方法的優(yōu)點(diǎn)是不需要參考表達(dá)值驱闷。當(dāng)處理來自文獻(xiàn)或其他定性形式的生物學(xué)知識的基因集時,這特別有用空免。在細(xì)胞注釋時空另,通常在一組細(xì)胞(或簇)上執(zhí)行 GSE 分析以識別這些細(xì)胞富集的基因集或生物通路。然后可以根據(jù)富集的通路推導(dǎo)細(xì)胞類型(或狀態(tài))蹋砚。
Bioconductor 提供了專用軟件包從數(shù)據(jù)庫(如 MSigDB扼菠、KEGG、Reactome坝咐、GO)中獲得預(yù)定義的基因特征信息循榆。EnrichmentBrowser 簡化了從此類數(shù)據(jù)庫收集基因集的過程。最初為普通轉(zhuǎn)錄組數(shù)據(jù)開發(fā)的基因集富集分析方法也可應(yīng)用于 scRNA-seq 數(shù)據(jù)中特定基因模塊的富集墨坚。 EnrichmentBrowser
秧饮,EGSEA
和 fgsea
軟件包分別提供了一些經(jīng)典 GSE 分析的工具。在 MAST
泽篮、AUCell
和 slalom
中也有進(jìn)行 GSE 分析的方法盗尸。
自動化細(xì)胞注釋
從概念上講,最直接的注釋方法是將單細(xì)胞表達(dá)譜與先前注釋的參考數(shù)據(jù)集進(jìn)行比較帽撑。然后泼各,根據(jù)最相似的參考樣本或某些其他相似性指標(biāo),將生物標(biāo)簽分配給待確認(rèn)的細(xì)胞油狂。這是 一個常見的分類問題历恐,可以通過標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)技術(shù)如隨機(jī)森林和支持向量機(jī)來解決。任何公開且?guī)в袠?biāo)簽的 RNA-seq 數(shù)據(jù)集(普通或單細(xì)胞的)都可以用作參考专筷,其可靠性在很大程度上取決于給參考集細(xì)胞進(jìn)行注釋的原始作者的專業(yè)性弱贼。
SingleR
方法提供了一種用于細(xì)胞類型注釋的自動化系統(tǒng)。SingleR 基于具有最高 Spearman 相關(guān)性的參考樣本標(biāo)記細(xì)胞磷蛹,因此可以認(rèn)為是 k-近鄰分類的排序變體吮旅。為了減少噪聲,SingleR 可以識別兩組細(xì)胞之間的標(biāo)記基因味咳,并僅使用那些標(biāo)記基因來計算相關(guān)性庇勃。程序包中包含許多內(nèi)置參考數(shù)據(jù)集,這些數(shù)據(jù)集來自多個項目槽驶,包括免疫基因組計劃(ImmGen)责嚷,ENCODE 和免疫細(xì)胞表達(dá)數(shù)據(jù) 庫(DICE)。
5. Accessible analysis 分析工具易用性
隨著對單細(xì)胞測序數(shù)據(jù)的分析興趣日益濃厚掂铐,Bioconductor 不僅開發(fā)了分析數(shù)據(jù)的方法和軟件罕拂,而且還優(yōu)先考慮使數(shù)據(jù)本身和數(shù)據(jù)分析工具更易于用戶和開發(fā)人員使用揍异。具體而言,社區(qū)提供了數(shù)據(jù)包爆班,其中包含公開可用的已發(fā)布數(shù)據(jù)和模擬數(shù)據(jù)衷掷,以及交互式數(shù)據(jù)可視化工具。這樣可以使單細(xì)胞數(shù)據(jù)和數(shù)據(jù)分析工具更易于訪問柿菩,使研究人員可以在自己的工作中利用這些資源并使數(shù)據(jù)分析民主化(democratizes data analysis)戚嗅。
基準(zhǔn)測試
隨著新的單細(xì)胞檢測、統(tǒng)計方法和相應(yīng)軟件的開發(fā)枢舶,方便數(shù)據(jù)集的發(fā)布懦胞、再現(xiàn)現(xiàn)有分析以及實現(xiàn)新工具與現(xiàn)有工具的比較變得越來越重要。Bioconductor 收集了一系列數(shù)據(jù)包祟辟,著重于提供可以直接用于分析的帶有版本信息的數(shù)據(jù)医瘫,以及可用于復(fù)制手稿圖形和展示數(shù)據(jù)特征的手冊。
為了便于查詢 Bioconductor 上已發(fā)布的數(shù)據(jù)包旧困,ExperimentHub 包允許使用標(biāo)準(zhǔn)化接口以編程方式訪問已發(fā)布的數(shù)據(jù)集。值得注意的是稼锅,scRNAseq 軟件包可以從各種來源獲得校正過的高質(zhì)量 scRNA-seq 數(shù)據(jù)集吼具。另外,模擬數(shù)據(jù)集對評判軟件也很有幫助矩距。
另外拗盒,splatter 包可以模擬包含多種細(xì)胞類型、批次效應(yīng)锥债、不同水平的 drop-out 事件陡蝇、差異基因表 達(dá)和軌跡的模擬 scRNA-seq 數(shù)據(jù)集。splatter 包使用自己的模擬策略框架哮肚,并整合其它不同模型的模擬策略以提供全面的單細(xì)胞模擬數(shù)據(jù)資源登夫。
為了提高評估單細(xì)胞方法性能的基準(zhǔn)比較的可重復(fù)性,Bioconductor 開發(fā)了存儲不同方法比較結(jié)果 的基本架構(gòu)允趟。SummarizedBenchmark 和 CellBench 軟件包提供了用于存儲元數(shù)據(jù)(方法參數(shù)和軟件包版本)和評估指標(biāo)的接口恼策。
交互式數(shù)據(jù)可視化
網(wǎng)絡(luò)技術(shù)的成熟為交互式數(shù)據(jù)探索開辟了新的途徑,而 R 包 shiny 則有助于開發(fā)豐富的圖形用戶界面潮剪。iSEE 和 singleCellTK 軟件包為通過 Internet 瀏覽器對 scRNAseq 數(shù)據(jù)集進(jìn)行交互可視化提供了全功能的應(yīng)用程序涣楷,消除了對編程經(jīng)歷的需求。如果實例托管在 Web 上抗碰,則無需編程經(jīng)驗狮斗。這兩個軟件包都直接與 SingleCellExperiment 數(shù)據(jù)容器連接以便促進(jìn) scRNA-seq 分析結(jié)果的交流。
5. 展望
自從基因組學(xué)問世以來弧蝇,Bioconductor 項目就已經(jīng)通過 R 統(tǒng)計編程語言擁抱了開源和開放軟件的開 發(fā)碳褒。Bioconductor 已建立協(xié)調(diào)包版本和代碼審查的最佳實踐折砸。除了社區(qū)貢獻(xiàn)的軟件包,核心開發(fā)團(tuán)隊(https://www.bioconductor.org/about/core-team)開發(fā)并維護(hù)必要的基礎(chǔ)架構(gòu)骤视,并審核提交的軟件包鞍爱,以確保它們滿足一套指導(dǎo)原則和保證各個軟件包之間的兼容性。這些軟件包被組織到 BiocViews 中专酗,一個按任務(wù)或技術(shù)對軟件包進(jìn)行分類的主題注釋庫睹逃。例如,單細(xì)胞分析主題在視圖 SingleCell 下標(biāo)記祷肯。最重要的是沉填,更廣泛的 Bioconductor 社區(qū)(包括論壇、Slack 或郵件列表)是代碼共享和技術(shù)幫助中無私的典范佑笋。這些實踐共同產(chǎn)生了高質(zhì)量翼闹、維護(hù)良好的軟件包,為生物學(xué)研究提供了一個統(tǒng)一而穩(wěn)定的分析環(huán)境蒋纬。
最近猎荠,Bioconductor 社區(qū)開發(fā)了最新的計算方法、數(shù)據(jù)結(jié)構(gòu)和交互式數(shù)據(jù)可視化工具用于分析從單細(xì)胞實驗中獲得的數(shù)據(jù)蜀备。新興的單細(xì)胞技術(shù)关摇,包括表觀基因組學(xué)、T細(xì)胞和B細(xì)胞文庫碾阁、空間轉(zhuǎn)錄組譜分析和基于測序的蛋白質(zhì)譜分析输虱,希望能推動計算生物學(xué)的發(fā)展。特別是脂凶,支持多組學(xué)分析的技術(shù)正在迅速發(fā)展宪睹,Bioconductor 為研發(fā)用于此類技術(shù)分析的統(tǒng)計方法奠定了必要的基礎(chǔ)。
此外蚕钦,Bioconductor 的標(biāo)準(zhǔn)化數(shù)據(jù)容器可實現(xiàn) Bioconductor 軟件包以及與其他軟件之間的互操作性亭病。可以將存儲在 SingleCellExperiment 中的數(shù)據(jù)轉(zhuǎn)換為 Seurat冠桃、Monocle 和 Python 的 scanpy 可用的格式命贴,從而可以使用最能滿足當(dāng)前分析目標(biāo)的工具。實際上食听,R 與其他編程語言有著很長的互操作性歷史胸蛛。有四個例子,Rcpp 用于將 C++編譯后的代碼集成到 R 軟件包中樱报,rJava 軟件包用于 從 R 中調(diào)用 Java 代碼的葬项,R 中的.Fortran()函數(shù)可以調(diào)用Fortran 代碼,reticulate 包與 Python 互通迹蛤。
這種互操作性使常見的機(jī)器學(xué)習(xí)框架(例如 TensorFlow/Keras)可以直接在 R 中使用民珍。
對于新手來說襟士,Bioconductor 中能進(jìn)行大量單細(xì)胞分析的數(shù)量眾多的程序包可能令人望而生畏。為了解決單細(xì)胞分析中越來越多軟件包的選擇問題嚷量,我們總結(jié)并強(qiáng)調(diào)了當(dāng)前最先進(jìn)的數(shù)據(jù)基礎(chǔ)架構(gòu)陋桂、 方法和軟件,并按照典型的單細(xì)胞分析流程組織了這些軟件包蝶溶。最后嗜历,我們開發(fā)了在線的配套書籍,其中提供了有關(guān)各個分析主題的更詳細(xì)信息以及完整的代碼流程 (https://osca.bioconductor.org)抖所。隨著新軟件包的出現(xiàn)梨州,這套在線書籍將會被不斷更新和維護(hù),促進(jìn) Bioconductor 資源更方便使用田轧。