2.3 基于液滴的scRNA-seq數(shù)據(jù)的比對和定量
2.3.1 一般注意事項
單細(xì)胞RNA測序數(shù)據(jù)在許多方面與bulk RNA測序不同。大多數(shù)scRNA-seq技術(shù)生成的read序列包含三個關(guān)鍵信息:
- 識別RNA轉(zhuǎn)錄本的cDNA片段合愈;
- 細(xì)胞barcode(CB)用于識別表達(dá)RNA的細(xì)胞回懦;
- 唯一分子標(biāo)識符 (UMI) 用于處理PCR重復(fù)read。
與bulk RNA測序相比铅搓,scRNA-seq處理的RNA量要少得多,并且進(jìn)行更多的PCR循環(huán)。因此胡桨,UMI變得非常有用,并且在scRNA-seq中被廣泛接受瞬雹。文庫測序通常采用雙端測序昧谊,其中一個read包含CB+UMI,另一個read包含實際轉(zhuǎn)錄本序列酗捌。
典型的scRNA-seq工作流程包含四個主要步驟:
- 將cDNA片段比對到參考基因組呢诬;
- 將read分配給基因;
- 將read分配給細(xì)胞(細(xì)胞barcode分離)胖缤;
- 計算獨特RNA分子的數(shù)量(UMI去重復(fù))尚镰。
該過程的結(jié)果是基因/細(xì)胞計數(shù)矩陣,用于估計每個基因在每個細(xì)胞中的RNA分子數(shù)量哪廓。
2.3.2 Cell Ranger中的read比對
Cell Ranger是處理10x Genomics Chromium scRNA-seq數(shù)據(jù)的默認(rèn)工具狗唉。它使用STAR比對,對read進(jìn)行剪接感知比對涡真。此后分俯,它使用轉(zhuǎn)錄注釋GTF將read分為外顯子、內(nèi)含子和基因間區(qū)哆料。如果read至少有50%與外顯子重疊缸剪,則該read為外顯子;如果read是非外顯子且與內(nèi)含子重合东亦,則該read為內(nèi)含子杏节;否則為基因間區(qū)read。Read類型分配之后典阵,進(jìn)行比對質(zhì)量調(diào)整:對于與單個外顯子基因座比對上但也與1個或多個非外顯子基因座比對上的read奋渔,則優(yōu)先考慮外顯子基因座,并且認(rèn)為該read已可信地比對到外顯子基因座壮啊,并給予最高比對質(zhì)量分?jǐn)?shù)嫉鲸。
Cell Ranger通過檢查read與轉(zhuǎn)錄組的兼容性,進(jìn)一步將高可信的外顯子和內(nèi)含子read與注釋的轉(zhuǎn)錄本比對他巨。根據(jù)read是否為正義或反義充坑,以及是否為外顯子、內(nèi)含子或它們的剪接模式是否與該基因的轉(zhuǎn)錄兼容來對read進(jìn)行分類染突。默認(rèn)情況下,轉(zhuǎn)錄組read(上圖中的藍(lán)色)會進(jìn)行UMI計數(shù)辈灼。
當(dāng)數(shù)據(jù)來自細(xì)胞核時份企,很大比例的read來自未剪接的轉(zhuǎn)錄本并與內(nèi)含子比對上。為了計算這些內(nèi)含子read巡莹,可以使用選項include-introns運(yùn)行“cellranger count”和“cellranger multi”流程司志。如果使用此選項甜紫,則任何以正義鏈方向比對到單個基因的read——包括上圖中標(biāo)記為轉(zhuǎn)錄組(藍(lán)色)、外顯子(淺藍(lán)色)和內(nèi)含子(紅色)的read——都將進(jìn)行UMI計數(shù)骂远。包含內(nèi)含子選項消除了對將整個基因體定義為外顯子的自定義“pre-mRNA”參考的需要囚霸。重要的是,如果read僅與單個基因兼容激才,則認(rèn)為該read具有唯一比對拓型。只有唯一比對read才會進(jìn)行UMI計數(shù);多比對read會被 Cell Ranger丟棄瘸恼。在Web Summary HTML輸出中劣挫,結(jié)轉(zhuǎn)到UMI計數(shù)的read集被稱為“Reads mapped confidently to transcriptome”。
2.3.3 Cell Ranger參考基因組制備
在深入了解參考基因組處理的細(xì)節(jié)之前东帅,重要的是要注意如何準(zhǔn)備默認(rèn)的Cell Ranger人類和小鼠參考基因組压固。所有版本均使用主要基因組組裝版本(即沒有ALT基因座)進(jìn)行比對。使用可以在https://support.10xgenomics.com/single-cell-gene-expression/software/release-notes/build#header找到的腳本來過濾注釋GTF文件靠闭。保留以下類型:蛋白質(zhì)編碼帐我、長鏈非編碼 RNA、反義以及屬于BCR/TCR(即V/D/J)基因的所有類型(請注意愧膀,較舊的Cell Ranger參考基因組版本不包括后者)焚刚。所有假基因和小的非編碼RNA都被去除。
Cell Ranger預(yù)先打包了多個版本的參考基因組扇调;2020-A是迄今為止最新版本的參考基因組矿咕。Cell Ranger以前使用的所有單獨的組裝和注釋組合都列在下面。預(yù)計使用每個參考基因組生成的未過濾的scRNA-seq表達(dá)矩陣包含與“Genes after filtering”列中的值相等的行數(shù)狼钮。此外碳柱,Cell Ranger還包含人類+小鼠組合參考基因組,這對于涉及人類和小鼠細(xì)胞的實驗很有用熬芜。
2.3.4 Chromium版本和細(xì)胞barcode白名單
細(xì)胞barcode序列是附著在bead上的合成序列莲镣,用于識別單個細(xì)胞。唯一序列庫稱為白名單涎拉,取決于Chromium文庫制備試劑盒版本瑞侮。白名單文件可從Cell Ranger知識庫獲取。Chromium使用的白名單有三個:737K-april-2014_rc.txt鼓拧、737K-august-2016.txt和3M-february-2018.txt半火。第一個列表中的CB長14bp,另外兩個CB長16bp季俩。下表提供了常見的10x單細(xì)胞測序試劑盒的細(xì)胞barcode和UMI長度以及對應(yīng)的白名單文件:
Cell Ranger使用以下算法來根據(jù)白名單糾正假定的barcode序列:
- 統(tǒng)計白名單中每個barcode在數(shù)據(jù)集中的觀測頻率钮糖;
- 對于數(shù)據(jù)集中每個不在白名單中的barcode,找到漢明距離為1的白名單序列酌住。對于每個這樣的序列:
- 計算觀察到的barcode源自白名單條形碼且在不同堿基處存在測序錯誤的后驗概率(基于堿基Q分?jǐn)?shù))店归;
- 用后驗概率最高的白名單barcode(超過0.975)替換觀察到的barcode阎抒。
更正后的barcode用于所有下游分析和輸出文件。在輸出的BAM文件中消痛,原始未校正的barcode編碼在CR標(biāo)簽中且叁,校正后的barcode序列編碼在CB標(biāo)簽中。無法分配正確barcode的read將沒有CB標(biāo)簽秩伞。如果你想知道為什么3M-february-2018.txt文件實際上包含超過600萬個唯一序列逞带,可以在https://kb.10xgenomics.com/hc/en-us/articles/360031133451-Why-is-there-a-discrepancy-in-the-3M-february-2018-txt-barcode-whitelist-找到解釋。
2.3.5 UMI計數(shù)
通常所說的“UMI計數(shù)”包括read計數(shù)稠歉,然后根據(jù)UMI序列進(jìn)行PCR重復(fù)去除掰担。在UMI計數(shù)之前,Cell Ranger會嘗試糾正UMI序列中的測序錯誤怒炸。已可靠比對到轉(zhuǎn)錄組的read被放入共享相同barcode带饱、UMI和基因注釋的組中。如果兩組read具有相同的barcode和基因阅羹,但它們的UMI相差一個堿基(即漢明距離相隔1)勺疼,那么其中一個UMI可能是由測序中的替換錯誤引入的。在這種情況下捏鱼,支持較少的read組的UMI被更正為支持較高的UMI执庐。
Cell Ranger再次根據(jù)barcode、UMI(可能已更正)和基因注釋對read進(jìn)行分組导梆。如果兩組或多組read具有相同的barcode和UMI轨淌,但基因注釋不同,則保留支持read最多的基因注釋進(jìn)行UMI計數(shù)看尼,其他read組則丟棄递鹉。如果最大read支持度相同,則所有read組都會被丟棄藏斩,因為無法可信地分配基因躏结。
經(jīng)過這兩個過濾步驟后,每個觀察到的barcode狰域、UMI媳拴、基因組合都會被記錄為未過濾的即基因細(xì)胞矩陣中的UMI計數(shù)。支持每個計數(shù)的UMI的read數(shù)也記錄在分子信息文件中兆览。
2.3.6 細(xì)胞過濾
未過濾的基因細(xì)胞矩陣包含許多實際上是空液滴的列屈溉。由于技術(shù)噪聲,這些液滴中的基因表達(dá)計數(shù)不為零拓颓。然而语婴,它們通常可以通過存在的RNA數(shù)量與真正的細(xì)胞區(qū)分開來驶睦。Cell Ranger中有兩種算法實現(xiàn)這種細(xì)胞過濾砰左,我們將其稱為“Cell Ranger 2.2”和“Cell Ranger 3.0”過濾。
Cell Ranger 2.2在“barcode計數(shù)與每個barcode的 UMI”圖中識別出了第一個“拐點”场航。Cell Ranger 3.0引入了一種改進(jìn)的細(xì)胞識別算法缠导,該算法能夠更好地識別低RNA含量細(xì)胞群,尤其是當(dāng)?shù)蚏NA含量細(xì)胞混入高RNA含量細(xì)胞群中時溉痢。例如僻造,腫瘤樣本通常含有較大的腫瘤細(xì)胞與較小的腫瘤浸潤淋巴細(xì)胞(TIL)混合,研究人員可能對TIL群體特別感興趣孩饼。新算法基于EmptyDrops方法(Lun et al.髓削,2018)。
2.3.7 基于偽比對的方法
偽比對也可用于快速量化scRNA-seq數(shù)據(jù)集镀娶。目前立膛,有兩個軟件套件實現(xiàn)了這種方法:kallisto/BUStools和Salmon/Alevin/Alevin-fry。為了保留模塊化方法梯码,兩個生態(tài)系統(tǒng)都引入了自己的格式用于存儲定量結(jié)果:kallisto/BUStools引入了BUS(barcode宝泵、UMI和Set)文件格式(Melsted等,2019)轩娶,而Alevin/Alevin-fry使用RAD格式來實現(xiàn)相同目的(Srivastava等儿奶,2019)。
kallisto/BUStools和Alevin/Alevin-fry都實現(xiàn)了各自的細(xì)胞barcode和UMI糾錯和分離算法——例如鳄抒,Alevin不需要(但可以使用)細(xì)胞barcode白名單闯捎。然而,與基于比對的方法最大的區(qū)別在于偽比對的準(zhǔn)確性較低许溅,并且包含多比對read瓤鼻。
kallisto/BUStools支持許多測序技術(shù),包括CEL-seq闹司、CEL-seq2和SMART-seq等低通量技術(shù)娱仔。可以使用kb --list打印受支持的實驗的完整列表游桩。Alevin目前僅支持兩種最流行的基于液滴的單細(xì)胞方法牲迫,即Drop-seq和10x Chromium。
總體而言借卧,kallisto/BUStools和Alevin效率極高盹憎,允許使用2-4 Gb RAM處理人類或小鼠數(shù)據(jù)集,并且速度至少比Cell Ranger快一個數(shù)量級铐刘。這兩種工具還能正確處理多比對read陪每,從而減少受影響基因的定量偏差。然而,一些出版物指出檩禾,基于偽比對的方法會錯誤地將保留內(nèi)含子的read比對到轉(zhuǎn)錄組(Melsted等挂签,2021;Srivastava等盼产,2020)饵婆。眾所周知,scRNA-seq實驗戏售,尤其是單核RNA-seq可以包含非常高比例的保留內(nèi)含子的轉(zhuǎn)錄本侨核。這種錯誤的分配使得數(shù)百個未表達(dá)的基因看起來微弱表達(dá),這可能會嚴(yán)重影響下游分析灌灾,特別是marker選擇(Kaminow等搓译,2021)。因此锋喜,我們?nèi)栽谂﹂_發(fā)至少與Cell Ranger一樣準(zhǔn)確且速度更快的方法些己。
2.4 STARsolo和Alevin-full-decoy:高速、高精度
STARsolo是一個獨立的流程跑芳,是本章前面提到的STAR RNA-seq比對軟件的一部分轴总。它的開發(fā)目標(biāo)是生成與Cell Ranger非常相似的結(jié)果,同時保持計算效率博个。通常怀樟,STARsolo在相同數(shù)據(jù)集上比Cell Ranger快幾倍。STARsolo的UMI去重盆佣、細(xì)胞barcode分離和細(xì)胞過濾方法有意重新使用Cell Ranger的算法往堡。從STAR 2.7.9a版本開始,STARsolo還能夠正確定量多比對read共耍,使其成為快速準(zhǔn)確的scRNA-seq處理的非常有吸引力的選擇(Kaminow等虑灰,2021)。STARsolo的另一個好處是它可以靈活地實現(xiàn)細(xì)胞barcode和UMI搜索:了解其在read內(nèi)的相對位置和每個序列的長度痹兜,就可以處理大多數(shù)scRNA-seq方法生成的數(shù)據(jù)穆咐。
Alevin的開發(fā)人員也認(rèn)識到了上述內(nèi)含子read的問題,并開發(fā)了一種特殊的解決方案字旭,即使用所謂的誘餌序列对湃。在最近的STARsolo預(yù)印本中,帶有全基因組誘餌的Alevin表現(xiàn)出與STARsolo或Cell Ranger非常相似的準(zhǔn)確性(Kaminow等遗淳,2021)拍柒。
2.5 非模式生物
使用單細(xì)胞RNA測序來表征鮮為人知的多細(xì)胞生物正變得越來越流行,尤其是作為重要物種de novo基因組組裝項目的一部分屈暗。這里有兩點需要注意拆讯。首先脂男,正確組裝和注釋良好的線粒體序列至關(guān)重要,因為線粒體read構(gòu)成了每個scRNA-seq文庫的很大一部分种呐,并且廣泛用于實驗質(zhì)量控制宰翅。最近的努力整理了許多非模型脊椎動物的線粒體序列(Formenti等,2021)陕贮。MITOS2是一個專門的服務(wù)器堕油,可用于自動生成高質(zhì)量的后生動物線粒體注釋潘飘。
其次肮之,值得注意的是,大多數(shù)de novo測序基因組的注釋方法生成的基因模型不包含UTR序列卜录。3’和5’ scRNA-seq方法的read分布都嚴(yán)重偏向基因的兩端戈擒。因此,使用沒有UTR序列的基因注釋將會極大地扭曲量化和分析的結(jié)果艰毒。
2.6 小結(jié)及建議
Cell Ranger是10x Genomics提供的默認(rèn)軟件筐高,它仍然是read比對和定量最廣泛使用的工具。如果您缺乏生物信息學(xué)經(jīng)驗丑瞧,或者使用Cell Ranger處理了許多其他樣本柑土,請堅持使用它。推薦使用最新的Cell Ranger版本及其附帶的最新注釋文件绊汹。同時稽屏,STARsolo和Alevin-full_decoy提供了巨大的計算加速和多比對的正確處理,從而減少了定量偏差西乖,同時保持了與Cell Ranger的高度兼容性狐榔。對于有終端工具使用經(jīng)驗的用戶來說,它們可能是最好的選擇获雕。最后薄腻,如果您正在處理注釋不充分的基因組,請確保您的基因模型包含UTR届案,并且擁有組裝良好且注釋良好的線粒體庵楷。
往期內(nèi)容:
重生之我在劍橋大學(xué)學(xué)習(xí)單細(xì)胞RNA-seq分析——1. 單細(xì)胞RNA測序介紹(1)
重生之我在劍橋大學(xué)學(xué)習(xí)單細(xì)胞RNA-seq分析——1. 單細(xì)胞RNA測序介紹(2)
重生之我在劍橋大學(xué)學(xué)習(xí)單細(xì)胞RNA-seq分析——2. scRNA-Seq原始測序數(shù)據(jù)處理(1)