2.1 參考基因組及其注釋
大多數(shù)scRNA-seq實驗都是使用人類或小鼠組織、類器官或細胞培養(yǎng)物進行的鸭廷。盡管這些基因組的初稿大約在20年前就已發(fā)布,但組裝和注釋的更新卻相當頻繁。有兩種流行的組裝文件來源:UCSC(其組裝名為hg19训唱、hg38玫霎、mm10等)和GRC(GRCh37凿滤、GRCh38、GRCm38)庶近。UCSC和GRC組裝的主要版本在主染色體上是匹配的(例如翁脆,來自hg38的chr1=來自GRCh38的chr1),但在額外的contig和所謂的ALT基因座上有所不同鼻种,這些基因座在次要版本之間會發(fā)生變化(例如反番,GRCh38.p13)〔嬖浚基因組組裝通常以fasta文件的形式分發(fā)——這是一種包含序列名稱和序列的簡單文本文件罢缸。
基因組注釋過程包括定義基因組的轉(zhuǎn)錄區(qū)域(基因),以及用外顯子-內(nèi)含子邊界注釋精確的轉(zhuǎn)錄本投队,并為新定義的特征分配類型枫疆,例如編碼蛋白質(zhì)、非編碼等敷鸦。下面的例子顯示一個具有5個轉(zhuǎn)錄本的基因:3個蛋白質(zhì)編碼(紅色)和2個非編碼(藍色)息楔∏薰保基因組注釋通常以GTF或GFF3文件格式提供,它們按層次結(jié)構(gòu)組織钞螟。每個基因由一個唯一的基因ID定義兔甘;每個轉(zhuǎn)錄本由一個唯一的轉(zhuǎn)錄本ID及其所屬的基因定義。外顯子鳞滨、UTR和編碼序列依次分配給特定的轉(zhuǎn)錄本洞焙。
人類和小鼠基因組注釋的普遍來源是RefSeq、ENSEMBL和GENCODE拯啦。RefSeq是三者中最保守的澡匪,并且每個基因的注釋轉(zhuǎn)錄本數(shù)量往往最少。RefSeq轉(zhuǎn)錄本ID以NM_或NR開頭褒链,例如NM_12345唁情。ENSEMBL和GENCODE非常相似,可以互換使用甫匹。其中基因名稱以ENSG(人類)和ENSMUSG(小鼠)開頭甸鸟;轉(zhuǎn)錄本分別以ENST和ENSMUST開頭。
除了基因ID之外兵迅,大多數(shù)基因還具有分配給它們的通用名稱(“gene symbol”)抢韭;例如,人類肌動蛋白B的ENSEMBL基因ID為ENSG00000075624恍箭,名稱為ACTB刻恭。人類基因名稱由HGNC定期更新和定義,小鼠基因名稱由類似的聯(lián)盟MGI決定扯夭。
目前ENSEMBL/GENCODE對人類基因組的注釋含有大約60k個基因鳍贾,其中20k是蛋白質(zhì)編碼基因,還有237k個轉(zhuǎn)錄本交洗。大多數(shù)基因根據(jù)類型可粗略分為蛋白質(zhì)編碼基因骑科、長鏈非編碼RNA、短鏈非編碼RNA和假基因构拳。在更高的分辨率下咆爽,定義了超過40種類型(biotype)∫基因類型注釋在注釋版本之間也經(jīng)常發(fā)生變化。
2.2 Bulk RNA-seq和全長scRNA-seq數(shù)據(jù)的處理
Bulk RNA-seq的原始read處理通常分兩個步驟完成:read比對和read計數(shù)暇藏。這兩個步驟都可能嚴重影響單個基因的表達估計”艚可以針對參考基因組或轉(zhuǎn)錄組進行read比對盐碱。由于動物基因組中存在廣泛的剪接把兔,因此必須使用剪接感知的比對軟件對基因組進行read比對;兩種最流行的工具是STAR和hisat2瓮顽。典型的read覆蓋率如下圖A所示县好;請注意计螺,read覆蓋率在給定基因的3’和5’端相對均勻鳖粟。一些read與1個以上的位置完美比對;這些read通常被稱為多比對救湖。與轉(zhuǎn)錄組比對時拣播,模糊性要大得多晾咪,因為許多轉(zhuǎn)錄本彼此非常相似;然而贮配,即使在基因水平上谍倦,模糊性也是顯而易見的(下圖B)。
與基因組或轉(zhuǎn)錄組比對后昼蛀,可以按基因或轉(zhuǎn)錄本水平匯總read計數(shù)。在基因組比對中圆存,最簡單的策略是僅計算比對到唯一位置(非多比對)并且僅與一個基因重疊的read叼旋。然而,這不可避免地會造成基因表達估計的偏差(Pachter辽剧,2011)送淆。稍微高級一些的策略包括在比對上的基因之間分割read計數(shù)(例如,如果read與3個旁系同源基因都比對上怕轿,則每個旁系同源物獲得?的計數(shù))偷崩。當重疊位置位于反義鏈上時,鏈特異性RNA測序可以減少read分配的模糊性撞羽〔保可以有效實現(xiàn)上述所有計數(shù)方法的程序的一個示例是Subread包中的featureCounts。
當使用轉(zhuǎn)錄組比對時诀紊,read分配歧義太大谒出,無法進行簡單計數(shù)。因此邻奠,使用期望最大化(EM)算法的最大似然豐度估計來計算每個轉(zhuǎn)錄本和每個基因的豐度笤喳。這種方法可以將不同比例的read分配給它所比對的基因,從而大大減少與多比對相關(guān)的偏差碌宴。然后在基因水平上總結(jié)分配給轉(zhuǎn)錄本的read(和read分數(shù))杀狡。實施該策略的最廣泛使用和支持良好的程序是RSEM。一般來說贰镣,這是Bulk RNA測序定量最準確的方法(Pachter呜象,2011)膳凝。
上述傳統(tǒng)方法(比對,然后定量)的替代方法基于所謂的偽比對方法恭陡。兩種常見的工具kallisto和salmon采用非常相似的方法:
- 將參考轉(zhuǎn)錄組拆分為k-mers并制作De Bruijn圖蹬音;
- 將RNA-seq read轉(zhuǎn)換為k-mers;
- 使用k-mers將read分配給一個或多個轉(zhuǎn)錄本(“等價類”)休玩;
- 在轉(zhuǎn)錄本或基因水平上總結(jié)結(jié)果計數(shù)著淆。
期望最大化算法用于尋找比對到多個轉(zhuǎn)錄本的read的最佳分布。這兩種工具的內(nèi)存和CPU效率都極高哥捕,而且非常準確牧抽,尤其是對于雙端或長單端read。偽比對不會生成比對BAM文件遥赚,因此如果需要可視化扬舒,也應(yīng)單獨進行比對。
關(guān)于bulk RNA測序定量凫佛,有幾點需要注意讲坎。首先,通常假設(shè)測序的cDNA片段的數(shù)量與細胞中存在的RNA量成正比愧薛。因此晨炕,當使用雙端read時,每個read對僅計數(shù)一次毫炉,因為它源自相同的cDNA片段瓮栗。對于像人類和小鼠這樣注釋良好的基因組,使用單端read進行RNA測序是非常常見的瞄勾。其次费奸,在bulk RNA測序中,PCR重復(fù)通常會被忽略进陡,而且UMI的使用也不會帶來實質(zhì)性的好處愿阐。幾項獨立研究表明,重復(fù)刪除或使用UMI并不能明顯提高bulk RNA測序的統(tǒng)計能力趾疚。
最后缨历,雖然許多篩選差異表達的方法使用原始read計數(shù),但在進行聚類糙麦、PCA和其他類型的探索性分析時通常使用樣本內(nèi)標準化辛孵。這種標準化的最流行方法是將原始read轉(zhuǎn)換為TPM。轉(zhuǎn)換考慮了兩個偏差:1)不同樣本的測序深度不同赡磅,與基因表達差異無直接關(guān)系魄缚;2)長基因預(yù)計會比短基因產(chǎn)生更多的cDNA片段。因此仆邓,對于TPM計算鲜滩,原始read計數(shù)首先除以有效轉(zhuǎn)錄本長度,其定義為轉(zhuǎn)錄本長度-cDNA片段大小+1节值。此后徙硅,結(jié)果值按線性比例縮放,總計為一百萬搞疗。因此嗓蘑,特定樣本的所有TPM值的總和始終等于(約)1,000,000。
往期內(nèi)容:
重生之我在劍橋大學學習單細胞RNA-seq分析——1. 單細胞RNA測序介紹(1)
重生之我在劍橋大學學習單細胞RNA-seq分析——1. 單細胞RNA測序介紹(2)