重生之我在劍橋大學學習單細胞RNA-seq分析——2. scRNA-Seq原始測序數(shù)據(jù)處理(1)

2.1 參考基因組及其注釋
大多數(shù)scRNA-seq實驗都是使用人類或小鼠組織、類器官或細胞培養(yǎng)物進行的鸭廷。盡管這些基因組的初稿大約在20年前就已發(fā)布,但組裝和注釋的更新卻相當頻繁。有兩種流行的組裝文件來源:UCSC(其組裝名為hg19训唱、hg38玫霎、mm10等)和GRC(GRCh37凿滤、GRCh38、GRCm38)庶近。UCSC和GRC組裝的主要版本在主染色體上是匹配的(例如翁脆,來自hg38的chr1=來自GRCh38的chr1),但在額外的contig和所謂的ALT基因座上有所不同鼻种,這些基因座在次要版本之間會發(fā)生變化(例如反番,GRCh38.p13)〔嬖浚基因組組裝通常以fasta文件的形式分發(fā)——這是一種包含序列名稱和序列的簡單文本文件罢缸。
基因組注釋過程包括定義基因組的轉(zhuǎn)錄區(qū)域(基因),以及用外顯子-內(nèi)含子邊界注釋精確的轉(zhuǎn)錄本投队,并為新定義的特征分配類型枫疆,例如編碼蛋白質(zhì)、非編碼等敷鸦。下面的例子顯示一個具有5個轉(zhuǎn)錄本的基因:3個蛋白質(zhì)編碼(紅色)和2個非編碼(藍色)息楔∏薰保基因組注釋通常以GTF或GFF3文件格式提供,它們按層次結(jié)構(gòu)組織钞螟。每個基因由一個唯一的基因ID定義兔甘;每個轉(zhuǎn)錄本由一個唯一的轉(zhuǎn)錄本ID及其所屬的基因定義。外顯子鳞滨、UTR和編碼序列依次分配給特定的轉(zhuǎn)錄本洞焙。

典型真核基因的轉(zhuǎn)錄本和內(nèi)含子-外顯子結(jié)構(gòu)

人類和小鼠基因組注釋的普遍來源是RefSeq、ENSEMBL和GENCODE拯啦。RefSeq是三者中最保守的澡匪,并且每個基因的注釋轉(zhuǎn)錄本數(shù)量往往最少。RefSeq轉(zhuǎn)錄本ID以NM_或NR開頭褒链,例如NM_12345唁情。ENSEMBL和GENCODE非常相似,可以互換使用甫匹。其中基因名稱以ENSG(人類)和ENSMUSG(小鼠)開頭甸鸟;轉(zhuǎn)錄本分別以ENST和ENSMUST開頭。
除了基因ID之外兵迅,大多數(shù)基因還具有分配給它們的通用名稱(“gene symbol”)抢韭;例如,人類肌動蛋白B的ENSEMBL基因ID為ENSG00000075624恍箭,名稱為ACTB刻恭。人類基因名稱由HGNC定期更新和定義,小鼠基因名稱由類似的聯(lián)盟MGI決定扯夭。
目前ENSEMBL/GENCODE對人類基因組的注釋含有大約60k個基因鳍贾,其中20k是蛋白質(zhì)編碼基因,還有237k個轉(zhuǎn)錄本交洗。大多數(shù)基因根據(jù)類型可粗略分為蛋白質(zhì)編碼基因骑科、長鏈非編碼RNA、短鏈非編碼RNA和假基因构拳。在更高的分辨率下咆爽,定義了超過40種類型(biotype)∫基因類型注釋在注釋版本之間也經(jīng)常發(fā)生變化。

GENCODE版本中基因類型變化的申瑁基圖

2.2 Bulk RNA-seq和全長scRNA-seq數(shù)據(jù)的處理
Bulk RNA-seq的原始read處理通常分兩個步驟完成:read比對和read計數(shù)暇藏。這兩個步驟都可能嚴重影響單個基因的表達估計”艚可以針對參考基因組或轉(zhuǎn)錄組進行read比對盐碱。由于動物基因組中存在廣泛的剪接把兔,因此必須使用剪接感知的比對軟件對基因組進行read比對;兩種最流行的工具是STAR和hisat2瓮顽。典型的read覆蓋率如下圖A所示县好;請注意计螺,read覆蓋率在給定基因的3’和5’端相對均勻鳖粟。一些read與1個以上的位置完美比對;這些read通常被稱為多比對救湖。與轉(zhuǎn)錄組比對時拣播,模糊性要大得多晾咪,因為許多轉(zhuǎn)錄本彼此非常相似;然而贮配,即使在基因水平上谍倦,模糊性也是顯而易見的(下圖B)。

A:Bulk RNA測序或Smart-seq2中的典型read覆蓋率泪勒;B:將read分配給基因時出現(xiàn)的歧義類型

與基因組或轉(zhuǎn)錄組比對后昼蛀,可以按基因或轉(zhuǎn)錄本水平匯總read計數(shù)。在基因組比對中圆存,最簡單的策略是僅計算比對到唯一位置(非多比對)并且僅與一個基因重疊的read叼旋。然而,這不可避免地會造成基因表達估計的偏差(Pachter辽剧,2011)送淆。稍微高級一些的策略包括在比對上的基因之間分割read計數(shù)(例如,如果read與3個旁系同源基因都比對上怕轿,則每個旁系同源物獲得?的計數(shù))偷崩。當重疊位置位于反義鏈上時,鏈特異性RNA測序可以減少read分配的模糊性撞羽〔保可以有效實現(xiàn)上述所有計數(shù)方法的程序的一個示例是Subread包中的featureCounts。
當使用轉(zhuǎn)錄組比對時诀紊,read分配歧義太大谒出,無法進行簡單計數(shù)。因此邻奠,使用期望最大化(EM)算法的最大似然豐度估計來計算每個轉(zhuǎn)錄本和每個基因的豐度笤喳。這種方法可以將不同比例的read分配給它所比對的基因,從而大大減少與多比對相關(guān)的偏差碌宴。然后在基因水平上總結(jié)分配給轉(zhuǎn)錄本的read(和read分數(shù))杀狡。實施該策略的最廣泛使用和支持良好的程序是RSEM。一般來說贰镣,這是Bulk RNA測序定量最準確的方法(Pachter呜象,2011)膳凝。
上述傳統(tǒng)方法(比對,然后定量)的替代方法基于所謂的偽比對方法恭陡。兩種常見的工具kallisto和salmon采用非常相似的方法:

  • 將參考轉(zhuǎn)錄組拆分為k-mers并制作De Bruijn圖蹬音;
  • 將RNA-seq read轉(zhuǎn)換為k-mers;
  • 使用k-mers將read分配給一個或多個轉(zhuǎn)錄本(“等價類”)休玩;
  • 在轉(zhuǎn)錄本或基因水平上總結(jié)結(jié)果計數(shù)著淆。
    期望最大化算法用于尋找比對到多個轉(zhuǎn)錄本的read的最佳分布。這兩種工具的內(nèi)存和CPU效率都極高哥捕,而且非常準確牧抽,尤其是對于雙端或長單端read。偽比對不會生成比對BAM文件遥赚,因此如果需要可視化扬舒,也應(yīng)單獨進行比對。
與轉(zhuǎn)錄組De Bruijn圖的偽比對

關(guān)于bulk RNA測序定量凫佛,有幾點需要注意讲坎。首先,通常假設(shè)測序的cDNA片段的數(shù)量與細胞中存在的RNA量成正比愧薛。因此晨炕,當使用雙端read時,每個read對僅計數(shù)一次毫炉,因為它源自相同的cDNA片段瓮栗。對于像人類和小鼠這樣注釋良好的基因組,使用單端read進行RNA測序是非常常見的瞄勾。其次费奸,在bulk RNA測序中,PCR重復(fù)通常會被忽略进陡,而且UMI的使用也不會帶來實質(zhì)性的好處愿阐。幾項獨立研究表明,重復(fù)刪除或使用UMI并不能明顯提高bulk RNA測序的統(tǒng)計能力趾疚。
最后缨历,雖然許多篩選差異表達的方法使用原始read計數(shù),但在進行聚類糙麦、PCA和其他類型的探索性分析時通常使用樣本內(nèi)標準化辛孵。這種標準化的最流行方法是將原始read轉(zhuǎn)換為TPM。轉(zhuǎn)換考慮了兩個偏差:1)不同樣本的測序深度不同赡磅,與基因表達差異無直接關(guān)系魄缚;2)長基因預(yù)計會比短基因產(chǎn)生更多的cDNA片段。因此仆邓,對于TPM計算鲜滩,原始read計數(shù)首先除以有效轉(zhuǎn)錄本長度,其定義為轉(zhuǎn)錄本長度-cDNA片段大小+1节值。此后徙硅,結(jié)果值按線性比例縮放,總計為一百萬搞疗。因此嗓蘑,特定樣本的所有TPM值的總和始終等于(約)1,000,000。

往期內(nèi)容:
重生之我在劍橋大學學習單細胞RNA-seq分析——1. 單細胞RNA測序介紹(1)
重生之我在劍橋大學學習單細胞RNA-seq分析——1. 單細胞RNA測序介紹(2)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末匿乃,一起剝皮案震驚了整個濱河市桩皿,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌幢炸,老刑警劉巖泄隔,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異宛徊,居然都是意外死亡佛嬉,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進店門闸天,熙熙樓的掌柜王于貴愁眉苦臉地迎上來暖呕,“玉大人,你說我怎么就攤上這事苞氮⊥謇浚” “怎么了?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵笼吟,是天一觀的道長库物。 經(jīng)常有香客問我,道長赞厕,這世上最難降的妖魔是什么艳狐? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮皿桑,結(jié)果婚禮上毫目,老公的妹妹穿的比我還像新娘。我一直安慰自己诲侮,他們只是感情好镀虐,可當我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著沟绪,像睡著了一般刮便。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绽慈,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天恨旱,我揣著相機與錄音辈毯,去河邊找鬼。 笑死搜贤,一個胖子當著我的面吹牛谆沃,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播仪芒,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼唁影,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了掂名?” 一聲冷哼從身側(cè)響起据沈,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎饺蔑,沒想到半個月后锌介,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡猾警,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年掏湾,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肿嘲。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡融击,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出雳窟,到底是詐尸還是另有隱情尊浪,我是刑警寧澤,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布封救,位于F島的核電站拇涤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏誉结。R本人自食惡果不足惜鹅士,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望惩坑。 院中可真熱鬧掉盅,春花似錦、人聲如沸以舒。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蔓钟。三九已至永票,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背侣集。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工键俱, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人世分。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓方妖,卻偏偏與公主長得像,于是被迫代替她去往敵國和親罚攀。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容