重生之我在劍橋大學學習單細胞RNA-seq分析——2. scRNA-Seq原始測序數(shù)據(jù)處理（1）

2.1 參考基因組及其注釋
大多數(shù)scRNA-seq實驗都是使用人類或小鼠組織、類器官或細胞培養(yǎng)物進行的鸭廷。盡管這些基因組的初稿大約在20年前就已發(fā)布，但組裝和注釋的更新卻相當頻繁。有兩種流行的組裝文件來源：UCSC（其組裝名為hg19训唱、hg38玫霎、mm10等）和GRC（GRCh37凿滤、GRCh38、GRCm38）庶近。UCSC和GRC組裝的主要版本在主染色體上是匹配的（例如翁脆，來自hg38的chr1=來自GRCh38的chr1），但在額外的contig和所謂的ALT基因座上有所不同鼻种，這些基因座在次要版本之間會發(fā)生變化（例如反番，GRCh38.p13）〔嬖浚基因組組裝通常以fasta文件的形式分發(fā)——這是一種包含序列名稱和序列的簡單文本文件罢缸。
基因組注釋過程包括定義基因組的轉(zhuǎn)錄區(qū)域（基因），以及用外顯子-內(nèi)含子邊界注釋精確的轉(zhuǎn)錄本投队，并為新定義的特征分配類型枫疆，例如編碼蛋白質(zhì)、非編碼等敷鸦。下面的例子顯示一個具有5個轉(zhuǎn)錄本的基因：3個蛋白質(zhì)編碼（紅色）和2個非編碼（藍色）息楔∏薰保基因組注釋通常以GTF或GFF3文件格式提供，它們按層次結(jié)構(gòu)組織钞螟。每個基因由一個唯一的基因ID定義兔甘；每個轉(zhuǎn)錄本由一個唯一的轉(zhuǎn)錄本ID及其所屬的基因定義。外顯子鳞滨、UTR和編碼序列依次分配給特定的轉(zhuǎn)錄本洞焙。

典型真核基因的轉(zhuǎn)錄本和內(nèi)含子-外顯子結(jié)構(gòu)

人類和小鼠基因組注釋的普遍來源是RefSeq、ENSEMBL和GENCODE拯啦。RefSeq是三者中最保守的澡匪，并且每個基因的注釋轉(zhuǎn)錄本數(shù)量往往最少。RefSeq轉(zhuǎn)錄本ID以NM_或NR開頭褒链，例如NM_12345唁情。ENSEMBL和GENCODE非常相似，可以互換使用甫匹。其中基因名稱以ENSG（人類）和ENSMUSG（小鼠）開頭甸鸟；轉(zhuǎn)錄本分別以ENST和ENSMUST開頭。
除了基因ID之外兵迅，大多數(shù)基因還具有分配給它們的通用名稱（“gene symbol”）抢韭；例如，人類肌動蛋白B的ENSEMBL基因ID為ENSG00000075624恍箭，名稱為ACTB刻恭。人類基因名稱由HGNC定期更新和定義，小鼠基因名稱由類似的聯(lián)盟MGI決定扯夭。
目前ENSEMBL/GENCODE對人類基因組的注釋含有大約60k個基因鳍贾，其中20k是蛋白質(zhì)編碼基因，還有237k個轉(zhuǎn)錄本交洗。大多數(shù)基因根據(jù)類型可粗略分為蛋白質(zhì)編碼基因骑科、長鏈非編碼RNA、短鏈非編碼RNA和假基因构拳。在更高的分辨率下咆爽，定義了超過40種類型（biotype）∫基因類型注釋在注釋版本之間也經(jīng)常發(fā)生變化。

GENCODE版本中基因類型變化的申瑁基圖

2.2 Bulk RNA-seq和全長scRNA-seq數(shù)據(jù)的處理
Bulk RNA-seq的原始read處理通常分兩個步驟完成：read比對和read計數(shù)暇藏。這兩個步驟都可能嚴重影響單個基因的表達估計”艚可以針對參考基因組或轉(zhuǎn)錄組進行read比對盐碱。由于動物基因組中存在廣泛的剪接把兔，因此必須使用剪接感知的比對軟件對基因組進行read比對；兩種最流行的工具是STAR和hisat2瓮顽。典型的read覆蓋率如下圖A所示县好；請注意计螺，read覆蓋率在給定基因的3’和5’端相對均勻鳖粟。一些read與1個以上的位置完美比對；這些read通常被稱為多比對救湖。與轉(zhuǎn)錄組比對時拣播，模糊性要大得多晾咪，因為許多轉(zhuǎn)錄本彼此非常相似；然而贮配，即使在基因水平上谍倦，模糊性也是顯而易見的（下圖B）。

A：Bulk RNA測序或Smart-seq2中的典型read覆蓋率泪勒；B：將read分配給基因時出現(xiàn)的歧義類型

與基因組或轉(zhuǎn)錄組比對后昼蛀，可以按基因或轉(zhuǎn)錄本水平匯總read計數(shù)。在基因組比對中圆存，最簡單的策略是僅計算比對到唯一位置（非多比對）并且僅與一個基因重疊的read叼旋。然而，這不可避免地會造成基因表達估計的偏差（Pachter辽剧，2011）送淆。稍微高級一些的策略包括在比對上的基因之間分割read計數(shù)（例如，如果read與3個旁系同源基因都比對上怕轿，則每個旁系同源物獲得?的計數(shù)）偷崩。當重疊位置位于反義鏈上時，鏈特異性RNA測序可以減少read分配的模糊性撞羽〔保可以有效實現(xiàn)上述所有計數(shù)方法的程序的一個示例是Subread包中的featureCounts。
當使用轉(zhuǎn)錄組比對時诀紊，read分配歧義太大谒出，無法進行簡單計數(shù)。因此邻奠，使用期望最大化（EM）算法的最大似然豐度估計來計算每個轉(zhuǎn)錄本和每個基因的豐度笤喳。這種方法可以將不同比例的read分配給它所比對的基因，從而大大減少與多比對相關(guān)的偏差碌宴。然后在基因水平上總結(jié)分配給轉(zhuǎn)錄本的read（和read分數(shù)）杀狡。實施該策略的最廣泛使用和支持良好的程序是RSEM。一般來說贰镣，這是Bulk RNA測序定量最準確的方法（Pachter呜象，2011）膳凝。
上述傳統(tǒng)方法（比對，然后定量）的替代方法基于所謂的偽比對方法恭陡。兩種常見的工具kallisto和salmon采用非常相似的方法：

將參考轉(zhuǎn)錄組拆分為k-mers并制作De Bruijn圖蹬音；
將RNA-seq read轉(zhuǎn)換為k-mers；
使用k-mers將read分配給一個或多個轉(zhuǎn)錄本（“等價類”）休玩；
在轉(zhuǎn)錄本或基因水平上總結(jié)結(jié)果計數(shù)著淆。
期望最大化算法用于尋找比對到多個轉(zhuǎn)錄本的read的最佳分布。這兩種工具的內(nèi)存和CPU效率都極高哥捕，而且非常準確牧抽，尤其是對于雙端或長單端read。偽比對不會生成比對BAM文件遥赚，因此如果需要可視化扬舒，也應(yīng)單獨進行比對。

與轉(zhuǎn)錄組De Bruijn圖的偽比對

關(guān)于bulk RNA測序定量凫佛，有幾點需要注意讲坎。首先，通常假設(shè)測序的cDNA片段的數(shù)量與細胞中存在的RNA量成正比愧薛。因此晨炕，當使用雙端read時，每個read對僅計數(shù)一次毫炉，因為它源自相同的cDNA片段瓮栗。對于像人類和小鼠這樣注釋良好的基因組，使用單端read進行RNA測序是非常常見的瞄勾。其次费奸，在bulk RNA測序中，PCR重復(fù)通常會被忽略进陡，而且UMI的使用也不會帶來實質(zhì)性的好處愿阐。幾項獨立研究表明，重復(fù)刪除或使用UMI并不能明顯提高bulk RNA測序的統(tǒng)計能力趾疚。
最后缨历，雖然許多篩選差異表達的方法使用原始read計數(shù)，但在進行聚類糙麦、PCA和其他類型的探索性分析時通常使用樣本內(nèi)標準化辛孵。這種標準化的最流行方法是將原始read轉(zhuǎn)換為TPM。轉(zhuǎn)換考慮了兩個偏差：1）不同樣本的測序深度不同赡磅，與基因表達差異無直接關(guān)系魄缚；2）長基因預(yù)計會比短基因產(chǎn)生更多的cDNA片段。因此仆邓，對于TPM計算鲜滩，原始read計數(shù)首先除以有效轉(zhuǎn)錄本長度，其定義為轉(zhuǎn)錄本長度-cDNA片段大小+1节值。此后徙硅，結(jié)果值按線性比例縮放，總計為一百萬搞疗。因此嗓蘑，特定樣本的所有TPM值的總和始終等于（約）1,000,000。

往期內(nèi)容：
重生之我在劍橋大學學習單細胞RNA-seq分析——1. 單細胞RNA測序介紹（1）
重生之我在劍橋大學學習單細胞RNA-seq分析——1. 單細胞RNA測序介紹（2）

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末匿乃，一起剝皮案震驚了整個濱河市桩皿，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌幢炸，老刑警劉巖泄隔，帶你破解...
沈念sama閱讀 206,968評論 6贊 482
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異宛徊，居然都是意外死亡佛嬉，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,601評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門闸天，熙熙樓的掌柜王于貴愁眉苦臉地迎上來暖呕，“玉大人，你說我怎么就攤上這事苞氮⊥謇浚” “怎么了？”我有些...
開封第一講書人閱讀 153,220評論 0贊 344
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵笼吟，是天一觀的道長库物。經(jīng)常有香客問我，道長赞厕，這世上最難降的妖魔是什么艳狐？我笑而不...
開封第一講書人閱讀 55,416評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮皿桑，結(jié)果婚禮上毫目，老公的妹妹穿的比我還像新娘。我一直安慰自己诲侮，他們只是感情好镀虐，可當我...
茶點故事閱讀 64,425評論 5贊 374
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著沟绪，像睡著了一般刮便。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上绽慈，一...
開封第一講書人閱讀 49,144評論 1贊 285
城市分裂傳說
那天恨旱，我揣著相機與錄音辈毯，去河邊找鬼。笑死搜贤，一個胖子當著我的面吹牛谆沃，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播仪芒，決...
沈念sama閱讀 38,432評論 3贊 401
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼唁影，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了掂名？” 一聲冷哼從身側(cè)響起据沈，我...
開封第一講書人閱讀 37,088評論 0贊 261
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎饺蔑，沒想到半個月后锌介，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,586評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡猾警，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,028評論 2贊 325
?白月光啟示錄
正文我和宋清朗相戀三年掏湾，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片肿嘲。...
茶點故事閱讀 38,137評論 1贊 334
活死人
序言：一個原本活蹦亂跳的男人離奇死亡融击，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出雳窟，到底是詐尸還是另有隱情尊浪，我是刑警寧澤，帶...
沈念sama閱讀 33,783評論 4贊 324
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布封救，位于F島的核電站拇涤，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏誉结。R本人自食惡果不足惜鹅士，卻給世界環(huán)境...
茶點故事閱讀 39,343評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望惩坑。院中可真熱鬧掉盅，春花似錦、人聲如沸以舒。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,333評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蔓钟。三九已至永票，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背侣集。一陣腳步聲響...
開封第一講書人閱讀 31,559評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工键俱，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人世分。一個月前我還...
沈念sama閱讀 45,595評論 2贊 355
代替公主和親
正文我出身青樓方妖，卻偏偏與公主長得像，于是被迫代替她去往敵國和親罚攀。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 42,901評論 2贊 345

重生之我在劍橋大學學習單細胞RNA-seq分析——2. scRNA-Seq原始測序數(shù)據(jù)處理（1）

推薦閱讀更多精彩內(nèi)容