說明:因為平臺限制和平臺廣告等原因征候,今后的文章將不在簡書更新祟敛,請移步并訂閱個人博客
說明:因為平臺限制和平臺廣告等原因,今后的文章將不在簡書更新跑揉,請移步并訂閱個人博客
說明:因為平臺限制和平臺廣告等原因埠巨,今后的文章將不在簡書更新,請移步并訂閱個人博客
文章信息
Van den Berge, Koen, Katharina M. Hembach, Charlotte Soneson, Simone Tiberi, Lieven Clement, Michael I. Love, Rob Patro, and Mark D. Robinson. 2019. “RNA Sequencing Data: Hitchhiker’s Guide to Expression Analysis.” Annual Review of Biomedical Data Science 2 (1): 139–73. https://doi.org/10.1146/annurev-biodatasci-072018-021255.Annual Review 系列雜志的綜述應(yīng)該說是綜述界的老大哥望侈。最近在 Annual Review of Biomedical Data Science 發(fā)表了「另」一篇 RNA-Seq 相關(guān)的重磅綜述脱衙。之所以說是另一篇,因為同期在 Nature Reviews Genetics 發(fā)表過一篇看名字就非常霸氣的綜述:RNA sequencing: the teenage years 退唠。
關(guān)于 RNA Sequencing Data: Hitchhiker's Guide to Expression Analysis 這篇綜述瞧预,它重點關(guān)注在** RNA-seq 數(shù)據(jù)的表達分析方法仅政,因此適合用來做轉(zhuǎn)錄組數(shù)據(jù)分析能力的自我檢測和學(xué)習(xí)路徑。這篇文章從轉(zhuǎn)錄組數(shù)據(jù)的整體介紹開始秸苗,從比對定量运褪、差異表達基礎(chǔ)秸讹、差異分析種類雅倒,單細(xì)胞轉(zhuǎn)錄組和長讀數(shù)轉(zhuǎn)錄組幾個層面展開,重點在比對定量劣欢、差異表達基礎(chǔ)裁良、差異分析種類這三部分。作者根據(jù)分析步驟介紹了對應(yīng)的大量分析工具和其使用的計算模型和優(yōu)勢牧抵。本文不會對文章進行翻譯侨把,只是重點指出我讀后比較關(guān)注的一些細(xì)節(jié)。最后我也會按照綜述的主線梳理出主要內(nèi)容获枝,理出一幅轉(zhuǎn)錄組表達分析的知識地圖骇笔。**
整體介紹
下圖是一個轉(zhuǎn)錄組試驗的標(biāo)準(zhǔn)試驗流程机隙。
在建庫的過程中有鹿,常見文庫形式包括單端和單端測序葱跋,同時還有非鏈特異性和鏈特異性測序源梭。在實驗設(shè)計方面,有兩個比較重要的因素:重復(fù)數(shù)量和測序深度荠卷。如下圖所示烛愧,最近若干年來,大多數(shù)轉(zhuǎn)錄組測序的數(shù)據(jù) reads 數(shù)量都是從 10 到 100M 之間慎冤,而樣本數(shù)量基本上就是每個條件三個重復(fù)沧卢,很多項目的樣本數(shù)量在 8 個(中位數(shù))左右。
通常認(rèn)為披诗,增加測序深度可以提高后期分析的表現(xiàn)立磁。不過,其實非常大的一部分 reads 都來自少數(shù)一些表達量很高的基因掂咒。具體到統(tǒng)計數(shù)字上迈喉,超過 80%的 reads 都來自 10%表達量最高的基因,如下圖所示孩革。因此得运,增加 reads 其實只是非常有限的增加了低表達基因的覆蓋率锅移。在檢查差異表達基因的統(tǒng)計效力上并沒有非常明顯的提升非剃。因此推沸,增加測序深度不如多增加幾個重復(fù)。有數(shù)據(jù)表明肺素,如果想要鑒定低 fold change 的基因倍靡,最好能夠做到 6 個重復(fù)。
轉(zhuǎn)錄組測序在應(yīng)用層面可以進行基因注釋塌西,這里的注釋包括各種各樣的轉(zhuǎn)錄相關(guān)事件雨让,例如 exon skipping, alternative 3' acceptor, 5' donor
sites 以及 intron retention 等等忿等。在基因調(diào)控方面贸街,轉(zhuǎn)錄組數(shù)據(jù)可以在各種各樣的條件下進行各種各樣層面的比較狸相,例如基因、轉(zhuǎn)錄本和外顯子逸尖。當(dāng)然蚓庭,還有單細(xì)胞轉(zhuǎn)錄組的一系列應(yīng)用場景等等头遭。
關(guān)于定量和比對
轉(zhuǎn)錄組得到的測序數(shù)據(jù)通常被稱為 junction-spanning reads苞俘, 目前針對這樣的 reads 有兩種最主要的比對思路吃谣,一種是使用 spliced alignment 的方法比對到參考基因組,另一種是使用 direct alignment 的方法直接比對到轉(zhuǎn)錄組上岗憋。往參考基因組比對的方法對應(yīng)的工具有很多,最早從 DNA 比對進化來的工具例如 bowtie 等关串,后期發(fā)展出來的 STAR, HISAT 和 Subread 以及 GMAP杂穷。這種類型的比對一個關(guān)鍵點是對于 splice junctions 的識別。比對到轉(zhuǎn)錄組飞蚓,主要挑戰(zhàn)是關(guān)于 related isoforms 轉(zhuǎn)錄本的區(qū)分廊蜒,這個問題可能會導(dǎo)致大量 multimapping 的情況發(fā)生。例如一個基因有三個轉(zhuǎn)錄本著榴,其中一個外顯子序列可能在三個轉(zhuǎn)錄本中都出現(xiàn)屁倔。同時,比對到參考轉(zhuǎn)錄組也不能找到 find novel splicing 和 expression pattern问麸。因此钞翔,到底選擇哪種比對方式取決于自己的后續(xù)分析需求。關(guān)于定量哮笆,常見的有基于基因的定量和基因轉(zhuǎn)錄本的定量汰扭。每種定量方式都有基于不同模型的若干種方法,隨著分析的逐漸深入启具,越來越多的分析從基于基因定量轉(zhuǎn)換為基于轉(zhuǎn)錄本定量珊泳。
差異分析基礎(chǔ)
下圖是一個常規(guī)的差異分析步驟。
各種差異表達
和定量的方式相對應(yīng)薯演,差異表達的分析角度其實也有很多種。除了常見的差異基因表達之外序无,還有差異表達的轉(zhuǎn)錄本衡创,以及在一個基因內(nèi)部不同轉(zhuǎn)錄本的使用情況,在一些情況下哟玷,即便一個基因在兩種不同的條件下沒有表達上的明顯差異一也,但是可能存在不同轉(zhuǎn)錄本的表達變化。下圖是一個比較直觀的說明抑月。
更多細(xì)節(jié)可以閱讀綜述原文谦絮,送上根據(jù)綜述這里的知識圖譜