Alicia Oshlack, Mark D Robinson, Matthew D Young.
From RNA-seq reads to differential expression results.Genome Biology 2010, 11:220 http://genomebiology.com/2010/11/12/220
這篇評論文章摘要只有一句話:有很多可用的方法和工具進行預(yù)處理高通量RNA-seq數(shù)據(jù)和檢測差異表達。
高通量測序技術(shù)現(xiàn)已普遍用于生物學(xué)中。這些技術(shù)產(chǎn)生了數(shù)以百萬計的短序列reads,常規(guī)地應(yīng)用于基因組愿题、表觀基因組和轉(zhuǎn)錄組涎拉。對樣品中穩(wěn)定狀態(tài)的RNA 進行測序咆槽,稱為RNA-seq,從先前技術(shù)的很多限制中解放出來敢辩,如對先驗的物種知識的依賴懈涛,這是微陣列和PCR所須的惹悄。此外,RNA-seq允許我們闡 明先前難以見到的轉(zhuǎn)錄組復(fù)雜性肩钠,如等位點特異的表達和新啟動子泣港、亞型。但是价匠,產(chǎn)生的數(shù)據(jù)集是大而復(fù)雜的当纱,解釋不是直接的。正如任何高通量技術(shù)一樣踩窖,分析方 法對解釋數(shù)據(jù)是至關(guān)重要的坡氯,而RNA-seq分析過程一直在不斷演變。因此洋腮,是時候回顧當(dāng)前可用的分析方法和評論問來研究方向了箫柳。
理解RNA-seq數(shù)據(jù)依賴于感興趣的科學(xué)問題。例如啥供,決定等位點表達的差異需要精確確定轉(zhuǎn)錄的SNPs的廣泛存在悯恍。另一方面融合基因或癌癥樣品中的畸變可以通過尋找RNA-seq數(shù)據(jù)中的新轉(zhuǎn)錄本來檢測。過去一年(即2009年)伙狐,一些方法涌現(xiàn)出來涮毫,用RNA-seq數(shù)據(jù)進行豐度估計,可變剪接贷屎、RNA編輯和新轉(zhuǎn)錄本的檢測罢防。然而,很多生物學(xué)研究的基本對象是樣品間的基因表達譜唉侄。因此咒吐,在本評論中我們聚焦于可以檢測樣品間基因表達水平差異的可用方法。這種分析與控制實驗尤其相關(guān)属划,如比較同一組織的野生型和突變株的表達恬叹,比較處理與未處理的細胞,癌癥的和正常的細胞等等榴嗅。我們在此列出用于檢測RNA-seq差異表達的處理流程妄呕,并檢查可以執(zhí)行該分析的可用方法和開源軟件。我們還突出了需要進一步研究的一些方面嗽测。
多數(shù)RNA-seq實驗取一個純化了的RNA樣品绪励,切碎,轉(zhuǎn)換成cDNA并在高通量平臺如Illumina GA/HiSeq唠粥、SOLiD或Roche 454上測序疏魏。該過程產(chǎn)生了來自cDNA片段的一端的、數(shù)以百萬計的reads(25~300bp)晤愧。該過程一個常用的變式是生成雙末端reads大莫,即paired-end reads。各平臺在化學(xué)和處理步驟上有本質(zhì)不同官份,但忽略精確的細節(jié)后只厘,原始數(shù)據(jù)都是由帶有質(zhì)量值的短序列的一個長列表組成烙丛;這就形成了本評論的切入點。
圖1列出了差異表達分析的典型RNA-seq流程概覽羔味。首先河咽,reads映射到基因組或轉(zhuǎn)錄組。其次赋元,每個樣品映射的reads依實驗?zāi)康亩M裝成基因水 平忘蟹、外顯子水平或轉(zhuǎn)錄本水平的表達概括。接下來搁凸,匯總的數(shù)據(jù)進行歸一化以與差異表達的統(tǒng)計檢驗相協(xié)調(diào)媚值,產(chǎn)生了一個帶有P-value和倍數(shù)變化的、排好序 的基因列表护糖。最后褥芒,執(zhí)行系統(tǒng)生物學(xué)方法從這些列表中獲得生物學(xué)的見解,就像在微陣列上進行的那樣椅文。我們批判了下列目前可用的RNA-seq數(shù)據(jù)分析方法的 每一步喂很。我們聚焦于普遍可用的開源軟件而不是提供一個所有工具的完整列表。
映射
為了用RNA-seq數(shù)據(jù)比較樣品間表達水平皆刺,必須把短reads轉(zhuǎn)換成表達定量少辣。這個過程的第一步就是read映射或比對。最簡單的羡蛾,映射工作就是找到 短read與參考序列已知的唯一位置漓帅。然而,真實情形中參考序列從來不是所測序RNA的實際生物源的完美表示痴怨。除了樣品特異的屬性如SNPs和 indels之外忙干,還要考慮來自剪接過的轉(zhuǎn)錄組而非基因組的reads。而且浪藻,短read有時完美地比對到多個位置捐迫,也可能包含不得不考慮的測序錯誤。因 此爱葵,真正的任務(wù)是找到短read最佳匹配到參考序列的位置施戴,其中允許錯誤和結(jié)構(gòu)變異。
盡管對如何最佳比對reads到參考序列的研究還在進行萌丈,但是所有的解決辦法都涉及在算法的計算需求和允許匹配參考序列的模糊性之間一定的妥協(xié)赞哗。幾乎所有 的短read比對器都采用了首先通過啟發(fā)式匹配的策略,這迅速找打了可能位置的一個簡化列表辆雾,接著對候選位置進行全面評估肪笋,通過一個復(fù)雜的局部比對算法。 如果不做預(yù)先的啟發(fā)式搜索來約減潛在的比對位置數(shù),那么在目前的硬件上執(zhí)行百萬級短reads的局部比對會是計算上不可能的藤乙。
目前的比對器能用hash表或Burrows Wheeler變換(BWT)進行快速啟發(fā)式匹配猜揪。hash表比對器對于檢測read和參考序列的復(fù)雜差異有易于擴展的優(yōu)點,在不斷增加計算需求的代價 下湾盒。而BWT比對器可以很有效地映射很接近匹配參考序列的reads湿右,但是一旦考慮更復(fù)雜的錯配就會大幅度慢下來。這些技術(shù)的詳細說明可參考文獻 23,26-30.
比對器在怎樣處理多映射方面也很不一樣罚勾。多數(shù)比對器要么忽略多映射、隨機定位它們吭狡,要么基于局部覆蓋度的估計來定位尖殃,盡管結(jié)合比對分?jǐn)?shù)的方法也已經(jīng)提出。PE reads減少了多映射問題划煮,使得多映射的模糊性在大多數(shù)情況下都可以解決送丰。
當(dāng)考慮reads來自基因組DNA時,所有要做的就是映射到一個相關(guān)的參考基因組上弛秋。但是器躏,RNA-seq是測序轉(zhuǎn)錄組片段。這個差異可以用幾種方式處 理蟹略。既然轉(zhuǎn)錄組是建立在基因組之上登失,那么最常用的(至少是最初的)方法就是用基因組自身做參考序列。這有容易而不偏向任何已知注釋的好處挖炬。但是跨外顯子邊 界的reads不會映射到參考序列上揽浙。因此,用基因組做參考序列會給出較少外顯子的轉(zhuǎn)錄本以更高的覆蓋度意敛。越長的reads越可能跨外顯子邊界馅巷,因此引起 接合reads比例增加。
為考慮接合reads草姻,通常的實踐是建立外顯子接合位點庫钓猬,其中用注視了的外顯子的邊界構(gòu)建了參考序列。為了不依賴現(xiàn)存注釋的跨外顯子邊界撩独,可用數(shù)據(jù)集自 身來從頭檢測剪接位點敞曹。另一個選擇是轉(zhuǎn)錄組從頭組裝。所有的從頭方法都能鑒定新轉(zhuǎn)錄本跌榔,并且對沒有參考基因組或注釋的物種來說是唯一的選項异雁。但是從頭方法 是計算密集的,需要長PE reads和高覆蓋度以可靠地進行計算僧须。
常用的轉(zhuǎn)錄組映射方法是逐漸增加映射策略的復(fù)雜性以處理未比對上的reads纲刀。
匯總映射的reads
已經(jīng)盡可能多的獲得了reads的基因組位置,下一步任務(wù)就是在一些生物學(xué)意義單位上匯總和合計這些reads,如外顯子示绊、轉(zhuǎn)錄本锭部、基因等水平。最簡單的 最常用的方法是計數(shù)與基因的外顯子重疊的reads面褐。但是有相當(dāng)部分reads映射到基因組上已注釋外顯子以外的區(qū)域拌禾,即使是良好注釋的物種,如小鼠展哭、 人湃窍。
一個可選的匯總是包含沿基因全長的reads,從而結(jié)合了內(nèi)含子reads匪傍。這就在匯總中包含了未注釋的外顯子并考慮了注釋不太好或可變的外顯子邊界您市。但 是,包含內(nèi)含子也會捕獲到重疊轉(zhuǎn)錄本——它們共享一個基因組位置但是源于不同基因役衡。還有其他很多可能的變體用于匯總茵休,如只包含映射到編碼序列的reads 或者只匯總從頭預(yù)測的外顯子的reads。接合reads也可添加到基因匯總計數(shù)中或用于對剪接亞型的豐度進行建模手蝎。這些不同的可能性在圖2b中圖示說 明榕莺。在這些選項下,匯總的選擇可能大幅改變每個基因的reads計數(shù)棵介,甚至比映射策略的選擇影響要大钉鸯。盡管如此,很少有研究實現(xiàn)了哪種匯總方法是最適合差 異表達檢測的鞍时。
歸一化
歸一化使得可以比較樣品間和樣品內(nèi)的表達水平亏拉。已經(jīng)證明,歸一化是RNA-seq數(shù)據(jù)的差異表達分析的一個關(guān)鍵步驟逆巍。文庫內(nèi)和文庫間比較的歸一化方法是不同的及塘。
文庫內(nèi)歸一化允許定量每個基因相對于樣品內(nèi)其他基因的表達水平。因為越長的轉(zhuǎn)錄本有越高的reads計數(shù)锐极,文庫內(nèi)歸一化的常用方法是用基因長度去除匯總計 數(shù)笙僚。廣泛使用的RPKM在樣品內(nèi)比較中同時解釋了文庫大小和基因長度的影響。為了驗證該方法灵再,Mortazavi等引入了一些阿拉伯芥RNAs到小鼠的組 織樣品中肋层,跨過一系列基因長度和表達水平。這些非天然的RNAs稱為spike-ins翎迁,說明了RPKM給出了基因間表達水平的精確比較栋猖。然而,已經(jīng)證明 表達的轉(zhuǎn)錄本的read覆蓋深度是不一致的汪榔,因為序列內(nèi)容和RNA制備方法蒲拉,如隨機六聚體引發(fā)。把這些認識結(jié)合到文庫內(nèi)歸一化方法中可能會改進比較表達水 平的能力。使用RNA-seq數(shù)據(jù)來估計樣品中轉(zhuǎn)錄本的絕對數(shù)目也是可能的雌团,但是這需要RNA標(biāo)準(zhǔn)品和額外信息燃领,如總細胞數(shù)和RNA制備產(chǎn)出率。
在樣本間檢驗單個基因的差異表達時锦援,技術(shù)偏倚如基因長度與核酸組成猛蔽,大部分會抵消,因為用于匯總的基礎(chǔ)序列在樣本之間是相同的灵寺。然而曼库,樣本間歸一化對于相 對不同的文庫的比較計數(shù)來說仍是必要的。最簡單最常用的歸一化通過文庫的總reads進行調(diào)整略板,考慮了測序深度的影響凉泄。但是已經(jīng)證明需要更聰明的歸一化來 考慮組成的影響,或這說事實上小部分高表達基因會占總序列數(shù)的相當(dāng)部分蚯根。為了對這些特征進行說明,可以從數(shù)據(jù)中估計出尺度因子胀糜,用于差異表達檢驗的統(tǒng)計模 型颅拦。對于后續(xù)分析來說,尺度因子比原始計數(shù)有優(yōu)勢教藻。另一方面距帅,分位數(shù)歸一化和一種用匹配指數(shù)律分布的方法也被提出用于RNA-seq的樣本間歸一化。這些 變換的非線性去除了數(shù)據(jù)的計數(shù)本質(zhì)括堤,使得不清楚怎樣合適地進行差異表達檢驗碌秸。目前,分位數(shù)歸一化似乎并未改善差異表達檢測到合適的尺度因子那樣的程度悄窃,也 不清楚指數(shù)律分布應(yīng)用于所有數(shù)據(jù)集的情況讥电。
差異表達
差異表達分析的目標(biāo)是突出在不同實驗條件下豐度顯著變化的基因。一般地轧抗,這意味著得到每個文庫的匯總計數(shù)數(shù)據(jù)表并進行感興趣樣本間的統(tǒng)計檢驗恩敌。
很多方法開發(fā)出來以進行微陣列數(shù)據(jù)的差異表達分析。然而横媚,RNA-seq給出每個基因的離散度量而微陣列的強度給出了一個連續(xù)的強度分布纠炮。盡管微陣列的強 度通常是對數(shù)變換過的,而作為正態(tài)分布的隨機變量進行分析灯蝴,但是計數(shù)數(shù)據(jù)的轉(zhuǎn)換并不能用連續(xù)分布很好的逼近恢口,特別是對低計數(shù)范圍和小樣本。因此穷躁,合適于計 數(shù)數(shù)據(jù)的統(tǒng)計模型對于抽取RNA-seq數(shù)據(jù)的大部分信息是很重要的耕肩。
一般地,Poisson分布構(gòu)成了對RNA-seq數(shù)據(jù)進行建模的基礎(chǔ)。在任何使用單RNA源的RNA-seq研究中看疗,在一個Illumina GA測序儀的多個lane上進行測序沙峻,擬合優(yōu)度檢驗表明多數(shù)基因在lane之間的分布事實上是Poisson分布的。這一點被獨立的技術(shù)試驗驗證過两芳,而且 已有可用的軟件工具執(zhí)行該分析摔寨。但是Poisson假設(shè)并未很好滴捕捉到生物學(xué)變異。因此對于有生物學(xué)重復(fù)的數(shù)據(jù)集進行基于Poisson的分析將傾向于 高的假陽性率怖辆,源于低估了取樣誤差是复。盡管RNA-seq平臺有低背景、高敏感性竖螃,但是帶有生物學(xué)重復(fù)的試驗設(shè)計對于將RNA豐度變化推廣到取樣群體中仍是 至關(guān)重要的淑廊。一般,RNA-seq試驗設(shè)計特咆,包括分組季惩、隨機化和重復(fù)都已經(jīng)深入討論過。
為了解釋生物學(xué)變異性腻格,為SAGE數(shù)據(jù)而開發(fā)的方法最近被用于RNA-seq數(shù)據(jù)画拾。兩者的主要差異在于數(shù)據(jù)集的規(guī)模。為了解釋生物學(xué)變異性菜职,使用負二項分 布作為Poisson分布的自然推廣青抛,要估計一個額外的散度參數(shù)。一些基于負二項分布的計數(shù)數(shù)據(jù)差異表達分析變體涌現(xiàn)出來酬核,包括普通散度模型蜜另,用加權(quán)似然 率共享所有基因的信息,均值方差關(guān)系的經(jīng)驗估計和使用等價類的經(jīng)驗Bayes實現(xiàn)嫡意。Poisson模型的包含散度的擴展也已提出举瑰,如廣義Poisson分 布或兩步Poisson模型(在取決于數(shù)據(jù)中散度證據(jù)的兩個模式下檢驗差異表達)。一些實時轉(zhuǎn)錄本發(fā)現(xiàn)和定量或可變亞型分析的工具也執(zhí)行差異表達分析鹅很。但 是值得注意的是這些方法要么用Poisson分布要么用Fisher 精確檢驗嘶居,顯然都不能處理上面討論的生物學(xué)變異。
當(dāng)前的很多計數(shù)數(shù)據(jù)差異表達分析策略中有很多都限于簡單實驗設(shè)計促煮,如成對或多組比較邮屁。據(jù)我們所知,還沒有針對更復(fù)雜設(shè)計的分析的通用方法提出來菠齿,如配對樣 本會時間過程實驗佑吝,在RNA-seq數(shù)據(jù)的語境下。缺少這樣的方法绳匀,研究者就把他們的計數(shù)數(shù)據(jù)轉(zhuǎn)換成有合適工具的連續(xù)數(shù)據(jù)芋忿。一般線性模型提供了對上述計數(shù) 數(shù)據(jù)的邏輯推廣炸客,而也需要開發(fā)更聰明的策略來共享所有基因的信息;目前軟件工具提供了這些方法戈钢。進一步痹仙,上面討論的方法主要目的在于匯總已有注釋的表達水 平。以無目標(biāo)方式檢測差異表達的方法近來也提出來了殉了,如極大均值差異檢驗开仰。
系統(tǒng)生物學(xué):超越基因列表
在很多情形中,建立差異表達基因列表并非分析的最終步驟薪铜;可以通過尋找基因集的表達變化獲得對試驗系統(tǒng)的深入生物學(xué)見解众弓。很多聚焦于基因集檢驗、網(wǎng)絡(luò)推斷 和知識庫的工具為分析微陣列數(shù)據(jù)集的差異表達基因而設(shè)計出來隔箍。然而谓娃,RNA-seq受到微陣列數(shù)據(jù)所沒有的一些偏倚所影響。例如蜒滩,基因長度偏倚是RNA- seq數(shù)據(jù)的一個問題滨达,其中越長的基因有越高的計數(shù)。這導(dǎo)致了對長的高表達基因來說俯艰,差異表達檢測有更高的檢定力弦悉。這些偏倚極大地影響下游分析結(jié)果,如 GO富集蟆炊。為了能進行基因集分析,Bullard等建議通過除以基因長度的平方根來修改差異表達t-statictic以最小化差異表達中長度偏倚的影 響瀑志。另一方面涩搓,GOseq特別為RNA-seq數(shù)據(jù)開發(fā)的工具,可以把長度或總計數(shù)偏倚合并到基因集檢驗中劈猪。隨著對RNA-seq數(shù)據(jù)偏倚的認識深化昧甘,結(jié) 合了這種認識的系統(tǒng)生物學(xué)工具對于提取出生物學(xué)見解是至關(guān)重要的。
對于集成RNA-seq數(shù)據(jù)結(jié)果和其他生物學(xué)數(shù)據(jù)源已建立更完整的基因調(diào)控圖战得,有著廣泛的理解充边。例如,RNA-seq與基因分型數(shù)據(jù)結(jié)合以鑒定解釋個體間 基因表達變異的遺傳基因座(表達數(shù)量性狀位點常侦,eQTLs)浇冰。而且,整合表達數(shù)據(jù)和轉(zhuǎn)錄因子結(jié)合聋亡、RNA干擾肘习、組蛋白修飾以及DNA甲基化信息具有更好理 解各種調(diào)控機制的潛力。這種整合性分析的一些報道近來也出現(xiàn)了坡倔。例如漂佩,Lister等突出了基因體中CG和非CG甲基化水平與RNA-seq表達水平的顯 著差異脖含。類似地,測序數(shù)據(jù)集的組合正開始提供單等位基因與表達投蝉、組蛋白修飾和DNA甲基化之間關(guān)聯(lián)性的見解养葵。
Outlook
本評論中,我們列出了處理RNA-seq短reads以進行樣本間差異表達分析的主要步驟瘩缆。簡言之关拒,過程就是,映射并匯總短reads序列咳榜,然后樣本間歸 一化并執(zhí)行差異表達統(tǒng)計檢驗夏醉。進一步的生物學(xué)見解可以通過尋找基因集內(nèi)表達變化模式和整合RNA-seq數(shù)據(jù)和其它來源的數(shù)據(jù)來獲得。
盡管這個流程的很多部分都是擴展研究的焦點涌韩,但仍有些領(lǐng)域存在進一步細化的可能畔柔。目前,很少有工作在研究那種匯總度量是最適合尋找樣本間差異表達基因的臣樱。 為了進行更復(fù)雜試驗設(shè)計的分析靶擦,還有擴展現(xiàn)有差異表達檢測統(tǒng)計方法的余地。而且雇毫,現(xiàn)有的很多方法的相對優(yōu)點應(yīng)在進一步的研究中經(jīng)受考驗玄捕,依照其分析各種研 究設(shè)計的靈活性,其在大大小小的研究中的性能棚放,對測序深度的依賴和強加的假設(shè)(如均值方差關(guān)系)的準(zhǔn)確性枚粘。進一步,盡管有很多用RNA-seq進行可變剪 接檢測的例子飘蚯,但是仍有必要擴展當(dāng)前方法以在生物學(xué)變異占主導(dǎo)時檢測基因亞型偏好的差異馍迄,也許使用上述基于計數(shù)的方法。
由于產(chǎn)生短reads的實驗協(xié)議之間有本質(zhì)不同局骤,正式比較RNA-seq平臺以及很多數(shù)據(jù)分析方法的相對優(yōu)點將是很重要的攀圈。這樣的研究會揭示平臺特異的差 異表達分析的好處并會促進更好的數(shù)據(jù)整合。該領(lǐng)域仍然相對年輕峦甩,我們希望在未來有更多的RNA-seq數(shù)據(jù)分析新方法和工具涌現(xiàn)出來赘来。