《RNA sequencing: the teenage years》這篇綜述翻譯了一下棠绘,全篇漢字大約是3萬字,比較長再扭,為了方便閱讀,把它拆成3篇放出來夜矗,分別是上泛范,中鱼辙,下篇厌衔。
上篇講的是常規(guī)RNA-seq的發(fā)展;
中篇講的是常規(guī)RNA-seq數(shù)據(jù)處理的一些流程與工具紧索,例如TopHat对扶,STAR区赵,RSEM,Salmon等浪南;
下篇講的是RNA-seq的在高級應用笼才,涉及空間轉(zhuǎn)錄組學,翻譯組學等等络凿。
文獻信息
本文是2019年7月份發(fā)表在《Nature Reviews Genetics》上的有關(guān)RNA-seq的綜述文章骡送。
文獻信息如下所示:
Stark, R., et al. (2019). “RNA sequencing: the teenage years.” Nature Reviews Genetics.
摘要
在過去的十年中,RNA測序(RNA-seq)已經(jīng)成為在全轉(zhuǎn)錄組范圍內(nèi)分析差異基因表達和mRNAs差異剪接的重要工具絮记。然而摔踱,隨著下一代測序技術(shù)的發(fā)展,RNA-seq技術(shù)也在不斷發(fā)展≡狗撸現(xiàn)在派敷,RNA-seq用于研究RNA生物學的許多方面,其中包括單細胞基因表達、翻譯(翻譯組,translatome)和RNA結(jié)構(gòu)(結(jié)構(gòu)組篮愉,structurome)腐芍。RNA-seq的其它應用也在開發(fā)中,例如空間轉(zhuǎn)錄學(spatialomics)潜支。加上新的長讀長 (long-read甸赃,注:在本文中,RNA-seq測序生成的read統(tǒng)一譯為“讀長“)和直接RNA-seq(direct RNA-seq)技術(shù)以及用于數(shù)據(jù)分析的更好的計算工具的整合冗酿,RNA-seq技術(shù)的創(chuàng)新有助于人們更全面地理解RNA生物學埠对,例如從何時何地轉(zhuǎn)錄發(fā)生到控制RNA功能的折疊和分子間相互作用等問題。
前言
RNA-seq技術(shù)出現(xiàn)于十年之前裁替,自其誕生之日起项玛,RNA-seq就成了研究分子生物學的普遍工具,這項技術(shù)幾乎構(gòu)成了我們對基因組功能的認知基礎 弱判。RNA-seq中最常用的分析方法就是找出差異基因表達(Differential gene expression, DGE)襟沮。從最早的出版期刊開始,DGE分析的基本階段就未發(fā)生實質(zhì)性的改變昌腰。在實驗室中开伏,其標準流程就分為三步:
第一步是構(gòu)建測序文庫,這一步驟包括提取RNA遭商,富集mRNA或清除核糖體RNA固灵,合成 cDNA,加上接頭劫流。
第二步巫玻,在高通量平臺(通常是Illumina平臺)上對文庫進行測序,每個樣本的測序深度為10-30M讀長數(shù)(讀長這里就是前面說的reads)祠汇。
第三步是數(shù)據(jù)分析仍秤,具體的工作是:對測序得到的讀長進行比對(aligning)和/或組裝到轉(zhuǎn)錄組上,對這些覆蓋了轉(zhuǎn)錄組的讀長進行過濾可很,歸一化(Normalization)诗力,根據(jù)統(tǒng)計模型找出那些在不同樣本之間有差異的轉(zhuǎn)錄本。
早期的RNA-seq從大量的實驗樣本中產(chǎn)生了DGE數(shù)據(jù)根穷,這充分說明了RNA-seq在廣泛的生物體以及系統(tǒng)中的使用姜骡,這些生物體包括玉米(Zea mays), 擬南芥(Arabiodopsis thaliana), 釀酒酵母(Saccharomyces cerevisae),小鼠(Mus musculus)以及人類屿良。雖然RNA-seq這個術(shù)語經(jīng)常被用于那些完全不同的方法學方法和/或生物學圈澈,但是DGE分析仍然是RNA-seq(補充材料中的表1)的主要應用,并被視為常規(guī)研究工具尘惧。
RNA-seq的更廣泛應用已經(jīng)促進了我們對生物學多方面的理解 康栈,例如通過提示mRNA剪接和非編碼RNAs和增強子RNAs對基因表達的調(diào)控。RNA-seq的應用和進步是由技術(shù)發(fā)展(濕實驗室和計算生物學)驅(qū)動的,相對于以前的基因芯片啥么,RNA-seq這種方法對RNA生物學和轉(zhuǎn)錄組產(chǎn)生更豐富并且偏見更小的信息登舞。到目前為止,從標準的RNA-seq方法衍生而來的各種RNA-seq方法幾乎有100種悬荣。Illumina的短讀長(short-read)測序平臺能對這些由大部分不同方法的RNA-seq構(gòu)建的文庫進行測序菠秒,但是最近長讀長(long-read)RNA-seq的與直接RNA-seq測序(direct RNA sequencing, dRNA-seq)的進步已經(jīng)能夠解決以前研究人員使用短序列手段無法解決的一些問題。
在這篇綜述中氯迂,我們首先會介紹一些最基本的短讀長RNA-seq中的DGE方法践叠,再將這種基礎方法與最近新興的長讀長RNA-seq和dRNA-seq進行比較。我們會介紹短讀長測序方法在文庫制備方面的進展嚼蚀,以及實驗設計和DGE的數(shù)據(jù)分析方法禁灼。隨后我們會拓展這些常規(guī)的RNA-seq方法,介紹一些單細胞測序和空間轉(zhuǎn)錄組學的分析轿曙。我們會提供一些案例弄捕,介紹RNA-seq在RNA生物學方面的關(guān)鍵應用,包括轉(zhuǎn)錄組分析导帝,翻譯動力學守谓,RNA結(jié)構(gòu),RNA-RNA之間相互作用和RNA-蛋白質(zhì)的相互作用您单。最后分飞,我們會簡單描述一下RNA-seq的未來,以及單細胞和空間RNA-seq方法是否會像DGE分析一樣成為常規(guī)工具睹限,長讀長測序方法是否會取代短讀長測序方法。由于篇幅限制讯檐,我們無法介紹所有的RNA-seq方法羡疗,在這些方法中,值得注意的是非編碼轉(zhuǎn)錄組學别洪,原核轉(zhuǎn)錄組學(prokaryotic transcriptomes)和表觀轉(zhuǎn)錄組學(epitranscriptome)叨恨。
RNA-seq技術(shù)的發(fā)展歷史
Illumina的短序列讀長測序技術(shù)生成了SRA(Short Read Archive)中95%已表達的數(shù)據(jù)(附件表2)。由于cDNA的短序列讀長測序方法幾乎是一種常規(guī)的方法挖垛,因此 我們認為這是一種最基礎的 RNA-seq技術(shù)痒钝,我們先來討論這種測序主要流程與局限。不過痢毒,長reads cDNA測序與dRNA-seq已經(jīng)興起送矩,隨著研究人員對能提供更豐富轉(zhuǎn)錄本水平方面(isoform-level)數(shù)據(jù)需求增大,這兩種新的測序方法有望對常規(guī)的短讀長測序方法提出挑戰(zhàn)(FIG1, TABLE1)哪替。
Table1-短讀長與長讀長RNA-seq平臺
測序技術(shù)平臺優(yōu)勢劣勢重要應用
短讀長cDNAIllumina栋荸, ? Ion ? Torrent
①高通量,一次運行產(chǎn)生的讀長是長讀長平臺的100倍到1000倍。
②偏倚與錯誤明確(對Ion ? Torrent平臺來說晌块,聚合物(homopolymers)仍是一個問題)爱沟。
③ 現(xiàn)在有大量可兼容的方法和計算流程;?
?4. 可對降解的RNA進行分析匆背。①樣本制備包括逆轉(zhuǎn)錄呼伸,PCR與片段大小選擇,所有的這些操作增加了測序偏倚钝尸。②針對異構(gòu)體檢測與定量的能力有限括享。③轉(zhuǎn)錄本發(fā)現(xiàn)分析需要從頭對轉(zhuǎn)錄本進行比對和/或組裝步驟。
幾乎所有的RNA-seq方法都已經(jīng)是針對短讀長cDNA測序而開發(fā)的:DGE蝶怔,WETA奶浦,smallRNA, 半日細胞踢星,空間轉(zhuǎn)錄組澳叉,nascent RNA,翻譯組沐悦,結(jié)構(gòu)和RNA-蛋白質(zhì)相互作用分析等等成洗。
長讀長cDNAPacBio, ? ONT
①可捕獲1-50kb的長讀長藏否;??
②從頭轉(zhuǎn)錄組分析方法簡單瓶殃。①中低通量:目前一次運行只能生成0.5M到10M的讀長;②樣本制備包括逆轉(zhuǎn)錄副签,PCR和片段選擇遥椿,增加了偏倚;
③針對降解的RNA分析能力有限淆储。用于研究新異構(gòu)體冠场,從頭轉(zhuǎn)錄組分析,融合轉(zhuǎn)錄本發(fā)現(xiàn)本砰,MHC碴裙,HAL或其它復雜的轉(zhuǎn)錄本分析。
長讀長RNAONT①可捕獲許多1-50kb的全長轉(zhuǎn)錄組点额;②從頭轉(zhuǎn)錄組分析方法簡單舔株;? ③樣本制備并不需要進行逆轉(zhuǎn)錄或PCR,從而降低了PCR導致的偏倚还棱;④ 可檢測RNA的修飾载慈;⑤ 直接在單細胞水平上對poly(A)進行估計。? ①低通量珍手,目前一次運行只能生成0.5M到1M的讀長娃肿;②樣本制備與測序偏倚不明咕缎;③無法對降解的RNA進行分析。①用于研究新異構(gòu)體料扰,從頭轉(zhuǎn)錄本分析凭豪,融合轉(zhuǎn)錄本,MHC晒杈,HLA或其它的復雜轉(zhuǎn)錄本分析嫂伞。②檢測核糖核酸修飾。
Figure 1-短讀長拯钻,長讀長和直接RNA-seq技術(shù)與工作流程
Figure 1-短讀長帖努,長讀長和直接RNA-seq技術(shù)與工作流程。
(a)不同RNA-se方法的文庫制備粪般,這些方法可以分為3種拼余,分別是短讀長測序(黑色),長讀長測序(綠色)亩歹,或長讀長直接RNA-seq(藍色)匙监。根據(jù)使用的文庫制備方法不同,文庫制備會表現(xiàn)出相應的復雜性和偏倚小作。短讀長與長讀長cDNA文庫在制備時有一些步驟是相同的亭姥,不過所有的方法都需要一個接頭連接步驟,并且它們都受到樣本質(zhì)量和文庫上下游計算問題的影響顾稀。
(b)三種主流的RNA-seq測序方法达罗。
Illumina的工作流程(左邊):文庫制備好后,每個cDNA就會在一個泳道(flowcell)上通過合成來聚集成簇静秆,其中合成的過程使用3’阻斷的熒光標記的核苷酸粮揉。在每一輪測序的過程中,新合成的DNA鏈就會被成像抚笔,從而檢測出參與合成的是哪種核苷酸滔蝉,這種測序方法產(chǎn)生的讀長是50-500bp。
Pacific Biosciences工作流程(中間):文庫制備好后塔沃,每個分子被加載到一個測序芯片上,在芯片上這些分子與固定到納米孔(nanowell)底部的聚合酶進行結(jié)合阳谍。隨著每一個熒光標記的核苷酸被整合到新合成的鏈上蛀柴,這些核苷酸發(fā)出的熒光就會被檢測到,這種方法產(chǎn)生的讀長為50kb矫夯。
Oxford納米孔工作流程(右邊):文庫制備好后鸽疾,每個分子被加載到流動室(flowccell)中,流式室中含有馬達蛋白训貌,馬達蛋白固定在流動室中制肮,它可以與文庫的接頭結(jié)合冒窍。馬達蛋白控制RNA鏈通過納米孔,從而造成納米孔中電流的改變豺鼻,這種技術(shù)產(chǎn)生的讀長為1-10kb综液。
(c) 短讀長、長讀長與直接RNA-seq分析的比較儒飒。
超過90%的人類基因(gene n)存在可變剪接谬莹,它們會形成兩個或更多的可表達異構(gòu)體(轉(zhuǎn)錄本x與y)。
短讀長cDNA測序中就增加了捕獲信息的復雜性桩了,短讀長對異構(gòu)體的檢測會受到其讀長的限制附帽,在這種技術(shù)里,短讀長無法精確地回貼(注:測序分析方法中的術(shù)語“map“在本文中都譯為”回貼“)到轉(zhuǎn)錄組上井誉,而長讀長測序方法則能直接鑒定異構(gòu)體蕉扮。
在短讀長cDNA測序中,有很大比例的讀長會不明確地回貼到不同異構(gòu)相同的外顯子上颗圣;而那些跨越了外顯子-外顯子連接處的讀長可以提高對異構(gòu)體的分析效果喳钟,但是當不同的異構(gòu)體都含有這個連接處時,這種操作意義不大欠啤。這些問題都加劇了數(shù)據(jù)分析的復雜性荚藻,以及無法對結(jié)果進行明確地解釋。
長讀長cDNA方法能夠產(chǎn)生全長的異構(gòu)體讀長洁段,從而去除或大幅度降低這些不精確的結(jié)果应狱,并改進差異異構(gòu)表達的分析結(jié)果。然而這些方法依賴于cDNA的轉(zhuǎn)換祠丝,它去除了RNA堿基的修飾信息疾呻,并且只能粗略地估計多聚腺苷酸(poly(A))尾巴長度。
直接RNA-seq可以進行全長導構(gòu)體分析写半,堿基修飾檢測(例如N6-甲基腺苷(M6A))和poly(A)尾巴長度估計岸蜗。
短讀長cDNA測序
short reads 短讀長已經(jīng)成了在整個轉(zhuǎn)錄組范圍內(nèi)對基因進行檢測和定量的事實方法(de facto method),部分原因是這種方法比芯片成本更低叠蝇,操作更方便璃岳,但是其主要原因還是因為這種方法能生成更全面,更高質(zhì)量的數(shù)據(jù)悔捶,這種方法能夠 對整個轉(zhuǎn)錄組中的基因表達水平進行定量铃慷。
使用Illumina短讀長測序平臺進行DGE分析的核心步驟包括:RNA提取、cDNA合成蜕该、接頭連接犁柜、PCR擴增、測序和數(shù)據(jù)分析(FIG1)堂淡。在這個過程中馋缅,存在打斷片段扒腕,片段長度選擇和基于磁珠的文庫純化這些操作,因此這種方法產(chǎn)生的cDNA片段通常都是在200bp以下萤悴。
RNA-seq文庫的測序讀長分配到每個樣本上的話瘾腰,每個樣本會測到平均20-30 million條讀長(reads)(也就是常說的20-30M條讀長),數(shù)據(jù)經(jīng)過處理后稚疹,使用這些讀長對每個基因或轉(zhuǎn)錄本進行定量居灯,最后再用統(tǒng)計學方法來統(tǒng)計基因的差異。短讀長RNA-seq方法很穩(wěn)健内狗,并且通過對短讀長測序技術(shù)的大范圍比較發(fā)現(xiàn)怪嫌,這種技術(shù)在平臺內(nèi)和平臺間的相關(guān)性很好。但是柳沙,在樣本制備和數(shù)據(jù)分析這兩個階段會引入一些干擾和偏倚岩灭。這種局限可能會影響通過實驗來解決特定生物學問題的能力,例如準確識別和量化多個異構(gòu)體中的哪個來源于一個基因赂鲤。對于研究那些非常長噪径,高度可變的轉(zhuǎn)錄本異構(gòu)的人來說,這種局限表現(xiàn)得尤為明顯数初,例如在人類轉(zhuǎn)錄組研究中找爱;人類轉(zhuǎn)錄本的長度范圍是109bp到186kb,其中50%轉(zhuǎn)錄本長度大于2500bp泡孩。
盡管短讀長RNA-seq可以對最長的轉(zhuǎn)錄本進行詳細的分析车摄,但是涉及的實驗方法不能擴展到全轉(zhuǎn)錄組分析。其他的偏倚與局限來源于那些大量的計算方法仑鸥,這些方法包括例如如何處理模糊或多個回貼的讀長(multi-mapped reads)吮播。
現(xiàn)在出現(xiàn)了一種合成長讀長(synthetic long reads)的新方法,這種方法可以實現(xiàn)全長的mRNA測序眼俊,并試圖解決其中的一些局限意狠。這種方法使用了唯一分子標識符(unique molecular identifiers,UMI)來標記全長的cDNA,在制備短讀長RNA文庫之前疮胖,加入的UMI會隨著單個cDNA分子而進行復制环戈。轉(zhuǎn)錄本異構(gòu)體可以在高達4kd的contigs中重建,用于發(fā)現(xiàn)異構(gòu)體和表達分析澎灸。但是院塞,對于從根本上解決短讀長cDNA測序固有局限的最可能解決方案則是長讀長cDNA測序和dRNA-seq測序 。
長讀長cDNA測序
雖然Illumina測序目前是占主導地位的RNA-seq平臺击孩,但PacBio和Oxford Nanopore(ONT)公司都提供了可供選擇的長讀長技術(shù),能夠?qū)ν暾膯蝹€RNA分子進行單分子水平級的測序鹏漆。通過消除短RNA-seq測序數(shù)據(jù)的組裝這一步巩梢,這些新方法克服了短讀長測序方法相關(guān)的一些問題创泄。例如,減少了測序讀長回貼過程中的歧義括蝠,并且可以識別更長的轉(zhuǎn)錄本鞠抑,這樣就能獲取更完整的異構(gòu)體多樣性信息。這些方法還能降低許多短讀長RNA-seq計算工具中關(guān)于剪接連接的假陽性忌警。
PacBio的Iso-Seq技術(shù)可以讀取最高可達15kb的轉(zhuǎn)錄本的全長cDNA搁拙,這就有利于發(fā)現(xiàn)大量以前未注釋的轉(zhuǎn)錄本,并通過檢測物種的全長同源序列證實了早期的基因預測法绵。
在標準的Iso-Seq操作流程中箕速,高質(zhì)量的RNA被一個模板切換凝聚力轉(zhuǎn)錄酶(a template-switching reverse transcriptase)反轉(zhuǎn)錄為全長的cDNA。生成的cDNAs再經(jīng)過PCR擴增朋譬,加入到PacBio的單分子實時(single-molecule, real-time)文庫制備系統(tǒng)中盐茎。制備好的短轉(zhuǎn)錄本序列可以很快地擴散到測序芯片的活性表面,但由于短轉(zhuǎn)錄本的測序存在偏倚徙赢,因此在對轉(zhuǎn)錄本進行測序時字柠,建議選擇片段的長度是1到4kb,這樣就能在此范圍對長轉(zhuǎn)錄本和短轉(zhuǎn)錄本進行更加均勻地采樣狡赐。
由于PacBio測序方法需要大量的模板窑业,因此需要進行多輪PCR,不過這一操作還需要進行優(yōu)化枕屉,從而降低擴增導致的偏倚常柄。經(jīng)過PCR的末端修復和PacBio SMRT接頭連接后,就可以進行長讀長測序了搀庶;通過修改測序芯片的上樣條件拐纱,就可以在這一步驟進一步控制測序片段長度。
ONT cDNA測序方法也能產(chǎn)生全長的轉(zhuǎn)錄本讀長哥倔,甚至還能在單細胞水平上產(chǎn)生該讀長秸架。模板轉(zhuǎn)錄逆轉(zhuǎn)錄酶也在這種方法中用于制備全長cDNA,制備好的cDNA可以選擇使用PCR來進行擴增咆蒿,隨后在產(chǎn)物上加上接頭东抹,形成測序文庫。直接cDNA測序會消除PCR偏倚沃测,從而形成高質(zhì)量的測序結(jié)果缭黔;但是,如果使用PCR來制備測序文庫的話蒂破,需要的RNA數(shù)量更少馏谨。ONT cDNA測序法尚未報道過在PacBio測序儀上觀察到的片段長度偏倚。
這兩種長讀長cDNA方法都受到標準模板切換逆轉(zhuǎn)錄酶使用的限制附迷,這種逆轉(zhuǎn)錄酶能用全長RNA以及截短的RNA來生成cDNA惧互。逆轉(zhuǎn)錄酶可以將那些只含5?帽子結(jié)構(gòu)的mRNA置換為cDNA哎媚,這樣的話,那些由于RNA降解喊儡,RNA剪接或不完全cDNA合成而生成的短轉(zhuǎn)錄本就不會被反轉(zhuǎn)錄為cDNA拨与,從而提高數(shù)據(jù)質(zhì)量。但是艾猜,有報道指出买喧,逆轉(zhuǎn)錄酶會對ONT平臺的讀長產(chǎn)生不良影響。
長讀長直接RNA測序
前面我們提到了長讀長測序方法匆赃,這種測序方法與短讀長測序平臺一樣淤毛,它們都依賴于將mRNA轉(zhuǎn)換為cDNA。而最近Oxford Nanopore指出炸庞,他們的納米孔測序技術(shù)可以直接對RNA進行測序钱床,也就是說,這種測序手段不需要常規(guī)測建庫過程中的的cDNA的合成和/或PCR擴增操作埠居。這種方法稱為dRNA-seq查牌,這種方法就消除了常規(guī)建庫過程中的偏倚,并且能夠保留表觀遺傳學信息滥壕。
這種方法可以從RNA直接進行兩個接頭的連接來制備文庫纸颜。首先,帶有一個oligo(dT)懸臂的雙鏈核酸接頭退火并連接到RNA的多聚腺苷酸(PolyA)尾部绎橘,隨后就是可選(但不推薦的)的逆轉(zhuǎn)錄操作胁孙,這一步用于提高測序的通量。第二個連接操作就是添加測序接頭称鳞,這個測序接頭上已經(jīng)提前安裝有驅(qū)動測序的馬達蛋白涮较。文庫隨后進行MinION測序,其中RNA直接從3?poly(A)尾部向5?cap端進行測序冈止。最初的研究表明狂票,dRNA-seq的測序長度過超過1000bp,最大測序長度過超過10kb熙暴。
與短讀長測序相比闺属,這種長讀長測序的幾個優(yōu)勢在于:長讀長測序可以提高對異構(gòu)體的檢測,并且它們還可以用于下方代碼poly(A)尾巴的長度周霉,這對于可變poly(A)分析( alternative poly(A) analysis)來說非常重要掂器。Nanopolish-polya這個工具可以對那些用納米孔測序得到的數(shù)據(jù)進行分析,計算出poly(A)尾的長度俱箱,這就包括基因之間的長度国瓮,也包括轉(zhuǎn)錄亞型之間的長度。這種分析證實了,保留內(nèi)含子的轉(zhuǎn)錄本比完全剪接的轉(zhuǎn)錄本具有略長的poly(A)尾巴乃摹。雖然dRNA-seq還處于起步階段厂财,但是它具有檢測RNA堿基修飾的潛力,因此它的應用潛力巨大峡懈,尤其是能夠?qū)Ρ碛^遺傳學轉(zhuǎn)錄進行新的分析。
長讀長與短讀長技術(shù)的比較
雖然長讀長技術(shù)在評估轉(zhuǎn)錄本方面比短讀長技術(shù)有一些明顯的優(yōu)勢与斤,但是長讀長技術(shù)也有一些明顯的局限肪康。尤其是與短讀長技術(shù)相比,長讀長技術(shù)的測序通量更低撩穿,錯誤率更多冕广。
但長讀長技術(shù)的主要優(yōu)勢在于噪奄,它們能夠捕獲更多的單個轉(zhuǎn)錄本,不過這依賴于高質(zhì)量的RNA文庫≡疲總體來說,這些局限影響了那些完全依賴于長讀長測序?qū)嶒灥撵`敏性(sensitivity)與特異性(specificity)帖汞。
長讀長測序方法的主要局限就是當前的通量缚柏。在Illumina平臺上,運行單次的RNA-seq可以生成10E9-10E10條短讀長呻畸,但是在PacBio和ONT平臺上移盆,一次RNA-seq則只能產(chǎn)生10E6-10E7條讀長。這種低通量限制了應用長讀長測序技術(shù)進行實驗的規(guī)模伤为,并降低了對差異基因表達檢測的靈敏性咒循。然而,并非所有的實驗都需要高深度測序绞愚。對于那些主要研究異構(gòu)體的發(fā)現(xiàn)以及其特征的研究者們來說叙甸,測序長度比測序深度更重要。例如1百萬個PacBio環(huán)形一致性測序(circular consensus-sequencing, CCS)的讀長幾乎就可以保證產(chǎn)生那些大于1kb的高表達基因的檢測位衩,ONT測序技術(shù)也是如此裆蒸。
因此,對于那些低到中等水平表達的基因來說蚂四,測序深度確實是一個主要問題光戈。當進行同期功能基因組學分析(contemporary functional genomics analysis)大規(guī)模的DGE實驗時,這種低通量測序技術(shù)的局限就會表現(xiàn)得明顯遂赠。在這些研究中久妆,必須對多個樣本組進行分析,每組就是由多個生物學重復構(gòu)成的跷睦,這樣就能夠?qū)崿F(xiàn)充分的統(tǒng)計功效來有確認那些在整個轉(zhuǎn)錄組水平上發(fā)生的精確變化筷弦。對于這種需求,長讀長技術(shù)不太可能取代短讀長技術(shù),除非長讀長的測序讀長的生成量能提高2個數(shù)量級烂琴。隨著全長RNA-seq讀長數(shù)目的增加爹殊,轉(zhuǎn)錄本檢測的靈敏度將會增加到類似于Illumina平臺上的這種水平,并同時具有更高的特異性奸绷。與此同時梗夸,通過將Illumina 的短讀長RNA-Seq與PacBio的長讀長Iso-Seq結(jié)合(并且可能還與ONT方法結(jié)合),可以增加全長RefSeq注釋的異構(gòu)體檢測的數(shù)量号醉、靈敏性和特異性反症,同時保留轉(zhuǎn)錄本量化的質(zhì)量。雖然長讀長RNA-seq方法目前的實驗成本較高畔派,但它們可以檢測到短讀長方法遺漏的異構(gòu)體铅碍,尤其是那些難以測序但與臨床相關(guān)的區(qū)域,例如高度多態(tài)的人類MHC或雄激素受體线椰。
長讀長測序平臺的第二個主要局限就是其更高的錯誤率胞谈,它比成熟的Illumina測序儀要高出一到兩個數(shù)量級。長讀長測序平臺上生成的數(shù)據(jù)還包含更多的插入-刪除錯誤憨愉。雖然這些錯誤與識別變化(variant calling)有關(guān)烦绳,但在RNA-seq中,每個堿基都被正確識別并非那么重要而長讀長測序的目標是要闡明轉(zhuǎn)錄本和異構(gòu)體(While these error rates are of concern for variant calling, in RNA- seq it is less crucial that every base be called correctly, as the goal is only to disambiguate transcripts and isoforms)配紫。這種錯誤率對于其應用來說確實是一個值得觀注的問題爵嗅,現(xiàn)在正在解決這一問題。PacBio SMRT測序平臺上出現(xiàn)的隨機錯誤通潮恳希可以通過使用CCS增加測序深度來進行解決睹晒,在這種技術(shù)里,cDNA經(jīng)過長度選擇和接頭進行環(huán)化后括细,每個分子就可以被多次測序伪很,從而產(chǎn)生長度范圍是10-60kb的連續(xù)長讀長,并且包含許多原始cDNA的拷貝奋单。這些長讀長經(jīng)過數(shù)據(jù)分析后就被處理為單個cDNA子子讀長(subreads)锉试,這些子讀長被組合后就可以產(chǎn)生一致的序列。分子測序的次數(shù)越多览濒,產(chǎn)生的錯誤率就越低呆盖;CCS已經(jīng)被證明可以將錯誤率降低到與短讀長相當?shù)乃剑踔粮痛选5怯τ郑瑢⒏嗟倪@個平臺的測序能力用于重新讀取相同的分子,就又加劇了其測序通量的問題乏苦,因為可以讀取的唯一轉(zhuǎn)錄本變得更少了株扛。
長讀長RNA-seq方法的靈敏度還受到其他幾個因素的限制尤筐。首先,它們依賴于長RNA分子以全長轉(zhuǎn)錄本的形式進行測序洞就,但是要達到這種情況并非總能實現(xiàn)盆繁,因為在樣品處理和RNA提取過程中RNA會發(fā)生降解或剪接。這種情況在短讀長RNA-seq中也存在(3?端的偏倚)旬蟋,但這種問題在短讀長中是可控的油昂,對于全長轉(zhuǎn)錄組分析進行研究的研究者們來說,即使是低水平的RNA降解倾贰,也能限制長讀長的RNA-seq效果秕狰。因此,對于那些即將使用長讀長進行測序的研究者來說躁染,需要仔細地對提取的RNA進行質(zhì)控。其次架忌,中位數(shù)的讀長長度會進一步受到文庫制備中的技術(shù)問題與偏倚的限制吞彤,例如有些cDNA合成的截斷或某些cDNA是由降解的mRNA合成的,最近開發(fā)的高效逆轉(zhuǎn)錄酶對此有所改進叹放,這些酶有著更高的鏈特異性饰恕,甚至能夠產(chǎn)生更多的3?-5?轉(zhuǎn)錄本的覆蓋。雖然這些酶還未被廣泛使用井仰,但是這些高效逆轉(zhuǎn)錄酶也提高了結(jié)構(gòu)穩(wěn)定的RNAs埋嵌,例如tRNAs的覆蓋率,在oligo-dT和全轉(zhuǎn)錄組分析(WTA)方法中使用的逆轉(zhuǎn)錄酶很難處理這些結(jié)構(gòu)穩(wěn)定的RNAs俱恶。第三雹嗦,長讀長測序平臺固有的偏倚(例如長文庫分子在測序芯片表面上的低擴散)會降低更長轉(zhuǎn)錄本的覆蓋率。
長讀長方法(使用cDNA或dRNA-seq)解決了用于異構(gòu)體分析的短讀長測序方法中的一個基本問題合是,即它們的讀長長度了罪。長讀長方法可以生成從Poly(A)尾部到5?cap的跨異構(gòu)體的全長轉(zhuǎn)錄本讀長。因此聪全,這些方法使得分析轉(zhuǎn)錄本及其異構(gòu)體成為可能泊藕,從而無需從短的讀長中重構(gòu)它們或推斷它們的存在;每個測序的讀長僅僅代表了它的起始RNA分子难礼。全長cDNA測序或dRNA-seq用于分析DGE的未來應用將依賴于PacBio和ONT技術(shù)的更高通量娃圆。長讀長RNA-seq分析正被研究者們迅速采用,并與深度短讀長RNA-seq數(shù)據(jù)結(jié)合起來蛾茉,用于更全面的分析讼呢,這非常類似于基因組組裝所采取的混合方法。
隨著時間的推移谦炬,長讀長和dRNA-seq方法可能會用于證明已經(jīng)鑒定的基因和轉(zhuǎn)錄本的列表吝岭,即使在研究很透的生物中,對于基因和轉(zhuǎn)錄本的研究也還遠遠不夠。隨著方法的成熟窜管,以及測序通量的增加散劫,差異轉(zhuǎn)錄本分析將會成為常規(guī)方法。合成長讀長RNA-seq或其它技術(shù)的發(fā)展將對這個領域產(chǎn)生什么樣的影響幕帆,還有待觀察获搏。然而從目前來看,Illumina短讀長RNA-seq依然占據(jù)了主導地位失乾,在這篇綜述的剩下部分中我們將會集中討論短讀長測序常熙。
改良RNA-seq建庫方法
RNA-seq最初用于分析多聚腺苷酸化的轉(zhuǎn)錄本,使用的方法源于早期的表達序列標簽(expressed-sequence tag)和芯片研究碱茁。然而裸卫,下一代測序的使用指出了這些方法的局限性,而這些局限性在芯片數(shù)據(jù)中并不明顯纽竣。因此墓贿,在RNA-seq首次報道后不久,就有研究報道了文庫制備方法的一些重大進展蜓氨。例如聋袋,在cDNA合成之前,對RNA進行片段化可以產(chǎn)生3?:5?偏倚穴吹,鏈特異性文庫制備方法能夠更好的區(qū)分正義鏈與反義鏈幽勒,這些改進都能夠?qū)D(zhuǎn)錄本豐度進行更準確的估計。
RNA片段化和鏈特異性文的制備很快就成了RNA-seq文庫制備試劑盒中的標準方法港令。這里我們簡要描述了其它RNA-seq方法的改良啥容,使用這些改進方法的可以讓研究者們根據(jù)他們的生物學問題以及特定樣本進行選擇。這些改進的方法包括在選擇RNA進行測序時顷霹,取代dligo-dT富集的替代方法干毅,或者是那些專門選擇轉(zhuǎn)錄本的3?或5?末端的方法,或者是使用UMIs進行區(qū)分技術(shù)重復和生物重復的方法泼返,以及針對RNA易降解特性改良的文庫制備方法硝逢。這些方法的組合可以使研究者們闡明由可變poly(A)(alternative poly(A),APA),或替代啟動子(alternative promoter)使用和可變剪接(alternative splicing)生成的復雜轉(zhuǎn)錄本绅喉。
Poly(A)富集的替代方法
大多數(shù)發(fā)表的RNA-seq數(shù)據(jù)都是基于oligo-dT富集的mRNA方法渠鸽,這種方法會選擇包含poly(A)尾的轉(zhuǎn)錄本,并將集中測序測序那些在轉(zhuǎn)錄組的蛋白質(zhì)編碼區(qū)上柴罐。不過這種方法除了產(chǎn)生3?偏倚外徽缚,RNA中還有許多非編碼RNA,例如miRNA和增強子RNA革屠,這些RNA不含有poly(A)凿试,因此不能使用這種方法進行研究排宰。如果不進行poly(A)富集也無法達到目的,因為這會導致高達95%的讀長來源于rRNA那婉。因此板甘,研究者們可以選擇使用oligo-dT用于mRNA-seq,或者是剔除rRNA后進行WTA详炬。短的非編碼RNAs無法被oligo-dT方法捕獲盐类,使用WTA也很難對其進行研究,因此在研究非編碼短RNA時需要特定的小RNA方法呛谜,這些方法主要是通過順序RNA連接(sequential RNA ligation)實現(xiàn)的(通常小RNA建庫試劑盒中就有相應的說明)在跳。
WTA生成的RNA-seq數(shù)據(jù)來源于編碼和一些非編碼RNA。RNA的部分降解也能使用這種方法進行測序隐岛,RNA的降解會導致一些poly(A)從轉(zhuǎn)錄的末端分離猫妙。rRNA的去除有兩種方法,一種是將rRNAs從其它RNA中剔除掉(所謂的pull-out法)聚凹,另一種就是使用RNAse H酶來對rRNA進行降解割坠。這兩種方法都是使用序列特異性和物種特異性寡核苷酸探索來實現(xiàn)的,這些探針能與細胞質(zhì)rRNA(5S rRNA元践,5.8S rRNA,18S rRNA和28S rRNA)和線粒體rRNA(12S rRNA和16S rRNA)互補童谒。為了簡化人類单旁,大鼠,小鼠或細菌(16S和23S rRNA)樣本的處理饥伊,通常將預先混合的寡核苷酸添加到RNA中象浑,然后讓它們與rRNA進行雜交,以便進行下一步的清除琅豆。其它高豐度的轉(zhuǎn)錄本愉豺,例如珠蛋白(globin)或線粒體RNA也可以按照類似的方法去除。pull-out方法結(jié)合了生物素化的探針和鏈霉素包裹的磁珠茫因,它們可以用于除去寡聚的rRNA復合物蚪拦,留下剩余的RNA用于建庫例如Ribo-Zero(Illumina,USA)和RiboMinus(Thermo Fisher冻押,USA)驰贷。RNase H酶降解法可以降低那些生成的loigo-DNA:RNA復合物,例如洛巢,NEBNext RNA depletion(NEB括袒,USA)和RiboErase(Kapa Biossystems,USA)稿茉。最近對這些方法的比較說明锹锰,在高質(zhì)量的RNA中芥炭,這兩種方法都可以將rRNA降低至后續(xù)RNA-seq讀長的20%以下。但是恃慧,作者說明了园蝠,RNase H方法比pull-out法的穩(wěn)定性要強,并且比較不同試劑盒時糕伐,最后得到的DGE長度的偏倚比較明顯砰琢。作者還描述了另外一種類似于RNase H的方法,這種方法表現(xiàn)不錯良瞧,并且以前沒有報道過陪汽。ZapR方法是Takara Bio的一項專有技術(shù),它使用一種酶來降解RNA-seq文中的rRNA片段褥蚯。rRNA剔除方法的一個局限是挚冤,相比對oligo-dT RNA測序方法,rRNA剔除方法需要更高的測序深度赞庶,主要是因為里面還會存有一定的rRNA训挡。
Oligo-dT和rRNA剔除法都可以用于后續(xù)實驗的DGE分析,研究者們可能會默認使用以前在他們的實驗室中使用的方法或最容易使用的方法歧强。然而澜薄,對于這些方法的使用應該考慮一些因素,尤其是那些易降解的樣本摊册,另外肤京,WTA方法會檢測到更多的轉(zhuǎn)錄本,但是其實驗成本要高于oligo-dT方法茅特。
富集的RNA 3?末端用于Tag RNA-seq以及可變多聚腺苷酸分析(Enriching RNA 3?ends for Tag RNA- seq and alternative polyadenylation analysis.)
標準的短讀長Illumina方法需要對每個樣本生成10萬到30條(10M到30M條)讀長用于高質(zhì)量的DGE分析忘分。對于那些專注于基因水平表達,并從事大型或高度重復實驗的研究者們白修,或資源受限的研究者來說妒峦,可以選擇使用3?tag計數(shù)。由于測序集中在轉(zhuǎn)錄本的3?末端兵睛,因此需要的讀長(reads)更少肯骇,這就降低了成本,并且一次測序的樣本數(shù)目也可以更多祖很。富集的3?末端也可以用于確定單個轉(zhuǎn)錄本的poly(A)位點累盗,而由于mRNA前體上存在的APA,其3‘末端可能會發(fā)生變化突琳。
3? mRNA-seq方法會產(chǎn)生每個轉(zhuǎn)錄本的單個標簽讀長(tag read)若债,這些讀長來源于3?末端,這個標簽(tag)豐度與轉(zhuǎn)錄本的豐度是成正比的拆融。標簽測序法(tag-sequencing protocols)蠢琳,例如QuantSeq(Lexogen, Austria)通常比標準RNA-seq法流程更為簡單啊终。標簽測序法已經(jīng)進行了優(yōu)化,這種方法使隨機引物或錨定的oligo-dT-primed來進行cDNA合成傲须,從而并不需要poly(A)富集這一步驟蓝牲,并在cDNA合成后立即進行PCR,從而取代了接頭連接步驟泰讽。這種方法可以在低測序深度上實現(xiàn)與標準RNA-seq類似的靈敏度水平例衍,因此,這種方法可以使用多路復用的形式實現(xiàn)多個文庫的同步測序已卸。這種建庫方法的數(shù)據(jù)分析也進行了簡化佛玄,因為不需要外顯子連接檢測和基因長度測序讀長的歸一化。但是累澡,3? mRNA-seq方法可能會被受到轉(zhuǎn)錄本同聚區(qū)(homopolymeric regions0的影響梦抢,這會導致錯誤標簽;這種方法只能提供非常有限的異構(gòu)體分析愧哟,這就會抵消它們較低測序深度帶來的任何成本收益奥吩,尤其是對于那些僅夠一次使用的樣本來說。
mRNAs的APA化會產(chǎn)生3? UTR長度不等的異構(gòu)體蕊梧。對于一個特定的基因來說霞赫,它不僅產(chǎn)生了這個基因的多個亞型,而且由于3?UTR中存在著順式調(diào)控元件肥矢,這也會影響該轉(zhuǎn)錄本的調(diào)控端衰。這種方法可以使用那些研究APA的研究者們更詳細地研究miRNA的調(diào)控作用,mRNA的穩(wěn)定和定位橄抹,以及mRNA的翻譯靴迫。APA法指在富集轉(zhuǎn)錄本的3?末端惕味,從而提升信號與靈敏度楼誓,而前面提到的標簽測序法非常適合此目的。其它方法多聚腺苷酸位點測序(polyadenylation site sequencing,PAS-seq)名挥,這種方法可以將mRNA打斷為150bp左右的片段疟羹,并且使用oligo-dT標記的模板轉(zhuǎn)換來生成cDNA用于測序,其中的80%讀長就來源于3?UTR禀倔。TAIL-seq方法能不使用oligo-dT榄融,在對RNA進行打斷之前,這種方法會剔除rRNA救湖,并將3?-RNA接頭連到的poly(A)的尾部愧杯。當片段化后,再加上5?-RNA接頭就完成了RNA-seq文庫的制備鞋既。在RNA-蛋白分析方法中也能評估APA力九,例如紫外交聯(lián)免疫沉淀(cross- linking immunoprecipitation, CLIP)測序耍铜。
富集的RNA 5?末端用于起始位點回貼(Enriching RNA 5?ends for transcription start- site mapping)
使用富集7-甲基鳥苷5?加帽RNA(7-methylguanosine 5?-capped RNA)也可以進行DGE分析,這種方法可以用來鑒定啟動子和轉(zhuǎn)錄起始位點(TSSs)〉埃現(xiàn)存有幾種方法都可以實現(xiàn)這個目的棕兼,但是這些方法很少作為常規(guī)手段來進行使用。在對基因表達的加帽分析(CAGE, cap analysis of gene expression)抵乓,以及用于基因表達分析的啟動子的RNA注釋和定位(RAMPAGE, RNA annotation and mapping of promoters for analysis of gene expression)分析中伴挚,當使用隨機引物生成第一鏈cDNA后,mRNA 5?的帽子結(jié)構(gòu)就被生物素化灾炭,這就可以將5? cDNA通過鏈霉親和素進行富集茎芋。CAGE使用II型限制性內(nèi)切酶來生成短的cDNA標簽,這種酶會從5?端的接頭下游切割21-27p的核核苷酸咆贬。相比之下败徊,RAMPAGE操作則使用模板轉(zhuǎn)換(template switching)來生成較長的cDNA,這個cDNAs隨后被富集起來掏缎,用于測序皱蹦。單細胞標簽逆轉(zhuǎn)錄測序技術(shù)(single-cell-tagged reverse transcription sequencing, STRT-seq)能夠在單細胞水平上實現(xiàn)TSS的回貼(mapping)。STRT-seq技術(shù)使用生物素化的模板轉(zhuǎn)換oligos來生成cDNA眷蜈,被磁珠捕獲后沪哺,就在5?末端進行片段化,產(chǎn)生短的cDNA標簽酌儒。作為CAGE基礎的5?末端的加帽技術(shù)是由日本理化所(Riken)開發(fā)的辜妓,這種技術(shù)用于早期功能基因組學實驗中,使全長cDNA克隆數(shù)量最大化忌怎。日本理化所主導的小鼠功能注釋(FANTOM, Functional Annotation of the Mouse)協(xié)會通過闡明了1300多個人類和小鼠原代細胞籍滴,組織和細胞系的TSS,這充分顯示了CAGE的強大榴啸。在最近一些方法比較中孽惰,CAGE也表示不俗。但是作者卻報道說鸥印,僅使用5?末端測序產(chǎn)生的假陽性TSS峰也是最多的勋功,他們建議使用正交方法進一步來確認陽性,例如DNase I的回貼或H3K4me3染色質(zhì)免疫沉淀測序(ChIP-seq)库说。
使用唯一分子標識符來檢測PCR重復
RNA-seq數(shù)據(jù)通常具有較高的重復率(duplication rates)狂鞋,也就是說許多測序讀長會回貼到轉(zhuǎn)錄組的相同位置。與全基因組測序不同的是潜的,在全基因組測序中骚揍,重復的讀長被以認為是PCR這一步中出現(xiàn)的技術(shù)偏倚導致的,它會被移除啰挪,而在RNA-seq中信不,這些重復的讀長則被認為是真正的生物學信號并被保留纤掸。在一個樣本中,數(shù)百萬個起始RNA分子也許代表了高表達的轉(zhuǎn)錄本浑塞,當對cDNA進行測序時借跪,就會發(fā)現(xiàn)很多片段是相同的。因此酌壕,在比對(alignment)過程中掏愁,并不建議通過計算去除那些不必要的重復,因為這些重復中很多是真正的生物信號卵牍。當使用單端測序(single-end sequencing)時更是如此果港,因為一對片段中只要一端相同,就可以被認為是一個重復(duplicate)糊昙,至于雙端測序(paired-end sequencing)辛掠,兩端必須在同一位置時才能被認為是一個重復,但這種情況很少释牺。但是萝衩,由于PCR偏倚,在制備cDNA文庫時没咙,還會存在著某種程度上技術(shù)重復猩谊,并且PCR復制偏倚是一種質(zhì)控問題,它有可能對RNA-seq實驗結(jié)果造成影響時祭刚,很難區(qū)分出這些技術(shù)重復與生物重復的程度牌捷。
現(xiàn)在已經(jīng)提到將UMIs作為一種解釋擴增偏倚的方法。
在擴增前將隨機UMIs添加到cDNA分子中涡驮,使得能夠確認PCR重復暗甥,并且可以在后續(xù)的數(shù)據(jù)分析中將其除去,同時保護真正的生物學重復捉捅,從而改善基因表達的量化和等位基因頻率估計的效果撤防。當一對測序讀長被確認為一個技術(shù)重復時,它們應該包括相同的UMI锯梁,并且被回貼到轉(zhuǎn)錄組中相同的位置(一端或兩端即碗,這取決于使用的是單端測序還是雙端測序)焰情。
UMIs已經(jīng)被證明能夠降低變異和錯誤發(fā)現(xiàn)率來提升RNA-seq中的DGE數(shù)據(jù)分析陌凳,并且這種方法在單細胞數(shù)據(jù)分析方面也有著重要作用,單細胞數(shù)據(jù)中的擴增偏倚可能更為嚴重内舟。當試圖在RNA-seq數(shù)據(jù)中進行變異檢測(variant calling)時合敦,UMIs也非常有用。雖然高表達的轉(zhuǎn)錄本可以產(chǎn)生適合這種變異檢測的高覆蓋率验游,尤其是包含了了這種重復時充岛,但UMIs可以用于去他可能導致第二位基因頻率錯誤計算的擴增假象保檐。
UMIs正在成為單細胞RNA-seq(scRNA-seq)的文庫制備試劑盒中的標準,同時它也日益頻繁地用于常規(guī)RNA-seq崔梗。
提高降解RNA的分析
RNA-seq文庫制備方法的發(fā)展也改進了低質(zhì)量或降解RNA的分析夜只,例如從臨床相關(guān)獲得的那些用福爾馬林固定石蠟包埋(FFPE)塊存儲的樣本中的RNA。低質(zhì)量的RNA會導致不均勻的基因覆蓋率蒜魄,更高的DGE假陽性率和更高的重復率扔亥,它們與文庫的復雜性呈負相關(guān)。但是谈为,文庫的制備方法已經(jīng)被改良旅挤,改良后的方法能降低RNA降解的影響。這些方法可能在基于RNA-seq的診斷技術(shù)的發(fā)展中顯得尤為重要伞鲫,例如將來有可能出現(xiàn)的類似于OncotypeDX(目前并不是測序分析)的診斷粘茄,這種試劑盒基于21個基因RNA的標簽來預測乳腺癌的復發(fā)。雖然現(xiàn)在有幾種方法可以使用秕脓,但是比較后發(fā)現(xiàn)兩種方法表現(xiàn)最好柒瓣,即RNase H與RNA exome。我們前面提到吠架,RNase H法使用核酸本科來降低RNA:DNA復合物中的rRNA嘹朗,但是它卻能阻止mRNA的降解。RNA exome方法使用類似于外顯子測序(exome sequencing)那樣的方法诵肛,使用寡核苷酸探針來捕獲RNA-seq文庫分子屹培。這兩種方法都能通過減少rRNA,同時不影響mRNA的手段來產(chǎn)生高質(zhì)量和高度一致的基因表達數(shù)據(jù)怔檩。3?末端標記測序技術(shù)與擴增子測序(在PCR擴增中能產(chǎn)生超過2萬個外顯子擴增子)方法也可以用于分析降低的RNA褪秀,但是這兩種方法并沒有RNase H方法使用廣泛。
設計更好的RNA-seq實驗
仔細設計DGE RNA-seq實驗對于獲取高質(zhì)量和生物意義數(shù)據(jù)有著非常重要的意義薛训。尤其是要考慮到復制的層次媒吗,測序深度以及單端還是雙端測序。
重復與實驗功效(replication and experimental power)
在一個實驗中乙埃,足夠的生物學重復(biological replicates)能夠捕獲不同樣本之間的生物學變異闸英;在定量分析中的置信度依賴于測序深度與讀長長度。雖然RNA-seq比芯片表現(xiàn)了更低的技術(shù)偏倚介袜,但是生物系統(tǒng)中固有的隨機變化都要求任何RNA-seq實驗要做生物學重復甫何。使用額外的重復能夠確定異常樣本,在必要情況下遇伞,在進行生物學分析之前辙喂,移除這些異常樣本或降低這些異常樣本的權(quán)重。確定生物學重復需要考慮幾個因素,包括效應大小(effect size)巍耗,組內(nèi)變異秋麸,可接受的假陽性和假陰性閾值,以及最大樣本數(shù)目炬太,有的時候還需要RNA-seq實驗設計工具或功效(power)計算工具的輔助灸蟆。
在一個實驗中要想確定一個合適的生物學重復并非是一件簡單的事情。一項48個重復的酵母研究表明亲族,當使用3個生物學重復時示辈,計算樣本用于DGE分析的工具只能檢測出20-40%的差異表達基因毛好。研究表明表窘,至少應該使用6個生物學重復匣屡,這個數(shù)量要超過文獻中常用的3到4個生物重復的數(shù)量。
最近的一項研究表明女气,4個生物學重復可能足夠的杏慰,但是研究指出,在確定合適的重復數(shù)目之前炼鞠,需要做一個預實驗來確定生物樣本的方差缘滥。對于高度多樣化的樣本,例如來自癌癥患者腫瘤的臨床組織谒主,可能需要更多的重復朝扼,以便能以更高的置信度來確定基因的變化。
確定合適的讀取深度(Determining the optimal read depth)
一旦文制備好霎肯,就需要決定對它們進行多深的測序擎颖。讀取深度指的是,每個樣本獲得的測序讀長的目標數(shù)目观游。對于真核基因組中的常規(guī)RNA-seq DGE分析來說搂捧,一般認為每個樣本需要100萬-300萬條讀長(也就是我們常說的10M到30M數(shù)量)。但是懂缕,在多個物種中的實驗結(jié)果顯示當每個樣本的測序讀長數(shù)量為1M時允跑,那么這個數(shù)量級的測序讀長提供的轉(zhuǎn)錄本豐度信息與轉(zhuǎn)錄組中表達最高表達量的一半的轉(zhuǎn)錄本30M測序提供的豐度信息類似。
如果實驗的重點是關(guān)注那些最高表達相對較大變化的基因搪柑,并且如果有足夠的生物學重復聋丝,那么就可以使用較低深度的測序就能解決驅(qū)動實驗的假設。測序完成后工碾,通過檢查讀長在樣本之間的分布以及檢查飽和曲線就能評估進一步的測序能夠增加實驗的靈敏度弱睦。隨著測序通量的增加,為了控制技術(shù)偏倚倚喂,可以將一個實驗的所有樣本都添加一個“混合”文庫中進行測序每篷,這已經(jīng)成了標準做法。
一次測序所需要讀長總數(shù)則是樣本數(shù)乘以讀取深度端圈;然后根據(jù)生成所需的讀長總數(shù)來對這個混合文庫進行多次測序焦读。這種合并需要嚴格檢測每個樣本RNA-seq文庫的濃度,并假設每個文庫中的cDNA量相對均值(低方差)舱权,因此總的讀長數(shù)目就會平均地分布在每個樣本上矗晃。在進行一次昂貴的,多泳道(lane)測序之前宴倍,運行單個泳道以驗證樣本之間的低方差通常是值得的张症。
選擇參數(shù):測序長度,單端測序或雙端測序
最終的測序參數(shù)包括測序長度鸵贬,單端測序還是雙端測序俗他。在許多測序應用中,測序讀長的長度對于數(shù)據(jù)的利用有著重要的影響阔逼,因此更長的讀長可以使測序的DNA覆蓋率更高兆衅。當使用RNA-seq來進行DGE分析時這種方法并不適用,其中重要的原因則是嗜浮,確定每個讀長來源于轉(zhuǎn)錄組的哪個位置的能力有限羡亩。一旦一個讀長能夠明確其回貼位置,那么較長的讀長在基于量化的分析中就不會再提供太多的價值危融。對于那些更定性的RNA-seq分析來說畏铆,例如特定異構(gòu)體的鑒定,更長的讀長可能更有用吉殃。
單端測序與雙端測面臨的問題是類似的辞居。在單端測序中,每個cDNA片段只有一個末端(3?端或5?端)用于產(chǎn)生測序讀長蛋勺,但雙端測序則是一個片段產(chǎn)生2條讀長(一個是3?端速侈,一個是5?端)。在那些需要盡可能高的核苷酸覆蓋率的分析實驗中迫卢,long reads長讀長雙端測序可能更好倚搬。
然后,DGE分析不需要對轉(zhuǎn)錄本片段的每個堿基都進行測序乾蛤,在DGE分析中每界,研究者只需要比對后,統(tǒng)計出那些回貼到轉(zhuǎn)錄本上的讀長數(shù)目即可家卖。例如眨层,通過比較測序讀長發(fā)現(xiàn),“短”的50bp單端測序與“長”的100bp雙端測序所產(chǎn)生的DGE結(jié)果沒有區(qū)別上荡。這是因為單端測序足以鑒定出大多數(shù)測序片段來源的基因趴樱。同樣的研究表明馒闷,使用短的單端測序降低了檢測出異構(gòu)體的能力,因為跨越剪接連接的讀長較少叁征。雙端測序還有助于消除讀長回貼的歧義纳账,并對可變外顯子量化(alternative-exon quantification),融合轉(zhuǎn)錄本檢測和從頭開始(de novo)的轉(zhuǎn)錄本發(fā)現(xiàn)捺疼,尤其是處理那些沒有很好注釋的轉(zhuǎn)錄本來說疏虫,雙端測序更是首選。
在實際應用中啤呼,單端測序或雙端測序之間的選擇通澄悦兀基于成本或研究者們可用的測序技術(shù)。在Illumina NovaSeq發(fā)布之前官扣,在多數(shù)情況下翅敌,每M讀長的單端測序的成本要低于雙端測序,因此惕蹄,在相同實驗成本的前提下哼御,單端測序能夠?qū)崿F(xiàn)更高的復制或讀長深度。
在Illumina NovaSeq發(fā)布之前焊唬,在大多數(shù)情況下恋昼,單端測序的每百萬次讀取的成本低于成對末端測序,因此允許以相同的實驗成本進行更高的復制或讀取深度赶促。當選擇了更多的短單端測序讀長和產(chǎn)生更長的雙端測序讀長后液肌,那么增加讀取深度將對提高DGE實驗的靈敏度產(chǎn)生更大的影響。