A survey of best practices for RNA-seq data analysis
RNA-seq數(shù)據(jù)分析指南
內(nèi)容
前言
各位同學(xué)/老師支子,大家好,現(xiàn)在由我給大家講講我的文獻(xiàn)閱讀報(bào)告!
A survey of best practices for RNA-seq data analysis ,我把它叫做RNA-seq數(shù)據(jù)分析指南。這篇文章是由佛羅里達(dá)大學(xué)等單位的研究人員在1月26日發(fā)表在Genome Biology上的枢里,該期刊的影響因子有10.8分。這是這篇文章的通訊作者狡赐,應(yīng)該挺靠譜的。
新一代測(cè)序技術(shù)在爆炸式發(fā)展的同時(shí)钦幔,也衍生出許多其他技術(shù)創(chuàng)新枕屉。RNA-Seq就是其中之一,這項(xiàng)技術(shù)使我們對(duì)細(xì)胞發(fā)育及其調(diào)控機(jī)制的理解鲤氢,達(dá)到了前所未有的深度和廣度搀庶。RNA-seq可以獲得相當(dāng)驚人的數(shù)據(jù)量拐纱,而這恰恰是一柄雙刃劍。豐富的數(shù)據(jù)量蘊(yùn)含著大量的寶貴信息哥倔,但這樣的數(shù)據(jù)需要復(fù)雜的生物信息學(xué)分析秸架,才能從中提取到有意義的結(jié)果。
正因如此咆蒿,數(shù)據(jù)分析可以說(shuō)是RNA-seq的重中之重东抹。RNA-seq有非常廣泛的應(yīng)用,但沒(méi)有哪個(gè)分析軟件是萬(wàn)能的沃测$郧科學(xué)家們一般會(huì)根據(jù)自己的研究對(duì)象和研究目標(biāo),采用不同的數(shù)據(jù)分析策略〉倨疲現(xiàn)在人們已經(jīng)發(fā)表了大量的RNA-seq和數(shù)據(jù)分析方案馏谨,對(duì)于剛?cè)腴T的新手來(lái)說(shuō)難免有些無(wú)所適從。這篇文章概述了RNA-seq生物信息學(xué)分析的現(xiàn)行標(biāo)準(zhǔn)和現(xiàn)有資源附迷,為人們提供了一份RNA-seq數(shù)據(jù)分析指南惧互,可以作為開(kāi)展RNA-seq研究的寶貴參考資料。
這份指南覆蓋了RNA-seq數(shù)據(jù)分析的所有主要步驟喇伯,比如質(zhì)量控制喊儡、讀段比對(duì)、基因和轉(zhuǎn)錄本定量稻据、差異性基因表達(dá)艾猜、功能分析、基因融合檢測(cè)捻悯、eQTL圖譜分析等等匆赃。研究人員繪制的RNA-seq分析通用路線圖(標(biāo)準(zhǔn)Illumina測(cè)序),將主要分析步驟分為前期分析今缚、核心分析和高級(jí)分析三類算柳。前期預(yù)處理包括實(shí)驗(yàn)設(shè)計(jì)、測(cè)序設(shè)計(jì)和質(zhì)量控制荚斯。核心分析包括轉(zhuǎn)錄組圖譜分析埠居、差異基因表達(dá)和功能分析查牌。高級(jí)分析包括可視化事期、其他RNA-seq技術(shù)和數(shù)據(jù)整合。研究人員在文章中探討了每個(gè)步驟所面臨的挑戰(zhàn)纸颜,也評(píng)估了一些數(shù)據(jù)處理方法的潛力和局限性兽泣。此外,他們還介紹了RNA-seq數(shù)據(jù)與其他數(shù)據(jù)類型的整合胁孙,將基因表達(dá)調(diào)控與分子生理學(xué)和功能基因組學(xué)關(guān)聯(lián)起來(lái)唠倦,這種研究方式如今越來(lái)越受到研究者的歡迎称鳞。這篇文章在結(jié)尾處介紹了一些為轉(zhuǎn)錄組領(lǐng)域帶來(lái)改變的新技術(shù),特別是單細(xì)胞RNA-seq和長(zhǎng)讀段測(cè)序技術(shù)帶來(lái)的機(jī)遇和挑戰(zhàn)稠鼻。
背景
高通量測(cè)序平臺(tái)
從這張圖冈止,橫軸是年份,縱軸是測(cè)序儀的通量候齿,圈里面的數(shù)字代表測(cè)序讀長(zhǎng)熙暴。我們可以看到測(cè)序儀的通量和讀長(zhǎng)都在增加了,其中Pacfic Biosciences 的三代測(cè)序儀讀長(zhǎng)最長(zhǎng)慌盯,可以達(dá)到14K周霉,illumina的測(cè)序儀通量最大,HiSeq X Ten的通量可以達(dá)到1.8T⊙窃恚現(xiàn)在Illumina生產(chǎn)的測(cè)序儀占主要的市場(chǎng)份額俱箱,我們來(lái)單獨(dú)看看他的測(cè)序儀參數(shù)。
從左到右灭必,測(cè)序儀的通量逐漸增大狞谱,它們適合不同的樣品和測(cè)序目的。Miseq通量比較低厂财,適合宏基因組等微生物測(cè)序芋簿;Hiseq通量太高了,如果你送去公司測(cè)序璃饱,他們一般要20~30天才能返回?cái)?shù)據(jù)与斤,是因?yàn)楣疽鄯e很多樣品,加標(biāo)簽后一起測(cè)序荚恶。
高通量測(cè)序技術(shù)的應(yīng)用
這幅圖的橫軸是年份撩穿,縱軸是高通量技術(shù)應(yīng)用的代表性文章的引用量。不同的應(yīng)用技術(shù)用顏色進(jìn)行分類谒撼,數(shù)據(jù)點(diǎn)的大小跟發(fā)表率(引用率/月)成正比食寡。可以看出RNA-Seq測(cè)序技術(shù)的應(yīng)用最為廣泛廓潜。
實(shí)驗(yàn)設(shè)計(jì)
RNA-seq到底測(cè)的是什么抵皱?**
mRNA在生物個(gè)體內(nèi)RNA的組分中只占很小的一部分,rRNA占絕大多數(shù)辩蛋。**一般我們說(shuō)
RNA-seq指的都是mRNA-seq呻畸,后面的流程也都是主要針對(duì)mRNA-seq數(shù)據(jù)分析的。在科學(xué)家們的努力下悼院,可以把那些非編碼RNA提取出來(lái)建庫(kù)伤为,進(jìn)行測(cè)序。
一個(gè)成功的RNA-seq研究据途,起決定性因素的是一個(gè)好的實(shí)驗(yàn)設(shè)計(jì)绞愚。還依賴于建庫(kù)的類型叙甸、測(cè)序深度和設(shè)置適于的生物重復(fù)。并且盡量減少測(cè)序本身以外帶來(lái)的數(shù)據(jù)誤差位衩。
文庫(kù)構(gòu)建
1.一般生物體中的的RNA中裆蒸,rRNA占絕大多數(shù),含量超過(guò)90%糖驴,而mRNA的含量在1-2%左右光戈。對(duì)于真核生物,一般使用加poly(A)選擇性富集mRNA或者而原核生物則是通過(guò)去除rRNA遂赠;
2.是否建stand-preserving庫(kù)久妆;
3.對(duì)于Illumina,測(cè)序插入片段一般小于500bp跷睦。確定合適長(zhǎng)度的插入片段是后續(xù)測(cè)序和分析的關(guān)鍵筷弦;
4.單端還是雙端測(cè)序毫無(wú)疑問(wèn)的是,單端測(cè)序更便宜一些抑诸,如果你研究的某個(gè)物種的基因表達(dá)水平烂琴,并且它的轉(zhuǎn)錄組已經(jīng)被注釋很好了,單端測(cè)序產(chǎn)生的數(shù)據(jù)量一般是足夠的了蜕乡。
雙端測(cè)序呢奸绷,它的讀長(zhǎng)更長(zhǎng),更適合于那些沒(méi)有被注釋的轉(zhuǎn)錄組物種的研究层玲,便于其轉(zhuǎn)錄本的從頭拼接号醉。
測(cè)序深度和重復(fù)數(shù)
這里的測(cè)序深度和重復(fù)數(shù)的設(shè)置呢。
- 測(cè)序深度和數(shù)據(jù)量不能一味加大辛块。測(cè)序深度雖然可以提高基因定量和檢測(cè)的敏感性(低豐度的基因)畔派,但是同時(shí)也會(huì)增加一些噪音和一些無(wú)用的轉(zhuǎn)錄本。
2.重復(fù)數(shù)润绵,很重要线椰。(舉例子:比較兩個(gè)班的語(yǔ)文成績(jī),抽取一個(gè)人代表一個(gè)班來(lái)比較尘盼,顯然是不科學(xué)的憨愉。)增加重復(fù)數(shù)可以減少實(shí)驗(yàn)誤差,對(duì)提高結(jié)果的可靠性卿捎,是非常有意義的配紫。
誤差分為技術(shù)誤差和生物學(xué)差異。
技術(shù)誤差-可以通過(guò)選擇最優(yōu)化的實(shí)驗(yàn)測(cè)序程序娇澎;生物誤差-三個(gè)生物學(xué)重復(fù)是最基本的啦笨蚁。
然后呢睹晒,設(shè)定生物學(xué)重復(fù)對(duì)差異基因的檢出率(真陽(yáng)性率 TPR)的提高具有明顯效果趟庄。上面說(shuō)增加測(cè)序深度可以檢測(cè)到低豐度基因括细,但是對(duì)任何樣品來(lái)說(shuō)的當(dāng)測(cè)序深度增加再增加,它就會(huì)到達(dá)平臺(tái)期戚啥。
由于科研經(jīng)費(fèi)有限奋单,無(wú)法無(wú)限制地增加樣本數(shù)或數(shù)據(jù)量。
所以在生物學(xué)重復(fù)數(shù)和單個(gè)樣本測(cè)序量上必須找到平衡點(diǎn)猫十。在總數(shù)據(jù)量不變的情況下览濒,將總數(shù)據(jù)量分配到更多的生物學(xué)重復(fù)樣本中,差異分析結(jié)果的可靠性在不斷提升拖云。
對(duì)于RNA-seq贷笛,生物學(xué)重復(fù)數(shù)的價(jià)值要大于單個(gè)樣本測(cè)序量。但增加生物學(xué)重復(fù)的樣本數(shù)宙项,意味著要增加建庫(kù)費(fèi)用乏苦。因此,即使總數(shù)據(jù)不變尤筐,設(shè)置過(guò)多的生物學(xué)重復(fù)也是不合理的汇荐。
我們最終確定設(shè)置多少生物學(xué)重復(fù)還是需要看樣本個(gè)體之間的差異大不大,這點(diǎn)我們一般都很清楚盆繁,在測(cè)序之前掀淘,如果你所研究的現(xiàn)象在兩個(gè)實(shí)驗(yàn)樣本之間差異很穩(wěn)定的話,就可以少設(shè)置一些重復(fù)油昂,差異不穩(wěn)定的話有時(shí)候設(shè)置10個(gè)/20個(gè)都不夠革娄。具體問(wèn)題具體分析!冕碟!
3. 測(cè)序深度(Sequencing depth)稠腊,也叫乘數(shù),指每個(gè)堿基被測(cè)序的平均次數(shù)鸣哀,是用來(lái)衡量測(cè)序量的首要參數(shù)架忌。研究表明,增加測(cè)序深度我衬,測(cè)序量從1.6M條reads增加到20M條reads,(75bp)但到10M條reads時(shí)就已經(jīng)達(dá)到平衡了叹放,80%的雞轉(zhuǎn)錄本被檢測(cè)到。在此基礎(chǔ)上增加測(cè)序量挠羔,它們會(huì)比對(duì)到已經(jīng)存在的轉(zhuǎn)錄本上井仰。
因此即使提高測(cè)序深度,低表達(dá)水平的基因的檢測(cè)是比較困難的破加。并且提高測(cè)序深度確實(shí)能夠增加基因差異表達(dá)的敏感度俱恶,但是并不能保證檢測(cè)到的差異具有生物學(xué)意義。
這篇2012年BMC Genomics的方法學(xué)文章,影響因子3.98至今被引用次數(shù) 87次合是。
直觀一些說(shuō)了罪,如果某個(gè)基因在RNA-seq結(jié)果顯示差異表達(dá),但QPCR結(jié)果表明這個(gè)基因表達(dá)差異不顯著聪全,
可以認(rèn)為這個(gè)基因RNA-seq結(jié)果為假陽(yáng)性泊藕;反之,這個(gè)結(jié)果就是真陽(yáng)性难礼。
生物學(xué)重復(fù)對(duì)差異表達(dá)分析的影響
如圖所示娃圆,在單樣本測(cè)序量保持不變的情況下,隨著生物學(xué)重復(fù)(n)的提高蛾茉,差異分析的假陽(yáng)性率(FPR)基本穩(wěn)定讼呢,但真陽(yáng)性率(TPR)在不斷提高。也就是說(shuō)提高生物學(xué)重復(fù)數(shù)谦炬,實(shí)驗(yàn)對(duì)差異基因的檢測(cè)更加敏感吝岭,那些差異倍數(shù)較小或差異量較低的差異表達(dá)基因(此類基因的差異檢測(cè)難度較大)能夠更加容易被檢測(cè)到。
如表2吧寺、3所示窜管,在一定的生物學(xué)重復(fù)數(shù)( n)的情況下,隨著單樣本測(cè)序量(Depth)的提高(25% → 100%)稚机,真陽(yáng)性率(TPR)都只有有限的提高幕帆。例如在n=3的情況下,單個(gè)樣本的測(cè)序量從25%提高到100%赖条,TPR僅僅從6.24%提高到8.95%失乾。在表3中,如果Depth等于25%不變纬乍,當(dāng)n從2提高到12碱茁,TPR的提高則是非常明顯的。因此測(cè)序深度對(duì)結(jié)果改善效果不如增加生物學(xué)重復(fù)仿贬。
總數(shù)據(jù)量不變纽竣,生物學(xué)重復(fù)數(shù)與單樣品測(cè)序量最佳組合
如果保持總測(cè)序量不變(即如果生物量重復(fù)數(shù)為n,則單個(gè)樣品的測(cè)序量降低為1/n,總數(shù)據(jù)量為n*1/n=1,保持不變)。如圖A,灰色實(shí)線代表不同的生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下茧泪,真陽(yáng)性率(TPR)的變化蜓氨。結(jié)果表明,隨著n的提高队伟,TPR率不斷提高穴吹。例如n=2,TPR約為3%,如果n=6,TPR則提高到22%嗜侮。
同時(shí)我們也可以對(duì)“單樣本測(cè)序量對(duì)差異表達(dá)分析的影響”再進(jìn)行深入觀察港令。
如果n保持不變啥容,但單個(gè)樣本的數(shù)據(jù)量不斷降低,TPR的降低十分緩慢顷霹。例如咪惠,n=3,單個(gè)樣本的數(shù)據(jù)量從100%降低到15%,TPR的值一直處于平臺(tái)期泼返,僅僅從9%降低到5%。 但是不同的生物學(xué)重復(fù)數(shù)和單樣本測(cè)序量的組合姨拥,對(duì)假陽(yáng)性率( FPR)的影響卻較小绅喉。如圖 B,灰色實(shí)線代表不同生物學(xué)重復(fù)數(shù)(n)和單樣本數(shù)據(jù)量(1/n)組合的情況下叫乌,真陽(yáng)性率(FPR)的變化柴罐。雖然 n 從2 變化到 96,F(xiàn)PR 基本沒(méi)有太大變化憨奸。
從圖中我們很容易發(fā)現(xiàn)革屠,基于負(fù)二項(xiàng)分布的差異分析檢驗(yàn)(P value),F(xiàn)PR 對(duì)生物學(xué)重復(fù)數(shù)和單個(gè)樣本數(shù)據(jù)量均不敏感排宰,始終保持低于 0.1%水平似芝。或者說(shuō)板甘,這個(gè)算法對(duì) FPR 的控制還是非常理想的党瓮。
討論
隨著測(cè)序單價(jià)的下降,目前市場(chǎng)上 RNA-seq 類項(xiàng)目的單樣本測(cè)序量正在不斷提高盐类。以 2G寞奸,PE100 測(cè)序的表達(dá)譜項(xiàng)目為例,其對(duì)應(yīng)的測(cè)序量為 20M 條 reads在跳。如果一條長(zhǎng)度為 1kbp 的低表達(dá)基因的表達(dá)量為 RPKM=0.5枪萄,其理論上可以檢測(cè)到的 reads 數(shù)為 20×0.5=10。所以低豐度基因的檢測(cè)猫妙,對(duì) RNA-seq 這個(gè)技術(shù)來(lái)說(shuō)并非最大問(wèn)題瓷翻。
第二個(gè)問(wèn)題“轉(zhuǎn)錄本表達(dá)量的高低變化”比“轉(zhuǎn)錄本的有無(wú)”更具有普遍的生物學(xué)意義。雖然個(gè)別基因的表達(dá)量變化程度割坠,可以使用 Qpcr 來(lái)驗(yàn)證逻悠。但我們往往也使用所有差異基因來(lái)統(tǒng)計(jì)某些規(guī)律。例如使用差異基因的 pathway 富集分析來(lái)尋找與性狀相關(guān)的 pathway韭脊。如果在全局水平的差異基因集并不可靠童谒,那么 pathway富集分析得出的結(jié)論的可靠性自然也受到影響。而全局水平的差異基因數(shù)量巨大沪羔,是難以使用 Qpcr 驗(yàn)證的饥伊。因此象浑,定量以及差異分析的準(zhǔn)確性是在 RNA-seq 中更值得關(guān)心的問(wèn)題。
測(cè)序設(shè)計(jì)
RNA-seq文庫(kù)的制備和測(cè)序過(guò)程:RNA碎裂琅豆,cDNA合成愉豺,接頭連接,PCR擴(kuò)增茫因,加標(biāo)簽(多樣品混合測(cè)序)蚪拦,上泳池測(cè)序;
如何減少誤差:
1. 使用末端帶隨機(jī)核酸的接頭或者使用化學(xué)碎裂法代替RNAse III碎裂法;
2. 不同批次實(shí)驗(yàn)或者不同runs冻押。
a. 如果樣品太多在一個(gè)批次或者一個(gè)run跑不完驰贷,為了避免技術(shù)誤差造成太大的實(shí)驗(yàn)誤差,要把樣品隨機(jī)分配到每個(gè)批次或runs中;(到底怎么設(shè)計(jì)洛巢,我們要討論一下@ㄌ弧!)
b. 如果你的樣品是多樣品混合測(cè)序稿茉,每個(gè)樣品要單獨(dú)加上標(biāo)簽锹锰,每個(gè)lanes要保證足夠的測(cè)序深度,為了保證所有的樣品在每個(gè)lane中都有漓库。如果送給公司去做的話恃慧,我們要選擇建庫(kù)水平好些的,并且要求他們這么去做渺蒿,應(yīng)該會(huì)更好糕伐。
質(zhì)量控制
重復(fù)數(shù):
技術(shù)重復(fù)(spearman秩相關(guān)系數(shù)R2>0.9);生物重復(fù)(主成分分析PCA)
原始數(shù)據(jù)的質(zhì)量控制:
原始數(shù)據(jù)回來(lái)后,你做完備份以后蘸嘶,做的第一件事情就是看看數(shù)據(jù)質(zhì)量如何良瞧,一般來(lái)自llumina測(cè)序平臺(tái)用軟件FastQC看;其他平臺(tái)的數(shù)據(jù)用軟件NGSQC训唱。一般會(huì)有原始數(shù)據(jù)的序列質(zhì)量褥蚯,GC含量,存在的接頭以及K-mers子串圖并且重復(fù)序列太多的reads况增。
并且reads 3‘末端的質(zhì)量低于前段赞庶,原因是隨著測(cè)序讀長(zhǎng)的增加,酶活性下降澳骤,熒光強(qiáng)度也在下降歧强,因此測(cè)序數(shù)據(jù)質(zhì)量逐漸降低乃是自然趨勢(shì)。常用的數(shù)據(jù)過(guò)濾的軟件有FASTX-Toolkit and Trimmomatic为肮,其他還有許多摊册,你也可以自己寫代碼處理數(shù)據(jù)。
Reads比對(duì)后的質(zhì)量控制(評(píng)估比對(duì)質(zhì)量的指標(biāo)):**比對(duì)上的reads占總reads的百分比颊艳; Reads比對(duì)到外顯子和參考鏈上的覆蓋度是否一致茅特;比對(duì)到基因組序列:多重比對(duì)reads忘分?比對(duì)到轉(zhuǎn)錄組序列:來(lái)自未被注釋的轉(zhuǎn)錄本的reads會(huì)丟失; 產(chǎn)生更多的多重比對(duì)reads; 轉(zhuǎn)錄本被定量以后白修,應(yīng)該看一下GC含量和基因長(zhǎng)度偏差妒峦,確定定量的方法是否適用。
轉(zhuǎn)錄本分析
把所有樣本的reads混合用于轉(zhuǎn)錄本的拼接兵睛。二代測(cè)序的轉(zhuǎn)錄組reads用于拼接還是存在一些問(wèn)題的肯骇,最終拼接結(jié)果不太理想。一個(gè)轉(zhuǎn)錄本的拼接結(jié)果會(huì)是10~100contigs祖很。三代測(cè)序的讀長(zhǎng)直接可以把一個(gè)轉(zhuǎn)錄本讀完了笛丙,完全不需要拼接。
RPKM/FPKM/TPM用來(lái)表示RNA-seq基因表達(dá)水平的值突琳;對(duì)于單端測(cè)序RPKM和FPKM值是一樣的若债,F(xiàn)PKM可以轉(zhuǎn)換成TPM符相。Cufflinks(支持雙端測(cè)序數(shù)據(jù)拆融,并且需要GTF格式的注釋文件)定量算法有……
提一個(gè)問(wèn)題,有那么多軟件到底怎樣才是好的啊终,選哪個(gè)軟件好呢镜豹?
功能分析
功能分析是標(biāo)準(zhǔn)轉(zhuǎn)錄組分析流程的最后一步,分析差異表達(dá)基因的分子功能和代謝通路蓝牲。
其他RNA-seq應(yīng)用
小RNA:
1.小RNA的長(zhǎng)度通常在18~34個(gè)堿基趟脂,包含了miRNAs, short-interfering RNAs (siRNAs),PIWI-interactingRNAs (piRNAs)以及其他種類的**例衍。
- sRNA-seq libraries are rarely sequenced as deeply as regular RNA-seq libraries because of a lack of complexity, with a typical range of 2–10 million reads.
3. 小RNA的數(shù)據(jù)分析流程跟常規(guī)RNA的分析流程不同昔期。
- miRTools 2.0 ,
a tool for prediction and profiling of sRNA species, uses by default reads that are 18–30 bases long
5. 比對(duì)到參考基因組上,比對(duì)軟件有:
Bowtie2 ,STAR , or Burrows-Wheeler Aligner (BWA) PatMaN and MicroRazerS map short sequences
多種數(shù)據(jù)整合分析
1. Moreover, the combination of RNA-seq and re-sequencing can be used both to remove false positives when inferring fusion genes and to analyze copy number alterations.
2. The statistically significant correlations that were observed, however, accounted for relatively small effects. (DNA methylation)
3. ….
4. 一些分析軟件:CORNA, MMIA,, MAGIA, and SePIA;
5.代謝組和轉(zhuǎn)錄組數(shù)據(jù)結(jié)合進(jìn)行通路分析佛玄,有一些軟件:MassTRIX, Paintomics, VANTED v2, and SteinerNet
整合多種組學(xué)數(shù)據(jù)分析還不是很成熟硼一,但是仍有一些軟件可以用。
展望
RNA-seq技術(shù)已經(jīng)成為轉(zhuǎn)錄組分析的標(biāo)準(zhǔn)方法梦抢。其相對(duì)應(yīng)的技術(shù)和數(shù)據(jù)分析工具還在不斷地發(fā)展般贼。
對(duì)低表達(dá)的基因的定量仍是一個(gè)等待解決的問(wèn)題; 三代測(cè)序技術(shù),Smart-seq和Smart-seq2應(yīng)用于轉(zhuǎn)錄組測(cè)序奥吩,所需要的樣品量少哼蛆,并且可以測(cè)定單細(xì)胞內(nèi)的RNA表達(dá)水平; Pacbio 技術(shù)可以直接測(cè)得接近全長(zhǎng)的轉(zhuǎn)錄本,可以有效解決二代測(cè)序技術(shù)拼接較為零碎以及潛在嵌合拼接的問(wèn)題霞赫;
目前的瓶頸:價(jià)格高(建庫(kù)價(jià)格和測(cè)序價(jià)格);
(1)需要多種長(zhǎng)度的文庫(kù)腮介;
(2)測(cè)序通量有限;Pacbio新推出的sequel測(cè)序儀端衰,比舊版本測(cè)序儀萤厅,通量提高了7倍(測(cè)序芯片的波導(dǎo)空數(shù)量從15萬(wàn)橄抹,提升到100萬(wàn)。所以惕味,有望進(jìn)一步提高Pacbio在轉(zhuǎn)錄組De Novo中的應(yīng)用面楼誓。
PS: 綜述類的文章主要是講解原理和優(yōu)缺點(diǎn),以及當(dāng)前趨勢(shì)和建議名挥,不可能說(shuō)看個(gè)綜述就學(xué)會(huì)了RNA-seq的全套分析疟羹,但是不看綜述,不了解原理禀倔,所有的分析卻都是無(wú)源之水無(wú)本之木榄融。
還有,綜述給的建議救湖,包括樣本數(shù)愧杯,數(shù)據(jù)量這些東西都是實(shí)驗(yàn)設(shè)計(jì)之初就得考慮的,但是大多數(shù)生信工程師拿到數(shù)據(jù)很多東西就沒(méi)得改變了鞋既,所以總是有人問(wèn)如果沒(méi)有重復(fù)的轉(zhuǎn)錄組數(shù)據(jù)用什么R包來(lái)找差異這樣的問(wèn)題力九。請(qǐng)大家分清楚理想和現(xiàn)實(shí)的差別。
摘要:
佛羅里達(dá)大學(xué)邑闺、加州大學(xué)Irvine分校等單位的研究人員在一月二十六日的Genome Biology雜志上發(fā)表文章跌前,概述了RNA-seq生物信息學(xué)分析的現(xiàn)行標(biāo)準(zhǔn)和現(xiàn)有資源,為人們提供了一份帶有注釋的RNA-seq數(shù)據(jù)分析指南陡舅。這將成為開(kāi)展RNA-seq研究的寶貴參考資料抵乓。
生物通報(bào)道:新一代測(cè)序技術(shù)在爆炸式發(fā)展的同時(shí),也衍生出許多其他技術(shù)創(chuàng)新靶衍。RNA深度測(cè)序(RNA-Seq)就是其中之一灾炭,這項(xiàng)技術(shù)使我們對(duì)細(xì)胞發(fā)育及其調(diào)控機(jī)制的理解,達(dá)到了前所未有的深度和廣度颅眶。盡管研究細(xì)胞RNA并不是什么新鮮事蜈出,但RNA-Seq的出現(xiàn)大大拓展了轉(zhuǎn)錄組研究的規(guī)模,取得了累累碩果帚呼,這些是傳統(tǒng)技術(shù)難以企及的掏缎。
RNA-seq可以獲得相當(dāng)驚人的數(shù)據(jù)量,而這恰恰是一柄雙刃劍煤杀。豐富的數(shù)據(jù)量蘊(yùn)含著大量的寶貴信息眷蜈,但這樣的數(shù)據(jù)需要復(fù)雜的生物信息學(xué)分析,才能從中提取到有意義的結(jié)果沈自。正因如此酌儒,數(shù)據(jù)分析可以說(shuō)是RNA-seq的重中之重。
RNA-seq有非常廣泛的應(yīng)用枯途,但沒(méi)有哪個(gè)分析軟件是萬(wàn)能的忌怎〖危科學(xué)家們一般會(huì)根據(jù)自己的研究對(duì)象和研究目標(biāo),采用不同的數(shù)據(jù)分析策略×裥ィ現(xiàn)在人們已經(jīng)發(fā)表了大量的RNA-seq和數(shù)據(jù)分析方案孽惰,對(duì)于剛?cè)腴T的新手來(lái)說(shuō)難免有些無(wú)所適從。
佛羅里達(dá)大學(xué)鸥印、加州大學(xué)Irvine(****爾灣)分校等單位的研究人員在一月二十六日的Genome Biology雜志上發(fā)表文章勋功,概述了RNA-seq生物信息學(xué)分析的現(xiàn)行標(biāo)準(zhǔn)和現(xiàn)有資源,為人們提供了一份帶有注釋的RNA-seq數(shù)據(jù)分析指南库说。這將成為開(kāi)展RNA-seq研究的寶貴參考資料狂鞋。
這份指南覆蓋了RNA-seq數(shù)據(jù)分析的所有主要步驟,比如質(zhì)量控制潜的、讀段比對(duì)骚揍、基因和轉(zhuǎn)錄本定量、差異性基因表達(dá)啰挪、功能分析信不、基因融合檢測(cè)、eQTL圖譜分析等等脐供。研究人員繪制的RNA-seq分析通用路線圖(標(biāo)準(zhǔn)Illumina測(cè)序)浑塞,將主要分析步驟分為前期分析借跪、核心分析和高級(jí)分析三類政己。前期預(yù)處理包括實(shí)驗(yàn)設(shè)計(jì)、測(cè)序設(shè)計(jì)和質(zhì)量控制掏愁。核心分析包括轉(zhuǎn)錄組圖譜分析歇由、差異基因表達(dá)和功能分析。高級(jí)分析包括可視化果港、其他RNA-seq技術(shù)和數(shù)據(jù)整合沦泌。
研究人員在文章中探討了每個(gè)步驟所面臨的挑戰(zhàn),也評(píng)估了一些數(shù)據(jù)處理方法的潛力和局限辛掠。此外谢谦,他們還介紹了RNA-seq數(shù)據(jù)與其他數(shù)據(jù)類型的整合。這種數(shù)據(jù)整合可以將基因表達(dá)調(diào)控與分子生理學(xué)和功能基因組學(xué)關(guān)聯(lián)起來(lái)萝衩,如今越來(lái)越受到研究者的歡迎回挽。
這篇文章在結(jié)尾處介紹了一些為轉(zhuǎn)錄組領(lǐng)域帶來(lái)改變的新技術(shù),特別是單細(xì)胞RNA-seq和長(zhǎng)讀取測(cè)序技術(shù)帶來(lái)的機(jī)遇和挑戰(zhàn)猩谊。
2015年年初千劈,RNA-Seq的數(shù)據(jù)分析方法如雨后春筍般涌現(xiàn)。三月份牌捷,Nature集團(tuán)旗下刊物發(fā)表了三篇介紹RNA-Seq數(shù)據(jù)分析新方法的文章墙牌,一篇發(fā)表在《Nature Methods》上涡驮,另外兩篇發(fā)表在《Nature Biotechnology》上。這三篇文章有一位共同的作者喜滨,那就是約翰霍普金斯大學(xué)計(jì)算生物學(xué)中心的Steven Salzberg捉捅,生物信息學(xué)和計(jì)算生物學(xué)領(lǐng)域的杰出科學(xué)家。Salzberg通過(guò)這些文章中分別介紹了三種新工具:HISAT虽风、StringTie和Ballgown锯梁。這些工具可以取代之前開(kāi)發(fā)的早期工具,為RNA-Seq提供了全新的數(shù)據(jù)分析方法焰情,從原始數(shù)據(jù)讀取到差異表達(dá)分析陌凳。(更多詳細(xì)信息參見(jiàn):三篇文章介紹RNA-Seq數(shù)據(jù)分析的新工具)
RNA測(cè)序究竟有多可靠呢?由美國(guó)FDA牽頭的測(cè)序質(zhì)量控制(SEQC)項(xiàng)目對(duì)RNA測(cè)序的準(zhǔn)確性内舟、可重現(xiàn)性和信息含量進(jìn)行了綜合性評(píng)估合敦。其初步調(diào)查結(jié)果發(fā)表在2014年09月的Nature Biotechnology雜志上,石樂(lè)明教授是這篇文章的通訊作者之一验游。研究人員用RNA參照樣本在全球多個(gè)實(shí)驗(yàn)室的Illumina HiSeq充岛、Life Technologies SOLiD、Roche 454平臺(tái)上進(jìn)行檢測(cè)耕蝉,主要評(píng)估RNA測(cè)序在接頭區(qū)域和差異性表達(dá)譜中的表現(xiàn)崔梗,并將其與芯片和定量PCR(qPCR)進(jìn)行比較。研究表明垒在,數(shù)據(jù)分析的算法會(huì)對(duì)RNA測(cè)序產(chǎn)生很大影響蒜魄,不同算法生成的轉(zhuǎn)錄本數(shù)據(jù)存在很大差異。(更多詳細(xì)信息參見(jiàn):石樂(lè)明教授Nature子刊:RNA測(cè)序到底可不可靠)
前幾天场躯,浙江大學(xué)和哈佛大學(xué)的研究人員在Cell Reports雜志上發(fā)表了一項(xiàng)單細(xì)胞mRNA-seq研究谈为。基因表達(dá)變異是小鼠胚胎干細(xì)胞(ESC)的一個(gè)重要特征踢关,但人們一直不清楚這背后的具體原因伞鲫。研究人員通過(guò)分析小鼠胚胎干細(xì)胞發(fā)現(xiàn),這些細(xì)胞表現(xiàn)出的異質(zhì)性是血清培養(yǎng)造成的签舞。他們?cè)谄渲需b定了高度變異的基因簇秕脓,以及獨(dú)特的染色質(zhì)狀態(tài)。研究顯示儒搭,雙價(jià)基因(bivalent gene)更容易出現(xiàn)表達(dá)變異吠架。進(jìn)一步研究表明,無(wú)血清培養(yǎng)可以減少小鼠ESC的異質(zhì)性和轉(zhuǎn)錄組變異师妙。這意味著诵肛,細(xì)胞內(nèi)的網(wǎng)絡(luò)變異大多是細(xì)胞外的培養(yǎng)環(huán)境造成的。(更多詳細(xì)信息參見(jiàn):浙大80后教授發(fā)表單細(xì)胞RNA測(cè)序研究)