RNA-Seq差異表達(dá)分析-擴(kuò)展綜述及新工具
理解不同生物在不同條件下表型差異的關(guān)鍵是確定不同條件下差異表達(dá)基因(DEGs)。轉(zhuǎn)錄組的高通量測序(RNA-Seq)是研究當(dāng)前問題的一個主要策略偷线。因此是掰,利用RNA-Seq數(shù)據(jù)進(jìn)行差異分析的方法和軟件在近些年得到了長遠(yuǎn)的發(fā)展闻妓。但是并沒有人考慮最合適的pipeline用來做RNA-Seq數(shù)據(jù)的差異分析佃扼。
最近來自巴西聯(lián)邦大學(xué)(Federal University of Technology, Brazil)的研究人員對于當(dāng)前六種mapping方法和九種差異表達(dá)分析的方法進(jìn)行了綜述激涤。用來評估各種方法是基于RNA-Seq數(shù)據(jù),qRT-PCR數(shù)據(jù)做為參考(gold standard)累提。同時他們也開發(fā)了一款軟件可以用來展示論文中所有的分析尘喝。
結(jié)果顯示,mapping的方法只有很小的影響在最后結(jié)果的分析上面斋陪⌒嗤剩考慮到實驗所采用的數(shù)據(jù)模型,利用 limma+voom鳍贾,NOIseq和DESeq2的三種分析方法得到的結(jié)果更加一致(consensus)鞍匾。這種結(jié)果暗示綜合多種分析方法產(chǎn)生的差異表達(dá)基因更加準(zhǔn)確交洗。
論文分析的流程圖
文獻(xiàn)來源: Costa-Silva J, Domingues D, Lopes FM (2017) RNA-Seq differential expression analysis: An extended review and a software tool. PLoS ONE 12(12): e0190152.
RNA-seq流程各階段軟件的最優(yōu)選擇
RNA-seq如今已經(jīng)成了最受寵愛的生信分析了骑科,而如今琳瑯滿目的各種生信軟件擺在具有新時代選擇困難癥的同學(xué)們眼前我們又犯難了。我們該選擇哪套流程哪種工具進(jìn)行分析呢构拳?我選的這種工具會不會不準(zhǔn)確最后下游驗證不出來那可就壞大事了咆爽。今天我們就來聊聊關(guān)于如何選擇最優(yōu)的RNA-seq軟件做分析,讓我們自信做生信人置森。
一斗埂、mapping比對軟件的選擇
1.比對軟件有tophat、bwa凫海、bowtie2呛凶、killisto、salmon和STAR等等行贪。但通過實驗(作者用的都是默認(rèn)的參數(shù))得到的結(jié)論:比對軟件對RNA-seq最后找DEG的影響非常的小漾稀,主要影響是有關(guān)于剪切比對及所耗計算機(jī)資源和比對速度模闲。
table.1 mapper軟件的差別
當(dāng)然還有當(dāng)下高效的比對軟件HISAT2也是支持spliced read aligner的
而且速度比STAR快1.2倍比Tophat快50倍。
fig.1 不同比對軟件和差異表達(dá)分析軟件之間的比較以qRT-PCR為金標(biāo)準(zhǔn)
2.可以看出不同比對軟件對最后的DEG影響不大崭捍,造成DEG有較大差異的軟件主要是差異表達(dá)分析軟件
二尸折、差異表達(dá)分析軟件的選擇
由上圖fig.1可以看出不同的差異分析軟件得到最終的DEG有較大的差別,所以我們應(yīng)該非常非常慎重的去選擇適合我們的差異表達(dá)分析軟件殷蛇。這次比較了較常用的幾種差異分析軟件baySeq实夹、DESeq、edgeR粒梦、DESeq2亮航、EBSeq、limma+voom匀们、NOIseq塞赂、SAMseq和sleuth。
table 2 識別DEG的軟件
為了減少誤差昼蛀,其測試的輸入計數(shù)矩陣都由Tophat和HTSeq軟件生成宴猾,所有軟件都用默認(rèn)參數(shù)。
下圖為各個軟件應(yīng)用的統(tǒng)計學(xué)方法:
fig.2 不同差異分析軟件使用的統(tǒng)計學(xué)方法
以qRT-PCR為金標(biāo)準(zhǔn)來評判差異分析結(jié)果叼旋,NOIseq和baySeq與qRT-PCR的結(jié)果最為一致仇哆,且受mapper軟件的影響較小。
下表列出了差異分析軟件的綜合性能評估:
table 3 差異分析軟件的綜合評估
加粗的行為綜合性能較好的前三名夫植,分別為NOIseq讹剔、limma+voom和DESeq2。這三種軟件只有大約3.8%DEGs沒有被qRT-PCR識別详民。當(dāng)樣本為小樣本(兩個重復(fù))時延欠,DESeq能夠獲得更好的結(jié)果。而limma+voom對超過兩個重復(fù)的樣本有較好的結(jié)果沈跨。NOIseq和DESeq2顯示一致性的結(jié)果由捎,表明了這些軟件適合較大的樣本數(shù)和已經(jīng)注釋了的基因組。SAMseq能夠列出最相關(guān)的DEG但是假陽性比較高饿凛。edgeR軟件識別的DEGs相對來說有更低的真陽性率狞玛,81.3%的結(jié)果與qRT-PCR一致。
文獻(xiàn)支持
相對性能前三的軟件的比較
參考文獻(xiàn):RNA-Seq differential expression analysis: An extended review and a software tool