RNA-seq分析流程分析:RNA-seq數(shù)據(jù)分析流程主要由序列對比,表達(dá)矩陣構(gòu)建持寄,差異基因鑒定等三大步驟構(gòu)成【1-8】召边。目前菲茬,已有大量的軟件被開發(fā)用于分析流程吉挣。而上游分析可能對下游分析或/與結(jié)果有實質(zhì)上的影響。
文章主要探討三種大步驟中各軟件相互組合使用對結(jié)果所帶來的差異【21】婉弹。文章選用的數(shù)據(jù)集為典型和非典型人類單核細(xì)胞數(shù)據(jù)集睬魂,且該數(shù)據(jù)集已被多個獨(dú)立實驗室進(jìn)行了分析,以此數(shù)據(jù)集作為參考理論上具有高度的可信度镀赌。另汉买,文章使用的測試數(shù)據(jù)集為真實數(shù)據(jù),測試數(shù)據(jù)與參考數(shù)據(jù)集具有高度相關(guān)性佩脊。
研究顯示不同的工作流的效果具有顯著差異蛙粘,只要體現(xiàn)在召回值和精確度兩點垫卤,大體上呈現(xiàn)反義線性關(guān)系。提示我們在選取相應(yīng)工作流時可首先考慮自己實驗對這兩項參數(shù)的需求出牧。
代碼:https://github.com/cckim47/kimlab/tree/master/rnaseq.
1穴肘、構(gòu)建參考數(shù)據(jù)集
比對典型與非典型樣本的測序數(shù)據(jù)參數(shù),如測序質(zhì)量舔痕、總讀段數(shù)量评抚、序列比對后讀段數(shù)量,結(jié)果顯示無顯著差異伯复。下載相關(guān)表達(dá)矩陣后慨代,作者使用log2處理需要標(biāo)準(zhǔn)化的數(shù)據(jù),并且使用了Significance Analysis of Microarrays (SAM)及l(fā)imma進(jìn)行差異基因分析并且進(jìn)行比對后發(fā)現(xiàn)結(jié)果具有高度相關(guān)性啸如,最終選取數(shù)據(jù)的交叉結(jié)果作為參考數(shù)據(jù)集
2侍匙、工作流組合
3、不同步驟對結(jié)果的影響
首先比對三大步驟內(nèi)部差異基因數(shù)量叮雳,結(jié)果提示差異基因分析工具對顯著基因數(shù)量產(chǎn)生的影響最大想暗;另,各差異分析軟件的結(jié)果穩(wěn)定性也具有差異帘不;
其次说莫,作者比對了個工作流結(jié)果的召回值( recall ,intersecting significant genes divided?by total number of significant reference genes)和精確度( precision 寞焙,intersecting significant genes divided by total?number of significant genes identified by RNA-Seq)储狭,結(jié)果提示差異基因分析軟件對結(jié)果影響最大。
4捣郊、工作流異質(zhì)性
無論是轉(zhuǎn)錄本還是基因表達(dá)層面辽狈,召回值與差異基因數(shù)量呈線性關(guān)系,而精確度則呈反義線性關(guān)系模她。
基因表達(dá)水平的召回值,使用 SAMseq軟件的工作流最高懂牧;轉(zhuǎn)錄水平的則以使用 baySeq及 NBPSeq軟件的工作流最高侈净;
基因表達(dá)水平的精確度,使用NOISeqBIO軟件的工作流最高僧凤;轉(zhuǎn)錄水平中則具有多項畜侦,其中最常用的是Ballgown及NOISeqBIO。
值得注意的是躯保,我們常用的TopHat2+cufflinks+cuffdiff工作流顯示最高的精確度及第二低的差異基因數(shù)量旋膳。
5、工作流性能權(quán)衡
由于計算內(nèi)部的關(guān)系途事,我們需要在召回值及精確度之間權(quán)衡验懊,方能找到適合自己的工作流擅羞。研究中大部分工作流的召回值及精確度之間存在著反義線性關(guān)系。這一點在轉(zhuǎn)錄本及基因表達(dá)層面都是成立的义图。
Ballgown减俏、DESeq2、 limma + voom碱工、limma + vs及 and SAMseq最為接近該趨勢娃承,而baySeq和EBseq最為偏離。
SAM-seq(一種非參數(shù)方法)是一種高性能的軟件【3怕篷,16】历筝,尤其是在有大量重復(fù)數(shù)據(jù)可用時可使結(jié)果較為接近潛在的分布規(guī)律,但它趨向于犧牲精確度從而提高召回率廊谓;NOISeqBIO則傾向于在大規(guī)模的樣本中鑒定更少的差異基因【3】并具有低召回值梳猪;baySeq和EBseq統(tǒng)計學(xué)方法最為接近,它們都以負(fù)二項模型(underlying negative binomial model)去估算每個基因差異表達(dá)的后驗概率【46蹂析,48】舔示,EBseq處理后的數(shù)據(jù)由于降低精確度而召回值未回升而偏離反義線性模型(EBseq在大樣本中容易產(chǎn)生假陽性數(shù)據(jù)【16】)baySeq在處理基因?qū)用鏀?shù)據(jù)時表現(xiàn)出與EBseq相似的傾向,可能是由于它們的計算模式相同电抚;Ballgown是在limma的基礎(chǔ)上發(fā)展的惕稻,它們?nèi)N軟件性能良好并且趨向于反義線性模型。區(qū)別在于Ballgown傾向于更高的精確度蝙叛,而limma+voom/vst更傾向于召回值俺祠。
序列對比和表達(dá)矩陣構(gòu)建軟件的選用通常對結(jié)果沒有特殊影響,且差異基因分析所造成的影響遠(yuǎn)大于它們借帘。除了以下兩點:其一蜘渣,BitSeq(表達(dá)矩陣構(gòu)建軟件)在與基于負(fù)二項模型的差異基因分析軟件(BaySeq,DESeq2, edgeR, and NBPSeq)連用時會鑒定出大量的差異表達(dá)基因;其二肺然,使用STAR進(jìn)行讀段對比會使一些高性能工作流的精確度和召回值達(dá)到平衡狀態(tài)蔫缸??际起,尤其是與Ballgown連用時拾碌。
工作流的權(quán)衡選擇依據(jù)數(shù)據(jù)的下游分析和應(yīng)用中對第一類錯誤和第二類錯誤的容忍度。( 當(dāng)假設(shè)檢驗拒絕了實際上成立的零假設(shè)時街望,所犯的錯誤稱為第一類錯誤校翔,其概率用α表示;當(dāng)假設(shè)檢驗接受實際上不成立的零假設(shè)時灾前,所犯的錯誤稱為第二類錯誤防症,其概率用β表示。),也即考慮召回值和精確度
附:其他研究者使用STAR+TPMCalculator+?DGA software進(jìn)行測試分析蔫敲,結(jié)果提示可能是TPMCalculator造成精確度的提高
https://ftp.ncbi.nlm.nih.gov/pub/RNASeqWF/notebooks/00%20-%20Project%20Notes.html