1.Empirical assessment of analysis workflows for differential expression analysis of human sample...

RNA-seq分析流程分析:RNA-seq數(shù)據(jù)分析流程主要由序列對比,表達(dá)矩陣構(gòu)建持寄,差異基因鑒定等三大步驟構(gòu)成【1-8】召边。目前菲茬,已有大量的軟件被開發(fā)用于分析流程吉挣。而上游分析可能對下游分析或/與結(jié)果有實質(zhì)上的影響。

文章主要探討三種大步驟中各軟件相互組合使用對結(jié)果所帶來的差異【21】婉弹。文章選用的數(shù)據(jù)集為典型和非典型人類單核細(xì)胞數(shù)據(jù)集睬魂,且該數(shù)據(jù)集已被多個獨(dú)立實驗室進(jìn)行了分析,以此數(shù)據(jù)集作為參考理論上具有高度的可信度镀赌。另汉买,文章使用的測試數(shù)據(jù)集為真實數(shù)據(jù),測試數(shù)據(jù)與參考數(shù)據(jù)集具有高度相關(guān)性佩脊。

研究顯示不同的工作流的效果具有顯著差異蛙粘,只要體現(xiàn)在召回值和精確度兩點垫卤,大體上呈現(xiàn)反義線性關(guān)系。提示我們在選取相應(yīng)工作流時可首先考慮自己實驗對這兩項參數(shù)的需求出牧。

代碼:https://github.com/cckim47/kimlab/tree/master/rnaseq.

1穴肘、構(gòu)建參考數(shù)據(jù)集

比對典型與非典型樣本的測序數(shù)據(jù)參數(shù),如測序質(zhì)量舔痕、總讀段數(shù)量评抚、序列比對后讀段數(shù)量,結(jié)果顯示無顯著差異伯复。下載相關(guān)表達(dá)矩陣后慨代,作者使用log2處理需要標(biāo)準(zhǔn)化的數(shù)據(jù),并且使用了Significance Analysis of Microarrays (SAM)及l(fā)imma進(jìn)行差異基因分析并且進(jìn)行比對后發(fā)現(xiàn)結(jié)果具有高度相關(guān)性啸如,最終選取數(shù)據(jù)的交叉結(jié)果作為參考數(shù)據(jù)集

2侍匙、工作流組合


軟件及簡稱

3、不同步驟對結(jié)果的影響

首先比對三大步驟內(nèi)部差異基因數(shù)量叮雳,結(jié)果提示差異基因分析工具對顯著基因數(shù)量產(chǎn)生的影響最大想暗;另,各差異分析軟件的結(jié)果穩(wěn)定性也具有差異帘不;

其次说莫,作者比對了個工作流結(jié)果的召回值( recall ,intersecting significant genes divided?by total number of significant reference genes)和精確度( precision 寞焙,intersecting significant genes divided by total?number of significant genes identified by RNA-Seq)储狭,結(jié)果提示差異基因分析軟件對結(jié)果影響最大。

4捣郊、工作流異質(zhì)性

無論是轉(zhuǎn)錄本還是基因表達(dá)層面辽狈,召回值與差異基因數(shù)量呈線性關(guān)系,而精確度則呈反義線性關(guān)系模她。

基因表達(dá)水平的召回值,使用 SAMseq軟件的工作流最高懂牧;轉(zhuǎn)錄水平的則以使用 baySeq及 NBPSeq軟件的工作流最高侈净;

基因表達(dá)水平的精確度,使用NOISeqBIO軟件的工作流最高僧凤;轉(zhuǎn)錄水平中則具有多項畜侦,其中最常用的是Ballgown及NOISeqBIO。

值得注意的是躯保,我們常用的TopHat2+cufflinks+cuffdiff工作流顯示最高的精確度及第二低的差異基因數(shù)量旋膳。

5、工作流性能權(quán)衡

由于計算內(nèi)部的關(guān)系途事,我們需要在召回值及精確度之間權(quán)衡验懊,方能找到適合自己的工作流擅羞。研究中大部分工作流的召回值及精確度之間存在著反義線性關(guān)系。這一點在轉(zhuǎn)錄本及基因表達(dá)層面都是成立的义图。

Ballgown减俏、DESeq2、 limma + voom碱工、limma + vs及 and SAMseq最為接近該趨勢娃承,而baySeq和EBseq最為偏離。

SAM-seq(一種非參數(shù)方法)是一種高性能的軟件【3怕篷,16】历筝,尤其是在有大量重復(fù)數(shù)據(jù)可用時可使結(jié)果較為接近潛在的分布規(guī)律,但它趨向于犧牲精確度從而提高召回率廊谓;NOISeqBIO則傾向于在大規(guī)模的樣本中鑒定更少的差異基因【3】并具有低召回值梳猪;baySeq和EBseq統(tǒng)計學(xué)方法最為接近,它們都以負(fù)二項模型(underlying negative binomial model)去估算每個基因差異表達(dá)的后驗概率【46蹂析,48】舔示,EBseq處理后的數(shù)據(jù)由于降低精確度而召回值未回升而偏離反義線性模型(EBseq在大樣本中容易產(chǎn)生假陽性數(shù)據(jù)【16】)baySeq在處理基因?qū)用鏀?shù)據(jù)時表現(xiàn)出與EBseq相似的傾向,可能是由于它們的計算模式相同电抚;Ballgown是在limma的基礎(chǔ)上發(fā)展的惕稻,它們?nèi)N軟件性能良好并且趨向于反義線性模型。區(qū)別在于Ballgown傾向于更高的精確度蝙叛,而limma+voom/vst更傾向于召回值俺祠。

序列對比和表達(dá)矩陣構(gòu)建軟件的選用通常對結(jié)果沒有特殊影響,且差異基因分析所造成的影響遠(yuǎn)大于它們借帘。除了以下兩點:其一蜘渣,BitSeq(表達(dá)矩陣構(gòu)建軟件)在與基于負(fù)二項模型的差異基因分析軟件(BaySeq,DESeq2, edgeR, and NBPSeq)連用時會鑒定出大量的差異表達(dá)基因;其二肺然,使用STAR進(jìn)行讀段對比會使一些高性能工作流的精確度和召回值達(dá)到平衡狀態(tài)蔫缸??际起,尤其是與Ballgown連用時拾碌。

工作流的權(quán)衡選擇依據(jù)數(shù)據(jù)的下游分析和應(yīng)用中對第一類錯誤和第二類錯誤的容忍度。( 當(dāng)假設(shè)檢驗拒絕了實際上成立的零假設(shè)時街望,所犯的錯誤稱為第一類錯誤校翔,其概率用α表示;當(dāng)假設(shè)檢驗接受實際上不成立的零假設(shè)時灾前,所犯的錯誤稱為第二類錯誤防症,其概率用β表示。),也即考慮召回值和精確度

附:其他研究者使用STAR+TPMCalculator+?DGA software進(jìn)行測試分析蔫敲,結(jié)果提示可能是TPMCalculator造成精確度的提高

https://ftp.ncbi.nlm.nih.gov/pub/RNASeqWF/notebooks/00%20-%20Project%20Notes.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末饲嗽,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子燕偶,更是在濱河造成了極大的恐慌喝噪,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,123評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件指么,死亡現(xiàn)場離奇詭異酝惧,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)伯诬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,031評論 2 384
  • 文/潘曉璐 我一進(jìn)店門晚唇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人盗似,你說我怎么就攤上這事哩陕。” “怎么了赫舒?”我有些...
    開封第一講書人閱讀 156,723評論 0 345
  • 文/不壞的土叔 我叫張陵悍及,是天一觀的道長。 經(jīng)常有香客問我接癌,道長心赶,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,357評論 1 283
  • 正文 為了忘掉前任缺猛,我火速辦了婚禮缨叫,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘荔燎。我一直安慰自己耻姥,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,412評論 5 384
  • 文/花漫 我一把揭開白布有咨。 她就那樣靜靜地躺著琐簇,像睡著了一般。 火紅的嫁衣襯著肌膚如雪座享。 梳的紋絲不亂的頭發(fā)上婉商,一...
    開封第一講書人閱讀 49,760評論 1 289
  • 那天,我揣著相機(jī)與錄音征讲,去河邊找鬼据某。 笑死橡娄,一個胖子當(dāng)著我的面吹牛诗箍,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播挽唉,決...
    沈念sama閱讀 38,904評論 3 405
  • 文/蒼蘭香墨 我猛地睜開眼滤祖,長吁一口氣:“原來是場噩夢啊……” “哼筷狼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起匠童,我...
    開封第一講書人閱讀 37,672評論 0 266
  • 序言:老撾萬榮一對情侶失蹤埂材,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后汤求,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體俏险,經(jīng)...
    沈念sama閱讀 44,118評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,456評論 2 325
  • 正文 我和宋清朗相戀三年扬绪,在試婚紗的時候發(fā)現(xiàn)自己被綠了竖独。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,599評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡挤牛,死狀恐怖莹痢,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情墓赴,我是刑警寧澤竞膳,帶...
    沈念sama閱讀 34,264評論 4 328
  • 正文 年R本政府宣布,位于F島的核電站诫硕,受9級特大地震影響坦辟,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜痘括,卻給世界環(huán)境...
    茶點故事閱讀 39,857評論 3 312
  • 文/蒙蒙 一长窄、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧纲菌,春花似錦挠日、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,731評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽椅贱。三九已至,卻和暖如春庇麦,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背山橄。 一陣腳步聲響...
    開封第一講書人閱讀 31,956評論 1 264
  • 我被黑心中介騙來泰國打工垮媒, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 46,286評論 2 360
  • 正文 我出身青樓睡雇,卻偏偏與公主長得像,于是被迫代替她去往敵國和親它抱。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,465評論 2 348

推薦閱讀更多精彩內(nèi)容