在分析RNA-seq數(shù)據(jù)時(shí)煌茬,你經(jīng)晨墒粒可能會(huì)需要使用cufflink或stringtie兩個(gè)軟件進(jìn)行轉(zhuǎn)錄組組裝散休,用于預(yù)測(cè)新的轉(zhuǎn)錄本单鹿,這兩個(gè)軟件是RNA-seq分析中進(jìn)行有參轉(zhuǎn)錄本組裝的最最最常用到的軟件了馏予,同時(shí)他們也自帶了工具(cuffmerge和stringtie -merge)用于將組裝好的轉(zhuǎn)錄本進(jìn)行拼接天梧,經(jīng)典分析流程基本上就是:
tophat + cufflink + cuffmerge + cuffdiff
histat2 + stringtie + stringtie -merge + ballgown
但是本文需要討論的問(wèn)題是 轉(zhuǎn)錄本拼接 的問(wèn)題,因?yàn)槲以谶@里踩了大坑O忌ァ呢岗!而且我差點(diǎn)沒(méi)發(fā)現(xiàn),而且我覺(jué)得你可能也不知道S汲ⅰ:笤ァ!要是你想了解RNA-seq分析的方法及腳本突那,請(qǐng)參考下方鏈接硬贯,點(diǎn)擊閱讀原文,有一個(gè)RNA-seq 詳細(xì)說(shuō)明文檔
在RNA-seq分析時(shí)陨收,像往常一樣饭豹,因?yàn)槲倚枰A(yù)測(cè)新的轉(zhuǎn)錄本鸵赖,且這次組裝的樣本比較多,考慮到軟件組裝速度拄衰,所以這次使用的是stringtie而不是cufflink它褪,組裝完成后我就使用了strintie -merge進(jìn)行拼接,結(jié)果問(wèn)題就來(lái)了翘悉!我查看了拼接好的gtf文件茫打,內(nèi)容如下圖一,方框中AT4G25470妖混,AT4G25480老赤,AT4G25490是串聯(lián)排列在同一條染色體上10kb區(qū)域內(nèi)的三個(gè)基因,當(dāng)進(jìn)行轉(zhuǎn)錄本拼接后他們被拼接成了一個(gè)基因名為MSTRG.16211制市。這三個(gè)基因在擬南芥受冷處理后會(huì)迅速誘導(dǎo)表達(dá)抬旺,對(duì)植物耐冷十分重要,而此時(shí)他們卻被拼成了一個(gè)基因祥楣,對(duì)于后續(xù)定量影響很大开财,這可怎么辦?误褪!我想基因組那么大责鳍,鄰近的基因那么多,被拼接成一個(gè)的應(yīng)該也不止這一個(gè)例子吧兽间,只能看看其它方法了
確實(shí)历葛,通過(guò)查文獻(xiàn)我發(fā)現(xiàn)在17年就已經(jīng)有文章報(bào)道過(guò)了,文章發(fā)表在nature methods上(題為:TACO produces robust multi-sample transcriptome assemblies from RNA-seq)嘀略,作者開(kāi)發(fā)了一個(gè)新的拼接軟件 TACO恤溶,用于對(duì)cufflink或stringtie組裝好的轉(zhuǎn)錄本進(jìn)行拼接,如下圖二屎鳍,只是在拼接(meta-assemble)時(shí)使用 TACO
作者測(cè)試了三種方法,得出的結(jié)論是问裕,當(dāng)樣本數(shù)小于10個(gè)時(shí)逮壁,三個(gè)方法沒(méi)有太大區(qū)別,但是當(dāng)樣本大于10個(gè)時(shí)粮宛,cufflink和stringtie的指標(biāo)會(huì)急劇下降窥淆,而TACO幾乎沒(méi)什么變化,當(dāng)樣本量更大時(shí)TACO同樣表現(xiàn)出色巍杈。作者舉了一個(gè)例子如下圖三忧饭,染色體三上距離十分相近的三個(gè)基因,當(dāng)樣本到500時(shí)筷畦,cuffmege基本上已經(jīng)認(rèn)為這三個(gè)基因是一個(gè)基因了词裤,而TACO仍能很好的識(shí)別刺洒,所以使用TACO進(jìn)行拼接吧
微信公眾號(hào):生信自修室