Stringtie的使用說明

參考文獻(xiàn):stringtie enables improved reconstruction of a transcriptome from rNA-seq reads
幫助文檔:http://ccb.jhu.edu/software/stringtie/index.shtml?t=manual
另附參考文獻(xiàn):Transcript-level expression analysis of RNA-seq experiments with HISAT, StringTie and Ballgown
注意:第三篇文章中有完整的hisat2-stringtie-ballgown的代碼扫倡,一定要看嫁审!

一捧搞、原理

摘要

1扇商、二代測序產(chǎn)生了大量的短讀段,對于轉(zhuǎn)錄組定量來說,通過將短讀段組轉(zhuǎn)成轉(zhuǎn)錄本是一個(gè)定量的方法
2、Stringtie應(yīng)用了起源于最優(yōu)化理論的網(wǎng)絡(luò)流算法,與可選擇的從頭組裝策略一起來將這些短讀段組裝成轉(zhuǎn)錄本
3耍共、與目前其他的轉(zhuǎn)錄本組裝軟件相比烫饼,stringtie具有更精準(zhǔn)的基因組裝效果以及更好的基因表達(dá)估計(jì),同時(shí)通過它獲得的組裝好的轉(zhuǎn)錄本的數(shù)目也比其它軟件多划提。

背景

組裝目前遇到的問題

1枫弟、RNA-seq產(chǎn)生了大量150bp左右的read
2、人類基因組中90%的多外顯子蛋白編碼基因和30%的ncRNA都具有可變剪切體
3鹏往、外顯子可以在轉(zhuǎn)錄本間共享淡诗、由于旁系同源導(dǎo)致的模糊的read比對以及低表達(dá)的基因都會(huì)阻礙組裝的進(jìn)行
4、錯(cuò)誤組裝的轉(zhuǎn)錄本會(huì)進(jìn)一步干擾isoform的表達(dá)量的估計(jì)
5伊履、上述問題目前很多軟件都有解決方案韩容,如專注于轉(zhuǎn)錄本確定的Trinity、專注于表達(dá)定量的RSEM以及二者兼顧的Cufflink等
6唐瀑、但有研究發(fā)現(xiàn)群凶,上述軟件即使確定了一個(gè)轉(zhuǎn)錄本的所有外顯子,也很難把它們組裝成正確的isoform的形式哄辣,同時(shí)多isoform的表達(dá)和新的剪切位點(diǎn)也會(huì)干擾這些軟件的組裝
7请梢、目前解決轉(zhuǎn)錄組組裝主要有兩種策略1)reference/genome指導(dǎo)的組裝,事先需要完成序列比對工作 力穗,如果使用雙端測序的數(shù)據(jù)可以確定進(jìn)一步提高組轉(zhuǎn)成功率 2)沒有參考的從頭組裝 這種組裝可以幫助那些沒有參考基因組的區(qū)域完成組裝毅弧,但技術(shù)上實(shí)現(xiàn)更困難,因?yàn)榇嬖诙嗫截惢蚣易搴捅磉_(dá)水平上的變化以及可變剪切的影響当窗,這種方法在精確性上不如上一種因此多用于沒有參考基因組的物種的組裝

Stringtie

1够坐、Stringtie通過使用genome指導(dǎo)的組裝的方法與從頭組裝的概念結(jié)合的新方法來改善轉(zhuǎn)錄組組裝
2、Stringtie的輸入不僅可以是經(jīng)過比對的結(jié)果崖面,也可以是Stringtie通過從頭組裝read所得到的contig元咙,當(dāng)這兩種輸入都用到的時(shí)候,我們下面稱之為stringtie+SR
3巫员、對于很多使用參考基因組輔助組裝的方法庶香,組裝的的策略都是先對read進(jìn)行cluter,然后建立一個(gè)graph model來推測每個(gè)基因所有可能的isoform简识,最終通過不同的graph的解析方法得到對轉(zhuǎn)錄本的組裝結(jié)果
4脉课、有名的cufflinks用的是overlap graph,該模型中nodes代表fragment财异,如果兩個(gè)fragment存在overlap并存在兼容的剪切模式,則對應(yīng)的node連接起來唱遭。其解析方法為一種保守的算法戳寸,可以產(chǎn)生能夠解釋所有read的最少的轉(zhuǎn)錄本,盡管這種方法很吸引人拷泽,但是它沒有考慮到轉(zhuǎn)錄本的豐度并且對于某些isoform來說該方法沒有辦法組裝疫鹊!
5袖瞻、stringtie采用了組裝轉(zhuǎn)錄本和估計(jì)表達(dá)量同步進(jìn)行的方法,這不同于cufflinks的先組裝后定量的策略拆吆。
6聋迎、首先,stringtie將read聚成cluster枣耀,然后采用了splice graph霉晕,其中node代表外顯子或外顯子的一部分,path將graph中可能 的剪切現(xiàn)象都連起來捞奕,最終對每個(gè)轉(zhuǎn)錄本通過創(chuàng)建一個(gè)網(wǎng)絡(luò)流的方法牺堰,利用最大流算法(maximum flow algorithm)估計(jì)轉(zhuǎn)錄本的表達(dá)量
7、最大流的問題是最優(yōu)理論中的經(jīng)典問題颅围,但是目前還沒有應(yīng)用到轉(zhuǎn)錄本定量中伟葫。
8、與其它組裝軟件相比院促,stringtie具有很高的準(zhǔn)確性和新型isoform的發(fā)現(xiàn)能力筏养,其優(yōu)勢在于使用了網(wǎng)絡(luò)流算法,同時(shí)stringtie也支持將read從頭組裝成更長的片段常拓,這進(jìn)一步提高了其組裝的正確性
9渐溶、其另一個(gè)優(yōu)勢在于它的最優(yōu)化策略,它平衡了每次組裝中每條轉(zhuǎn)錄本的覆蓋度墩邀,這樣可以對組裝算法產(chǎn)生一定的限制掌猛,因?yàn)樵诮M裝基因組時(shí),覆蓋度是很重要的一個(gè)參數(shù)因?yàn)樗枰挥脕硐拗扑惴级茫駝t組裝器可能將重復(fù)的片段錯(cuò)誤地堆疊到一起荔茬,相似地轉(zhuǎn)錄組裝也是如此,在isoform中的每一個(gè)外顯子需要有相似的覆蓋度竹海,如果忽略這個(gè)參數(shù)可能會(huì)產(chǎn)生一些保守但是錯(cuò)誤的轉(zhuǎn)錄本慕蔚,其中含有大量剪切位點(diǎn)的基因組裝起來尤其困難。

二斋配、操作說明

Input:輸入的文件必須是一個(gè)根據(jù)基因組位置排好序的BAM文件孔飒,可以是Tophat或Hisat2的輸出文件,在通過samtools排序

命令行為:

stringtie <aligned_reads.bam> [options]*

常用參數(shù)說明

參數(shù) 描述
-G <ref_ann.gff> 使用注釋好的gtf文件輔助組裝艰争,在-e未設(shè)置的條件下坏瞄,輸出中包括注釋文件中的轉(zhuǎn)錄本和預(yù)測的新型轉(zhuǎn)錄本
-o [<path/>]<out.gtf> 輸出文件的名字,最好是全路徑甩卓,默認(rèn)輸出為標(biāo)準(zhǔn)輸出
-l <label> 為輸出的轉(zhuǎn)錄本設(shè)置前綴名鸠匀,默認(rèn)為STRG
-p <int> 線程數(shù),默認(rèn)為1
-A <gene_abund.tab> 對輸出的gtf統(tǒng)計(jì)基因表達(dá)量逾柿,并以一個(gè)tab分割的文件輸出缀棍,這里需要提交輸出的文件名
-C <cov_refs.gtf> 對輸出的gtf中屬于-G提交的參考gtf的轉(zhuǎn)錄本統(tǒng)一輸出到該文件宅此,這里需要提交一個(gè)文件名
-B 是否需要輸出Ballgown可以識(shí)別的文件,在-b設(shè)置的情況下,使用-o的路徑輸出
-b <path> 對Ballgown輸出的文件指定一個(gè)路徑保存
-e 我認(rèn)為是最需要注意的參數(shù)E婪丁父腕!只統(tǒng)計(jì)可以匹配-G提交的參考gtf中的轉(zhuǎn)錄本,不再對新的轉(zhuǎn)錄本做預(yù)測青瀑,這可以加快程序的運(yùn)行速度
-m <int> 對預(yù)測的轉(zhuǎn)錄本設(shè)置最小長度璧亮,默認(rèn)為200
stringtie --merge [options] gtf.list :轉(zhuǎn)錄組merge模式,在該模式下狱窘,Stringtie可以利用輸入的一個(gè)gtf list并將他們中的轉(zhuǎn)錄本進(jìn)行非冗余的整理杜顺。可以在處理多個(gè)RNA-seq樣本的時(shí)候蘸炸,由于轉(zhuǎn)錄組存在時(shí)空特異性躬络,可以將每個(gè)樣本各自的轉(zhuǎn)錄組進(jìn)行非冗余的整合,如果-G提供了參考gtf文件搭儒,可以將其一起整合到一個(gè)文件中,最終輸出成一個(gè)完整的gtf文件
參數(shù) 說明
-G <guide_gff> 提供的參考gtf文件穷当,指導(dǎo)整合
-o <out_gtf> 輸出文件名,默認(rèn)是輸出到標(biāo)準(zhǔn)輸出中
-l <label></label> 輸出的轉(zhuǎn)錄本前綴名淹禾,默認(rèn)是MSTRG

三馁菜、實(shí)例

1、當(dāng)對新型轉(zhuǎn)錄本有需求時(shí)

1)對每個(gè)樣本單獨(dú)進(jìn)行轉(zhuǎn)錄本預(yù)測

注意不要設(shè)置-e參數(shù)铃岔!

ls -d SRR*|while read id;do input=$id/$id'.sorted.bam' ; output=$id/$id'.gtf' ;stringtie  -o $output -p 10 -G $gtf -B -l $id $input;echo $id ;done

2)merge

#做一個(gè)gtf.list
ls -d  SRR*|while read id ;do find ./ -path './'$id'*' -name *.gtf ;done >gtf.list

#對所有g(shù)tf merge
stringtie --merge  -p 10 -G $gtf  -o total_merged.gtf -l merge gtf.list

3)利用merge得到的gtf重新對各個(gè)樣本做定量

注意這里一定要設(shè)置-e參數(shù)汪疮!

ls -d SRR*|while read id;do stringtie -e -A $id/$id'_gene_abund.tab' -C $id/$id'_cov_refs.gtf' -B -p 10 -G total_merged.gtf -o $id/$id'.merged.gtf' $id/$id'.sorted.bam' ;done

2、當(dāng)不需要預(yù)測新型轉(zhuǎn)錄本時(shí)

注意毁习,這里直接使用-e參數(shù)并且-G傳遞參考的gtf

ls -d SRR*|while read id;do stringtie -e -A $id/$id'_gene_abund.tab' -C $id/$id'_cov_refs.gtf' -B -p 10 -G $gtf -o $id/$id'.merged.gtf' $id/$id'.sorted.bam' ;done

教訓(xùn)分享:如果你面對一個(gè)本不需要預(yù)測新的轉(zhuǎn)錄本的課題智嚷,一定要按照第二中情況來,因?yàn)榈谝环N情況預(yù)測得到的轉(zhuǎn)錄本會(huì)對你本身參考gtf中的關(guān)注的轉(zhuǎn)錄本進(jìn)行稀釋纺且,導(dǎo)致你本來關(guān)注的轉(zhuǎn)錄本統(tǒng)計(jì)不到readU档馈!载碌!一定要注意2轮觥!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末嫁艇,一起剝皮案震驚了整個(gè)濱河市朗伶,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌步咪,老刑警劉巖腕让,帶你破解...
    沈念sama閱讀 221,576評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡纯丸,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門静袖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來觉鼻,“玉大人,你說我怎么就攤上這事队橙∽钩拢” “怎么了?”我有些...
    開封第一講書人閱讀 168,017評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵捐康,是天一觀的道長仇矾。 經(jīng)常有香客問我,道長解总,這世上最難降的妖魔是什么贮匕? 我笑而不...
    開封第一講書人閱讀 59,626評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮花枫,結(jié)果婚禮上刻盐,老公的妹妹穿的比我還像新娘。我一直安慰自己劳翰,他們只是感情好敦锌,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,625評(píng)論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著佳簸,像睡著了一般乙墙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上生均,一...
    開封第一講書人閱讀 52,255評(píng)論 1 308
  • 那天听想,我揣著相機(jī)與錄音,去河邊找鬼疯特。 笑死哗魂,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的漓雅。 我是一名探鬼主播录别,決...
    沈念sama閱讀 40,825評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼邻吞!你這毒婦竟也來了组题?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,729評(píng)論 0 276
  • 序言:老撾萬榮一對情侶失蹤抱冷,失蹤者是張志新(化名)和其女友劉穎崔列,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,271評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡赵讯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,363評(píng)論 3 340
  • 正文 我和宋清朗相戀三年盈咳,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片边翼。...
    茶點(diǎn)故事閱讀 40,498評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡鱼响,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出组底,到底是詐尸還是另有隱情轴咱,我是刑警寧澤拓哟,帶...
    沈念sama閱讀 36,183評(píng)論 5 350
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響需了,放射性物質(zhì)發(fā)生泄漏章喉。R本人自食惡果不足惜刨裆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,867評(píng)論 3 333
  • 文/蒙蒙 一聂示、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧莫秆,春花似錦间雀、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至缝驳,卻和暖如春连锯,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背用狱。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評(píng)論 1 272
  • 我被黑心中介騙來泰國打工运怖, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人夏伊。 一個(gè)月前我還...
    沈念sama閱讀 48,906評(píng)論 3 376
  • 正文 我出身青樓摇展,卻偏偏與公主長得像,于是被迫代替她去往敵國和親溺忧。 傳聞我的和親對象是個(gè)殘疾皇子咏连,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,507評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容