使用MAKER進行基因注釋(高級篇之GeneMark-ET模型訓練)

GeneMarkGeorgia Institute of Technology開發(fā)的一系列基因預測工具莫瞬。真核生物基因組預測主要會用到GeneMark-ES/ET, 其中GeneMark-ES可用于無監(jiān)督自訓練咕缎,也就是只要提供一個基因組序列即可谴蔑,而GeneMark-ET則是在GeneMark-ES的基礎(chǔ)上整合了高通量的RNA-Seq轉(zhuǎn)錄本數(shù)據(jù),工作流程如下

工作流程

如果是學術(shù)代承、非盈利組織汁蝶,那么可以在http://exon.gatech.edu/GeneMark/license_download.cgi提交申請,之后就能得到軟件的下載鏈接。下載的工具只要解壓縮即可使用掖棉,不需要額外編譯墓律,但是需要安裝幾個perl模塊,

cpanm YAML Hash::Merge Logger::Simple Parallel::ForkManager

使用方法

在軟件目錄下的"README.GeneMark-ES-suite"介紹了如何使用軟件幔亥,對于GeneMark-ET而言耻讽,使用的腳本如下

gmes_petap.pl --sequence seq.fna --ET introns.gff  --et_score 4 --cores 60

其中seq.fna是你的物種基因組序列,而introns.gff則是記錄內(nèi)含子的位置信息帕棉,--et_scoreintrons.gff中覆蓋該內(nèi)含子區(qū)域的read數(shù)针肥,默認是10,而--cores則是多線程參數(shù)香伴。

那么問題來了慰枕,如何獲取introns.gff?GeneMark-ET文章被NAR接收的時間是2013年9月即纲,目前我們一直推薦大家使用的HISAT2是2015年在Nature Methods發(fā)表具帮,而在HISAT2之前又快又好的比對工具是STAR是2013年1月。在這兩個工具出來之前崇裁,用的最多的RNA-seq比對工具就是目前連自己都宣布不維護居然還有很多培訓班在講的TopHat2匕坯,所以這篇文章的introns.gff文件就來自于TopHat2,還有兩個大家都未必聽過的工具(TrueSight, UnSplicer).

因此拔稳,在軟件目錄下下提供了bet_to_gff.pl用于將TopHat2的輸出結(jié)果中的junctions.bed轉(zhuǎn)成introns.gff

bed_to_gff.pl  --bed tophat_out/junctions.bed --gff introns.gff --label tophat2

為了獲取junctions.bed,我特地去下載了TopHat2, 然后用了40線程進行比對锹雏,結(jié)果花了我將近3個小時的時間巴比,才將3G大小轉(zhuǎn)錄組數(shù)據(jù)回帖到基因組上。

這個速度實在是太慢了礁遵,我絕對忍受不了轻绞。突然間記憶中涌現(xiàn)出一位不愿透露姓名的朋友給別人講轉(zhuǎn)錄組時用到的STAR,它的輸出結(jié)果也有一個文件記錄著內(nèi)含子的信息佣耐。STAR的輸出文件"SJ.out.tab"存放著可信坍縮剪切位點政勃,每一列的格式說明如下,

  • 第一列: 染色體
  • 第二列: 內(nèi)含子起始(以1為基)
  • 第三列: 內(nèi)含子結(jié)束(以1為基)
  • 第四列:所在鏈兼砖,1(+)奸远,2(-)
  • 第五列: 內(nèi)含子類型,0表示不是下面的任何一種功能讽挟,1表示GT/AG, 2表示:GT/AC,3表示GC/AG,4表示GT/GC,5表示AT/GC,6表示GT/AT
  • 第六列: 是否是已知的注釋
  • 第七列: 有多少唯一聯(lián)配支持
  • 第八列: 有多少多重聯(lián)配支持
  • 第九列: 最多可變剪切聯(lián)配

根據(jù)"README.GeneMark-ES-suite"里提到的introns.gff格式說明懒叛,

  • 第一列:seqid
  • 第二列: 來源
  • 第三列是固定值,"intron"
  • 第四列耽梅,第五列是內(nèi)含子起始第一個堿基位置和結(jié)束的最后一個堿基位置
  • 第六列薛窥,覆蓋該外顯子的read數(shù)
  • 第7列,+/-
  • 第8列和第9列都為"."

其實很容易用一個awk命令實現(xiàn)格式轉(zhuǎn)換眼姐。如下是STAR所用到的命令

mkdir -p star_index
STAR \
    --runThreadN 20 \
    --runMode genomeGenerate \
    --genomeDir star_index \
    --genomeFastaFiles reference.fa
STAR 
    --runThreadN 20 \
    --runMode alignReads \
    --genomeDir star_index \
     --readFilesIn read_1.fq.gz,read_2.fq.gz \
    --readFilesCommand zcat --outSAMtype BAM SortedByCoordinate --outWigType wiggle read2
awk 'BEGIN{OFS="\t"} $7 >= 2{if($4==1){st="+"}else{st="-"} print $1,"STAR","intron",$2,$3,$7,st,".","."}' SJ.out.tab > STAR.gff

后來我又發(fā)現(xiàn)诅迷,軟件目錄下還有一個star_to_gff.pl,

usage /opt/biosoft/gmes_petap/star_to_gff.pl  --star  [name]  --gff [name]  --label [label]
  --star   input name/s of junctions.bed from RNA-Seq alignment
  --gff    output intron coordinates in GFF format
  --label  [RNA_seq_junction] use this label in GFF to preserve name of the alignment tool

盡管它的使用說明--star居然寫著junctions.bed,但實際上--star接受的輸入就是SJ.out.tab(我看了一下源代碼)佩番,因此用法如下

star_to_gff.pl --star  SJ.out.tab --gff SJ.gff --label STAR

將上述TopHat2,STAR(awk版本)罢杉,STAR(star_to_gff.pl版本)三者的GFF文件和BAME文件共同在IGV中展示時答捕,你會發(fā)現(xiàn)這三者幾乎是一模一樣

內(nèi)含子信息比較

當然差異也是存在的,比如說下圖箭頭部分屑那。但是回溯到GFF文件時拱镐,我發(fā)現(xiàn)箭頭部分的intron僅有一條read支持,而tophat2和awk版本都是最低2條read支持持际。

差異

最后使用genemark-et進行預測

gmes_petap.pl --sequence ../../../Assembly/5-final/ref.fa --ET STAR.gff --cores 60

最后會在當前文件下生成genemark.gtf沃琅。Genemark-et結(jié)果一定會有很高的假陽性,不過沒關(guān)系蜘欲,畢竟我們只需要它的模型輸出output/gmhmm.mod作為MAKER的輸入而已益眉。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市姥份,隨后出現(xiàn)的幾起案子郭脂,更是在濱河造成了極大的恐慌,老刑警劉巖澈歉,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件展鸡,死亡現(xiàn)場離奇詭異,居然都是意外死亡埃难,警方通過查閱死者的電腦和手機莹弊,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來涡尘,“玉大人忍弛,你說我怎么就攤上這事】汲” “怎么了细疚?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長川梅。 經(jīng)常有香客問我疯兼,道長,這世上最難降的妖魔是什么挑势? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任镇防,我火速辦了婚禮,結(jié)果婚禮上潮饱,老公的妹妹穿的比我還像新娘来氧。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布啦扬。 她就那樣靜靜地躺著中狂,像睡著了一般。 火紅的嫁衣襯著肌膚如雪扑毡。 梳的紋絲不亂的頭發(fā)上胃榕,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機與錄音瞄摊,去河邊找鬼勋又。 笑死,一個胖子當著我的面吹牛换帜,可吹牛的內(nèi)容都是我干的楔壤。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼惯驼,長吁一口氣:“原來是場噩夢啊……” “哼蹲嚣!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起祟牲,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤隙畜,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后说贝,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體议惰,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年狂丝,在試婚紗的時候發(fā)現(xiàn)自己被綠了换淆。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡几颜,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出讯屈,到底是詐尸還是另有隱情蛋哭,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布涮母,位于F島的核電站谆趾,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏叛本。R本人自食惡果不足惜沪蓬,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望来候。 院中可真熱鬧跷叉,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至园欣,卻和暖如春帖世,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背沸枯。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工日矫, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人绑榴。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓哪轿,卻偏偏與公主長得像,于是被迫代替她去往敵國和親彭沼。 傳聞我的和親對象是個殘疾皇子缔逛,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容