EVM 對預(yù)測結(jié)果進(jìn)行整合

從頭預(yù)測,同源注釋和轉(zhuǎn)錄組整合都會得到一個預(yù)測結(jié)果娃胆,EVidenceModeler(EVM) 可以對上述結(jié)果進(jìn)整合

軟件安裝

wget -4 https://github.com/EVidenceModeler/EVidenceModeler/archive/v1.1.1.tar.gz
tar xf v1.1.1.tar.gz
# 添加環(huán)境變量

使用流程

  1. 所需數(shù)據(jù)

  • gene_prediction.gff3
    標(biāo)準(zhǔn)的gff3格式冈钦,必須要有g(shù)ene, mRNA, exon, CDS這些特征
  • protein_alignments.gff3: 標(biāo)準(zhǔn)的GFF3格式篡悟,第9列要有ID信和和target信息, 標(biāo)明是比對結(jié)果
  • transcript_alignments.gff3:標(biāo)準(zhǔn)的GFF3格式致板,第9列要有ID信和和target信息,標(biāo)明是比對結(jié)果

\color{red}{若有多個同類型注釋結(jié)果坊夫,可以cat在一起}

  1. 運行EVM

  • 創(chuàng)建權(quán)重文件
# copy /EVidenceModeler-1.1.1/simple_example 下的weights.txt進(jìn)行修改
cp ~ /EVidenceModeler-1.1.1/simple_example/weights.txt ./
vi weights.txt
ABINITIO_PREDICTION      augustus       4
TRANSCRIPT      assembler-database.sqlite      7
OTHER_PREDICTION  transdecoder  8
## 第一列為來源類型砖第;分為:ABINITIO_PREDICTION, PROTEIN, TRANSCRIPT
## 第二列對應(yīng)著gff3文件第二列
## 第三列為權(quán)重
  • 分割原始數(shù)據(jù), 用于后續(xù)并行
/EVidenceModeler-1.1.1/EvmUtils/partition_EVM_inputs.pl \
           --genome ref.fa \
           --gene_predictions gene_predictions.gff3 \
           --transcript_alignments transcript_alignments.gff3 \
           --segmentSize 100000 --overlapSize 10000 \
           --partition_listing partitions_list.out
# 參數(shù)
--genome: fasta file containing all genome sequences
--gene_predictions:* file containing gene predictions
--protein_alignments: file containing protein alignments
--transcript_alignments:file containing transcript alignments
--segmentSize:* :length of a single sequence for running EVM
--overlapSize: * :length of sequence overlap between segmented sequences
--partition_listing     * :name of output file to be created that contains the list of partitions

--segmentsSize設(shè)置的大小需要少于1Mb(這里是100k)岸售, --overlapSize的不能太小,如果數(shù)學(xué)好厂画,可用設(shè)置成基因平均長度加上2個標(biāo)準(zhǔn)差,數(shù)學(xué)不好拷邢,就設(shè)置成10K吧

  • 創(chuàng)建并行運算命令并且執(zhí)行
~/opt/biosoft/EVidenceModeler-1.1.1/EvmUtils/write_EVM_commands.pl --genome ref.fa --weights `pwd`/weights.txt \
      --gene_predictions gene_predictions.gff3 \
      --transcript_alignments transcript_alignments.gff3 \
      --output_file_name evm.out  --partitions partitions_list.out >  commands.list
~/opt/biosoft/EVidenceModeler-1.1.1/EvmUtils/execute_EVM_commands.pl commands.list


#參數(shù)
 --weights          | -w    weights for evidence types file
  • 合并運行結(jié)果
~/opt/biosoft/EVidenceModeler-1.1.1/EvmUtils/recombine_EVM_partial_outputs.pl --partitions partitions_list.out --output_file_name evm.out
  • 結(jié)果轉(zhuǎn)換成GFF3
~/opt/biosoft/EVidenceModeler-1.1.1/EvmUtils/convert_EVM_outputs_to_GFF3.pl  --partitions partitions_list.out --output evm.out  --genome ref.fa
find . -regex ".*evm.out.gff3" -exec cat {} \; | bedtools sort -i - > EVM.all.gff

過濾gff文件

注釋過濾:對于初步預(yù)測得到的基因袱院,還可以稍微優(yōu)化一下,例如剔除編碼少于50個AA的預(yù)測結(jié)果瞭稼,將轉(zhuǎn)座子單獨放到一個文件中(軟件有TransposonPSI)忽洛。

這里基于gffread先根據(jù)注釋信息提取所有的CDS序列,過濾出長度不足50AA的序列环肘,基于這些序列過濾原來的的注釋

gffread EVM.all.gff -g input/genome.fa -y tr_cds.fa
bioawk -c fastx '$seq < 50 {print $comment}' tr_cds.fa | cut -d '=' -f 2 > short_aa_gene_list.txt
grep -v -w -f short_aa_gene_list.txt EvM.all.gff > filter.gff

參考

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末欲虚,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子悔雹,更是在濱河造成了極大的恐慌复哆,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,277評論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件腌零,死亡現(xiàn)場離奇詭異梯找,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)益涧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,689評論 3 393
  • 文/潘曉璐 我一進(jìn)店門锈锤,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人闲询,你說我怎么就攤上這事久免。” “怎么了扭弧?”我有些...
    開封第一講書人閱讀 163,624評論 0 353
  • 文/不壞的土叔 我叫張陵阎姥,是天一觀的道長。 經(jīng)常有香客問我鸽捻,道長丁寄,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,356評論 1 293
  • 正文 為了忘掉前任泊愧,我火速辦了婚禮伊磺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘删咱。我一直安慰自己屑埋,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,402評論 6 392
  • 文/花漫 我一把揭開白布痰滋。 她就那樣靜靜地躺著摘能,像睡著了一般续崖。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上团搞,一...
    開封第一講書人閱讀 51,292評論 1 301
  • 那天严望,我揣著相機(jī)與錄音,去河邊找鬼逻恐。 笑死像吻,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的复隆。 我是一名探鬼主播拨匆,決...
    沈念sama閱讀 40,135評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼挽拂!你這毒婦竟也來了惭每?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,992評論 0 275
  • 序言:老撾萬榮一對情侶失蹤亏栈,失蹤者是張志新(化名)和其女友劉穎台腥,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绒北,經(jīng)...
    沈念sama閱讀 45,429評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡览爵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,636評論 3 334
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了镇饮。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜓竹。...
    茶點故事閱讀 39,785評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖储藐,靈堂內(nèi)的尸體忽然破棺而出俱济,到底是詐尸還是另有隱情,我是刑警寧澤钙勃,帶...
    沈念sama閱讀 35,492評論 5 345
  • 正文 年R本政府宣布蛛碌,位于F島的核電站,受9級特大地震影響辖源,放射性物質(zhì)發(fā)生泄漏蔚携。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,092評論 3 328
  • 文/蒙蒙 一克饶、第九天 我趴在偏房一處隱蔽的房頂上張望酝蜒。 院中可真熱鬧,春花似錦矾湃、人聲如沸亡脑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,723評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽霉咨。三九已至蛙紫,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間途戒,已是汗流浹背坑傅。 一陣腳步聲響...
    開封第一講書人閱讀 32,858評論 1 269
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留喷斋,地道東北人唁毒。 一個月前我還...
    沈念sama閱讀 47,891評論 2 370
  • 正文 我出身青樓,卻偏偏與公主長得像继准,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子矮男,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,713評論 2 354