基因組編碼區(qū)的注釋

一、注釋策略

進(jìn)行注釋的三種策略:

  1. 從頭注釋(de novo prediction):通過已有的概率模型來預(yù)測基因結(jié)構(gòu)硼身,在預(yù)測剪切位點和UTR區(qū)準(zhǔn)確性較低
  2. 同源預(yù)測(homology-based prediction):有一些基因蛋白在相近物種間的保守型搞硅急,所以可以使用已有的高質(zhì)量近緣物種注釋信息通過序列聯(lián)配的方式確定外顯子邊界和剪切位點
  3. 基于轉(zhuǎn)錄組預(yù)測(transcriptome-based prediction):通過物種的RNA-seq數(shù)據(jù)輔助注釋,能夠較為準(zhǔn)確的確定剪切位點和外顯子區(qū)域佳遂。

每一種方法都有自己的優(yōu)缺點营袜,所以最后需要用EvidenceModeler(EVM)和GLEAN工具進(jìn)行整合,合并成完整的基因結(jié)構(gòu)丑罪〖园澹基于可靠的基因結(jié)構(gòu)凤壁,后續(xù)可才是功能注釋,蛋白功能域注釋跪另,基因本體論注釋拧抖,通路注釋等

基因結(jié)構(gòu)注釋應(yīng)是功能注釋的先決條件,完整的真核生物基因組注釋流程需要如下步驟:

  1. 必要的基因組重復(fù)序列屏蔽
  2. 從頭尋找基因, 可用工具為: GeneMarkHMM, FGENESH, Augustus, SNAP, GlimmerHMM, Genscan免绿;
  3. 同源蛋白預(yù)測, 內(nèi)含子分析: GeneWIse, Exonerate, GenomeThreader,TransDecoder唧席;
  4. 將EST序列,全長cDNA序列和Trinity/Cufflinks/Stringtie組裝的轉(zhuǎn)錄組和基因組聯(lián)配嘲驾;
  5. 如果第4步用到了多個數(shù)據(jù)來源淌哟,使用PASA基于重疊情況進(jìn)行聯(lián)配;
  6. 使用EvidenceModler根據(jù)上述結(jié)果進(jìn)行整合辽故;
  7. 使用PASA更新EVM的一致性預(yù)測绞绒,增加UTR注釋和可變剪切注釋;
  8. 必要的人工檢查榕暇。

二、從頭預(yù)測基因 ab initio

文件準(zhǔn)備:在水稻網(wǎng)站http://rice.hzau.edu.cn/rice_rs3/下載MH63RS3版本的水稻基因組作為練手?jǐn)?shù)據(jù)喻杈。

1.Augustus

安裝(使用conda安裝)

source activate genome_anno
conda install augustus=3.3
conda install -c bioconda augustus -y

使用

mkdir 01-augustsus && cd 01-augustsus
cp MH63RS3.fasta.gz ../01augustus/
mv MH63RS3.fasta genome.fa
seqkit split genome.fa #結(jié)果文件在genome.fa.split文件夾里彤枢。split是按照指定方式將染色體拆分成小部分。
find genome.fa.split/ -type f -name "*.fa" | parallel -j 30 augustus --species=rice --gff3=on >> test.gff #并行處理 ###注意選擇物種
join_aug_pred.pl < test.gff  | grep -v '^#' > test.joined.gff
bedtools sort -i test.joined.gff > augustus.gff

2.GeneMark-ES/ET

安裝

#GeneMark-ES/ET是唯一一款支持無監(jiān)督訓(xùn)練模型, 軟件下載需要登記筒饰。

wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_HbJ0A/gmes_linux_64.tar.gz
tar xf gm_et_linux_64.tar.gz

wget http://topaz.gatech.edu/GeneMark/tmp/GMtool_AoSqY/gm_key_64.gz
gzip -dc gm_key_64.gz > ~/.gm_key
cpan YAML Hash::Merge Logger::Simple Parallel::ForkManager

echo "export PATH=$PATH:$HOME/Tools/GeneMark/gmes_linux_64" >> ~/.bashrc

使用

gmes_petap.pl --ES --sequence genome.fa --cores 50

最后得到的是genemark.gtf缴啡,是標(biāo)準(zhǔn)的GTF格式,可以使用Sequence Ontology Project提供的gtf2gff3.pl進(jìn)行轉(zhuǎn)換瓷们。
兩種將gtf轉(zhuǎn)為gff格式的方法业栅。

wget http://genes.mit.edu/burgelab/miso/scripts/gtf2gff3.pl
chmod 755 gtf2gff3.pl
perl gtf2gff3.pl /database/genome_assembly/1_03_GeneMark/genemark.gtf | bedtools sort -i - > genemark.gff

gffread genemark.gtf -o- > genemark.gff

3.GlimmerHMM

安裝

wget https://ccb.jhu.edu/software/glimmerhmm/dl/GlimmerHMM-3.0.4.tar.gz
tar -xzf GlimmerHMM-3.0.4.tar.gz 

使用

1.用訓(xùn)練好的水稻數(shù)據(jù)集。

glimmerhmm_linux_x86_64 genome.fa -d $HOME/Tools/GlimmerHMM/GlimmerHMM/trained_dir/rice -g -n 1 -o glimm.gff


#參數(shù)
USAGE:  ./glimmerhmm_linux_x86_64 <genome1-file> <training-dir-for-genome1> [options]
Options:
-p file_name     If protein domain searches are available, read them from file file_name
-d dir_name      Training directory is specified by dir_name (introduced for compatibility with earlier versions)
-o file_name     Print output in file_name; if n>1 for top best predictions, output is in file_name.1, file_name.2, ... , file_name.n f
-n n             Print top n best predictions
-g               Print output in gff format
-v               Don't use svm splice site predictions
-f               Don't make partial gene predictions
-h               Display the options of the program

2.自行訓(xùn)練數(shù)據(jù)集

#1.手動訓(xùn)練谬晕,構(gòu)建數(shù)據(jù)集
$HOME/Tools/GlimmerHMM/GlimmerHMM/train/trainGlimmerHMM genome.part_Chr01.fa exon_file

#2.指定自己的訓(xùn)練結(jié)果文件夾
cut -f 1 -d ' ' genome.fa.tmp >genome.fa
glimmerhmm_linux_x86_64 genome.fa -d TrainGlimmM-MH63RS3 -g -n 1 -o glimm.gff

三碘裕、同源預(yù)測基因結(jié)構(gòu)

GenomeThreader

針對一個基因進(jìn)行同源預(yù)測

gth -genomic chr1_5k.fa -protein cer.fa -intermediate -gff3out
# 其中cer.fa就是AT1G02205.2的氨基酸序列

全基因組范圍預(yù)測流程如下:
準(zhǔn)備cDNA和或protein序列:在https://phytozome.jgi.doe.gov/p下載靠譜的物種的蛋白質(zhì)序列,如 Arabidopsis thaliana, Oryza sativa, Brassica rapa, 查找文獻(xiàn)尋找目前該物種的已有EST/cDNA序列攒钳,或者RNA-seq從頭組裝轉(zhuǎn)錄組帮孔。這里僅考慮用同源物種的蛋白序列進(jìn)行比對分析,轉(zhuǎn)錄組從頭組裝數(shù)據(jù)用于PASA整體比對到參考基因組和更新已有的基因解雇不撑。
分別測試不同物種的同源注釋結(jié)果文兢。

#run seperately
gth -species arabidopsis -translationtable 1 -gff3 -intermediate -protein ~/db/protein_db/Athaliana_167_TAIR10.protein.fa.gz -genomic chi_unmasked.fa -o 03-genomethreader/Athaliana.gff3 &
gth -species arabidopsis -translationtable 1 -gff3 -intermediate -protein ~/db/protein_db/BrapaFPsc_277_v1.3.protein.fa.gz -genomic chi_unmasked.fa -o 03-genomethreader/Brapa.gff3 &
gth -species arabidopsis -translationtable 1 -gff3 -intermediate -protein ~/db/protein_db/Osativa_323_v7.0.protein.fa.gz -genomic chi_unmasked.fa -o 03-genomethreader/Osativa.gff3 &

當(dāng)然實際的同源注釋流程中不能是單個物種分別預(yù)測,應(yīng)該是將所有的蛋白序列進(jìn)行合并焕檬,然后用BLASTX找到最優(yōu)的聯(lián)配姆坚,之后用GenomeThreader進(jìn)行預(yù)測。PASA流程提到的UniRef90作為同源注釋的搜索數(shù)據(jù)庫可能是更好的選擇实愚,由于UniRef優(yōu)先選擇哪些人工審查兼呵、注釋質(zhì)量高兔辅、來源于模式動植物的蛋白,所以可靠性相對于直接使用同源物中可能更高萍程。


四幢妄、基于轉(zhuǎn)錄組的基因結(jié)構(gòu)預(yù)測

TransDecoder

安裝

wget https://github.com/TransDecoder/TransDecoder/archive/refs/tags/TransDecoder-v5.7.0.zip
unzip TransDecoder-v5.7.0.zip

$HOME/Tools/TransDecoder/TransDecoder-TransDecoder-v5.7.0/util

可以下載靠譜的轉(zhuǎn)錄組數(shù)據(jù):https://phytozome.jgi.doe.gov/p

第一個步驟:用已有的注釋文件和參考基因組來進(jìn)行識別。

從有參考基因組的轉(zhuǎn)錄結(jié)果GTF文件預(yù)測編碼區(qū)域:
我們從cufflinks或stringtie輸出的gtf文件開始分析流程茫负,因此有兩個輸入文件:
? transcripts.gtf: 記錄預(yù)測轉(zhuǎn)錄本的GTF文件
? genome.fasta: 參考基因組序列

  1. 在含有轉(zhuǎn)錄本的gtf文件中提取fasta序列蕉鸳。
$HOME/Tools/TransDecoder/TransDecoder-TransDecoder-v5.7.0/util/gtf_genome_to_cdna_fasta.pl MH63.gtf genome.fa > transcripts.fasta
  1. 將gtf轉(zhuǎn)為gff
$HOME/Tools/TransDecoder/TransDecoder-TransDecoder-v5.7.0/util/gtf_to_alignment_gff3.pl MH63.gtf > MH63.gff3
  1. 提取最長的開放閱讀框,默認(rèn)是100個氨基酸忍法,可以用-m修改潮尝。默認(rèn)情況下,TransDecoder.LongOrfs將識別長度至少為100個氨基酸的開放閱讀框饿序∶闶В可以通過-m參數(shù)來降低這個值,但是要知道隨著最小長度的變短原探,ORF預(yù)測的假陽性率迅速增長乱凿。
$HOME/Tools/TransDecoder/TransDecoder-TransDecoder-v5.7.0/TransDecoder.LongOrfs -t transcripts.fasta

日志結(jié)果

        Use file: /database/genome_assembly/03TransDecoder/transcripts.fasta.transdecoder_dir/longest_orfs.pep  for Pfam and/or BlastP searches to enable homology-based coding region identification.
#可以用生成的longest_orfs.pep蛋白文件在Pfarm或者BlastP比對來識別編碼區(qū)域。識別他是否準(zhǔn)確咽弦。

        Then, run TransDecoder.Predict for your final coding region predictions.
#最后的預(yù)測徒蟆。
  1. 最后生成一個基于有參基因組的編碼區(qū)域注釋文件:
cdna_alignment_orf_to_genome_orf.pl transcripts.fasta.transdecoder_dir/longest_orfs.gff3  transcripts.gff3 transcripts.fasta > transcripts.fasta.transdecoder.genome.gff3
  1. 預(yù)測可能的編碼區(qū)
TransDecoder.Predict -t target_transcripts.fasta [ homology options ]
候選編碼區(qū)的最終集合可以在文件.transdecoder中找到。擴(kuò)展名包括.pep型型,.cds段审,.gff3和.bed。

$HOME/Tools/TransDecoder/TransDecoder-TransDecoder-v5.7.0/TransDecoder.Predict -t transcripts.fasta  -retain_blastp_hits blastp.outfmt6 

五闹蒜、三種方法的結(jié)果整合寺枉。

最后使用EvidenceModler根據(jù)上述結(jié)果進(jìn)行整合,使用PASA更新EVM的一致性預(yù)測绷落,增加UTR注釋和可變剪切注釋姥闪;在進(jìn)行適當(dāng)?shù)娜斯ぜm正。


https://blog.csdn.net/u012110870/article/details/82500684
https://yanzhongsino.github.io/2021/08/10/omics_genome.management/


未完待續(xù)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末砌烁,一起剝皮案震驚了整個濱河市甘畅,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌往弓,老刑警劉巖疏唾,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異函似,居然都是意外死亡槐脏,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門撇寞,熙熙樓的掌柜王于貴愁眉苦臉地迎上來顿天,“玉大人堂氯,你說我怎么就攤上這事∨品希” “怎么了咽白?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鸟缕。 經(jīng)常有香客問我晶框,道長,這世上最難降的妖魔是什么懂从? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任授段,我火速辦了婚禮,結(jié)果婚禮上番甩,老公的妹妹穿的比我還像新娘侵贵。我一直安慰自己,他們只是感情好缘薛,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布窍育。 她就那樣靜靜地躺著,像睡著了一般宴胧。 火紅的嫁衣襯著肌膚如雪蔫骂。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天牺汤,我揣著相機(jī)與錄音,去河邊找鬼浩嫌。 笑死檐迟,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的码耐。 我是一名探鬼主播追迟,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼骚腥!你這毒婦竟也來了敦间?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤束铭,失蹤者是張志新(化名)和其女友劉穎廓块,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體契沫,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡带猴,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了懈万。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拴清。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡靶病,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出口予,到底是詐尸還是另有隱情娄周,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布沪停,位于F島的核電站煤辨,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏牙甫。R本人自食惡果不足惜掷酗,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望窟哺。 院中可真熱鬧泻轰,春花似錦、人聲如沸且轨。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽旋奢。三九已至泳挥,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間至朗,已是汗流浹背屉符。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留锹引,地道東北人矗钟。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像嫌变,于是被迫代替她去往敵國和親吨艇。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 基因組組裝完成后腾啥,或者是完成了草圖东涡,就不可避免遇到一個問題,需要對基因組序列進(jìn)行注釋倘待。注釋之前首先得構(gòu)建基因模型疮跑,...
    xuzhougeng閱讀 50,383評論 11 184
  • 蛋白編碼基因的注釋 輸入文件的準(zhǔn)備 注釋要注意基因組數(shù)據(jù)完整性和連續(xù)性,評估組裝質(zhì)量凸舵,這決定著注釋結(jié)果的質(zhì)量和準(zhǔn)確...
    Athena404閱讀 2,712評論 1 12
  • 1. 組裝基因組質(zhì)控 得到組裝好的基因組序列之后祸挪,首先要使用多種方法評估組裝質(zhì)量。這里用到2款可用于基因組組裝質(zhì)量...
    扇子和杯子閱讀 12,033評論 1 50
  • BRAKER2是一個基因組注釋流程贞间,能夠組合GeneMark贿条,AUGUSTUS和轉(zhuǎn)錄組數(shù)據(jù)雹仿。 在使用軟件之前,有幾...
    xuzhougeng閱讀 12,224評論 1 25
  • 基因組組裝 1.k-mer 那么我們首先要看一下k-mer是什么整以。它的定義是:是指將一條序列分成包含k個堿基的子字...
    小潤澤閱讀 11,664評論 5 39