使用MAKER進(jìn)行注釋: 訓(xùn)練SNAP基因模型

準(zhǔn)備階段

訓(xùn)練SNAP模型蛉拙,需要準(zhǔn)備三個(gè)文件,分別是參考基因組序列画舌,組裝的轉(zhuǎn)錄本序列和同源蛋白序列。

對(duì)于參考基因組序列已慢,我們要保證N50需要超過(guò)預(yù)期基因長(zhǎng)度的中位數(shù)曲聂,否則注釋效果不好。不過(guò)目前的基因組在三代測(cè)序的加持下佑惠,基本上都不是問(wèn)題朋腋。

對(duì)于同源蛋白, 建議只用UniProt/Sprot的人工檢查過(guò)的高質(zhì)量蛋白序列膜楷,而不是盲目參考文獻(xiàn)旭咽,使用近源物種的所有蛋白。除非你的近源物種都是模式物種赌厅,蛋白序列可靠性高穷绵,否則用錯(cuò)誤的輸入進(jìn)行訓(xùn)練,數(shù)據(jù)越多反而錯(cuò)的越多特愿。

我們可以在ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/taxonomic_divisions/選擇合適的uniprot_sprot數(shù)據(jù), 然后將其輸出為fasta格式仲墨。以植物為例

wget ftp://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/taxonomic_divisions/uniprot_sprot_plants.dat.gz
zcat uniprot_sprot_plants.dat.gz |\
    awk '{if (/^ /) {gsub(/ /, ""); print} else if (/^AC/) print ">" $2}' |\
    sed 's/;$//'> protein.fa

對(duì)于轉(zhuǎn)錄本,我們通常會(huì)測(cè)一些轉(zhuǎn)錄組數(shù)據(jù)揍障,有三種策略可以得到轉(zhuǎn)錄本目养。(這里暫時(shí)不考慮三代全長(zhǎng)轉(zhuǎn)錄本)

  1. Trinity重頭組裝轉(zhuǎn)錄本
  2. 使用STAR + Trinity 獲取轉(zhuǎn)錄本
  3. 使用STAR + StringTie + gffread 獲取轉(zhuǎn)錄本

對(duì)于這三種策略,不推薦策略一毒嫡,因?yàn)樵谟袇⒖蓟蚪M的情況下癌蚁,策略二不但計(jì)算效率高,而且能避免組裝錯(cuò)誤(多倍體等位基因之間相似度高)兜畸。對(duì)于策略二和策略三努释,我會(huì)推薦策略三。因?yàn)閷?duì)于靠的比較近的基因膳叨,Trinity很可能會(huì)把這兩個(gè)基因裝成一個(gè)洽洁。

Fig1

并且利用該轉(zhuǎn)錄本作為輸入訓(xùn)練SNAP模型痘系,之后以SNAP模型作為輸入菲嘴,將轉(zhuǎn)錄組和同源蛋白作為證據(jù)而不是直接用作模型,我們?cè)贆z查maker的結(jié)果, 也會(huì)發(fā)現(xiàn)使用StringTie進(jìn)行組裝的結(jié)果才是對(duì)的汰翠。

Fig2

因此使用策略二不但計(jì)算量大龄坪,而且有些情況下還會(huì)導(dǎo)致過(guò)近的轉(zhuǎn)錄本錯(cuò)誤融合,反而影響了最終效果复唤。盡管你可以通過(guò)調(diào)整參數(shù)健田,或者使用鏈特異性測(cè)序的方式來(lái)來(lái)優(yōu)化結(jié)果,但STAR + StringTie 的組合同樣也可以這樣子做佛纫,因此最終我還是推薦策略三妓局。

當(dāng)然总放,這是我定性通過(guò)IGV瀏覽結(jié)果得出的結(jié)論,樣本小好爬,結(jié)論未必可靠局雄,僅供參考。

訓(xùn)練階段

假設(shè)我們準(zhǔn)備的三個(gè)文件分別命名為, genome.fa, protein.fa 和不同組織來(lái)源的stringtie組裝后的轉(zhuǎn)錄本或GFF文件存炮。

炬搭,如果是StringTie組裝的GTF文件,需要做如下的轉(zhuǎn)換(感謝上海歐易生物-鮑志貴提供的幫助)

gffread -E sample.gtf -o - | sed -e "s#transcript#match#g" -e "s#exon#match_part#g" > sample.gff

接著使用maker -CTL新建配置文件, 設(shè)置如下選項(xiàng)

genome=genome.fa
est=組織1.fa,組織2.fa,組織3.fa
est_gff=組織1.gff,組織2.gff,組織3.gff
protein=protein.fa
est2genome=1
protein2genome=1

然后使用mpiexec -n 線程數(shù) maker &> run.log運(yùn)行程序穆桂。

處理結(jié)果后宫盔,我們新建一個(gè)snap目錄訓(xùn)練模型

mkdir snap && cd snap
gff3_merge -d ../genome.maker.output/genome_master_datastore_index.log

使用makerzff構(gòu)建輸入文件

maker2zff -c 0.8 -e 0.8 -o 0.8 -x 0.2 genome.all.gff

maker2zff會(huì)根據(jù)AED(-x)和QI值進(jìn)行過(guò)濾,其中QI值一共有9項(xiàng)享完,每一項(xiàng)的含義如下

  1. Length of the 5' UTR
  2. Fraction of splice sites confirmed by an EST alignment (-c)
  3. Fraction of exons that overlap an EST alignmetn(-e)
  4. Fraction of exons that overlap EST or Protein alignments(-o)
  5. Fraction of splice site confrimed by a ab-initio prediction(-a)
  6. Fraction of exons that overlap a ab-initio prediction(-t)
  7. Number of exons in the mRNA
  8. length of the 3' UTR
  9. Length of the protein sequence produced by the mRNA (-l)

如果QI值第二項(xiàng)為-1灼芭,表示沒(méi)有支持該剪切位點(diǎn)的EST證據(jù).

接著構(gòu)建模型

fathom -categorize 1000 genome.ann genome.dna
fathom -export 1000 -plus uni.ann uni.dna
forge export.ann export.dna
hmm-assembler.pl snap . > ../snap.hmm

修改配置,然后重新運(yùn)行驼侠。MAKER會(huì)自動(dòng)處理沖突的部分姿鸿,避免重復(fù)序列屏蔽等的一些重復(fù)計(jì)算。

genome=genome.fa
est=Trinity-GG.fasta
protein=protein.fa
snap=snap.hmm
est2genome=0
protein2genome=0

根據(jù)輸出結(jié)果再一次訓(xùn)練模型

mkdir snap2 && cd snap2
gff3_merge -d ../genome.maker.output/genome_master_datastore_index.log
fathom -categorize 1000 genome.ann genome.dna
fathom -export 1000 -plus uni.ann uni.dna
forge export.ann export.dna
hmm-assembler.pl snap . > ../snap2.hmm

通常迭代2-3次就夠了倒源,畢竟我們可能還會(huì)訓(xùn)練AUGUSTUS和GeneMark模型苛预,通過(guò)比較多個(gè)模型來(lái)得到最終結(jié)果。

關(guān)于SNAP軟件細(xì)節(jié)可以參考使用MAKER進(jìn)行基因注釋(高級(jí)篇之SNAP模型訓(xùn)練)

推薦閱讀:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末笋熬,一起剝皮案震驚了整個(gè)濱河市热某,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌胳螟,老刑警劉巖昔馋,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異糖耸,居然都是意外死亡秘遏,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門嘉竟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)邦危,“玉大人,你說(shuō)我怎么就攤上這事舍扰【腧剑” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵边苹,是天一觀的道長(zhǎng)陵且。 經(jīng)常有香客問(wèn)我,道長(zhǎng)个束,這世上最難降的妖魔是什么慕购? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任聊疲,我火速辦了婚禮,結(jié)果婚禮上沪悲,老公的妹妹穿的比我還像新娘售睹。我一直安慰自己,他們只是感情好可训,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布昌妹。 她就那樣靜靜地躺著,像睡著了一般握截。 火紅的嫁衣襯著肌膚如雪飞崖。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天谨胞,我揣著相機(jī)與錄音固歪,去河邊找鬼。 笑死胯努,一個(gè)胖子當(dāng)著我的面吹牛牢裳,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播叶沛,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼蒲讯,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了灰署?” 一聲冷哼從身側(cè)響起判帮,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎溉箕,沒(méi)想到半個(gè)月后晦墙,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡肴茄,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年晌畅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片寡痰。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡抗楔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出氓癌,到底是詐尸還是另有隱情谓谦,我是刑警寧澤贫橙,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布贪婉,位于F島的核電站,受9級(jí)特大地震影響卢肃,放射性物質(zhì)發(fā)生泄漏疲迂。R本人自食惡果不足惜才顿,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望尤蒿。 院中可真熱鬧郑气,春花似錦、人聲如沸腰池。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)示弓。三九已至讳侨,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間奏属,已是汗流浹背跨跨。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留囱皿,地道東北人勇婴。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像嘱腥,于是被迫代替她去往敵國(guó)和親耕渴。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345