在基因組注釋上痹筛,MAKER算是一個(gè)很強(qiáng)大的分析流程莺治。能夠識(shí)別重復(fù)序列,將EST和蛋白序列比對(duì)到基因組帚稠,進(jìn)行從頭預(yù)測(cè)谣旁,并在最后整合這三個(gè)結(jié)果保證結(jié)果的可靠性。此外滋早,MAKER還可以不斷訓(xùn)練榄审,最初的輸出結(jié)果可以繼續(xù)用作輸入訓(xùn)練基因預(yù)測(cè)的算法,從而獲取更高質(zhì)量的基因模型馆衔。
Maker的使用比較簡(jiǎn)單瘟判,在軟件安裝成后怨绣,會(huì)有一個(gè)"data"文件夾存放測(cè)試數(shù)據(jù)
ls ~/opt/biosoft/maker/data
dpp_contig.fasta dpp_est.fasta dpp_protein.fasta hsap_contig.fasta hsap_est.fasta hsap_protein.fasta te_proteins.fasta
以"dpp"開頭的數(shù)據(jù)集為例,protein表示是同源物種的蛋白序列拷获,est是表達(dá)序列標(biāo)簽篮撑,存放的是片段化的cDNA序列,而contig則是需要被預(yù)測(cè)的基因組序列匆瓜。
讓我們新建一個(gè)文件夾赢笨,并將這些測(cè)試數(shù)據(jù)拷貝過(guò)來(lái)。
mkdir test01 ; cd test01
cp ~/opt/biosoft/maker/data/dpp* .
由于基因組注釋設(shè)計(jì)到多個(gè)程序驮吱,多個(gè)步驟茧妒,每個(gè)步驟可能都有很多參數(shù)需要調(diào)整,因此就需要建立專門的配置文件用來(lái)告訴maker應(yīng)該如何控制流程的運(yùn)行左冬。
如下步驟創(chuàng)建三個(gè)以ctl結(jié)尾的配置文件
~/opt/biosoft/maker/bin/maker -CTL
ls *.ctl
maker_bopts.ctl maker_exe.ctl maker_opts.ctl
- maker_exe.ctl: 執(zhí)行程序的路徑
- maker_bopt.ctl: BLAST和Exonerat的過(guò)濾參數(shù)
- maker_opt.ctl: 其他信息桐筏,例如輸入基因組文件
maker_exe.ctl和maker_bopt.ctl可以簡(jiǎn)單用less查看,可不做修改拇砰,maker_opt.ctl是主要調(diào)整的對(duì)象梅忌。 使用vim maker_opt.ctl
修改如下內(nèi)容
genome=dpp_contig.fasta
est=dpp_est.fasta
protein=dpp_protein.fasta
est2genome=1
修改完之后多花幾分鐘看看每個(gè)參數(shù)的設(shè)置,盡管很枯燥除破,但是考慮這個(gè)工具你可能會(huì)反復(fù)多次使用牧氮,所以這點(diǎn)時(shí)間是一定要花的。
隨后就可以在當(dāng)前路徑運(yùn)行程序
~/opt/biosoft/maker/bin/maker &> maker.log &
輸出結(jié)果見(jiàn)"dpp_contig.maker.output", 重點(diǎn)是"dpp_contig_master_datastore_index.log"文件瑰枫,由于maker會(huì)拆分?jǐn)?shù)據(jù)集并行計(jì)算踱葛,因此該文件記錄總體的運(yùn)行情況,需要關(guān)注其中是否有"FAILED","RETRY","SKIPPED_SAMLL","DIED_SIPPED_PERMANET"光坝,因?yàn)檫@意味著有些數(shù)據(jù)出于某些原因沒(méi)有運(yùn)算尸诽。
最后,我們需要將并行運(yùn)算的結(jié)果進(jìn)行整合盯另,導(dǎo)出GFF文件, 轉(zhuǎn)錄本序列和蛋白序列
~/opt/biosoft/maker/bin/fasta_merge -d dpp_contig_master_datastore_index.log
~/opt/biosoft/maker/bin/gff3_merge -d dpp_contig_master_datastore_index.log
在該目錄下就會(huì)出現(xiàn), "dpp_contig.all.gff", "dpp_contig.all.maker.proteins.fasta","dpp_contig.all.maker.transcripts.fasta"
其中GFF文件就需要用IGV逊谋,JBrowse, Apollo下展示來(lái)檢查下注釋是否正確。
附錄
軟件安裝:MAKER可以免費(fèi)用于學(xué)術(shù)用途土铺,但是未經(jīng)許可不可商用。目前有兩個(gè)版本2018年5月4日更新的2.31.10和測(cè)試版3.01.02.出于穩(wěn)定性考慮板鬓,安裝前者悲敷。后續(xù)假設(shè)已經(jīng)在http://yandell.topaz.genetics.utah.edu/cgi-bin/maker_license.cgi進(jìn)行登記,并且下載了壓縮包"maker-2.31.10.tgz"
先檢查下自己的系統(tǒng)情況俭令,看需要補(bǔ)充哪些庫(kù)
tar xf maker-2.31.10.tgz
cd maker/src
perl Build.PL
這一步之后會(huì)羅列出后續(xù)需要運(yùn)行的命令來(lái)完成安裝
./Build installdeps
./Build installexes
./Build install
./Build status