在基因組注釋上季希,MAKER算是一個(gè)很強(qiáng)大的分析流程。能夠識(shí)別重復(fù)序列幽纷,將EST和蛋白序列比對(duì)到基因組式塌,進(jìn)行從頭預(yù)測(cè),并在最后整合這三個(gè)結(jié)果保證結(jié)果的可靠性友浸。此外珊搀,MAKER還可以不斷訓(xùn)練,最初的輸出結(jié)果可以繼續(xù)用作輸入訓(xùn)練基因預(yù)測(cè)的算法尾菇,從而獲取更高質(zhì)量的基因模型境析。
1.軟件安裝
tar xf maker-2.31.10.tgz
cd maker/src
perl Build.PL 檢查依賴的庫(kù)
./Build installdeps
./Build installexes
./Build install
./Build status
看卻哪一個(gè)就安裝哪一個(gè)。最后安好了的結(jié)果就像下面:
記得安裝完成后將bin目錄添加到環(huán)境里派诬,方便使用劳淆。
2. 利用maker提供的測(cè)試數(shù)據(jù)運(yùn)行程序
安裝成后,會(huì)有一個(gè)"data"文件夾存放測(cè)試數(shù)據(jù)默赂。
以"dpp"開(kāi)頭的數(shù)據(jù)集為例沛鸵,protein表示是同源物種的蛋白序列,est是表達(dá)序列標(biāo)簽,存放的是片段化的cDNA序列曲掰,而contig則是需要被預(yù)測(cè)的基因組序列疾捍。
新建一個(gè)文件夾,并將這些測(cè)試數(shù)據(jù)拷貝過(guò)來(lái)栏妖。
$mkdir test01 ; cd test01
$cp /path/to/maker/data/dpp* .
由于基因組注釋設(shè)計(jì)到多個(gè)程序乱豆,多個(gè)步驟,每個(gè)步驟可能都有很多參數(shù)需要調(diào)整吊趾,因此就需要建立專門的配置文件用來(lái)告訴maker應(yīng)該如何控制流程的運(yùn)行宛裕。
如下步驟創(chuàng)建四個(gè)以ctl結(jié)尾的配置文件。
$maker -CTL
$ls *.ctl
$maker_bopts.ctl maker_exe.ctl maker_opts.ctl maker_evm.ctl
- maker_exe.ctl: 執(zhí)行程序的路徑
- maker_bopt.ctl: BLAST和Exonerat的過(guò)濾參數(shù)
- maker_opt.ctl: 其他信息论泛,例如輸入基因組文件
- maker_evm.ctl:不知道干啥的
其中maker_exe.ctl包含的是maker需要的軟件的路徑揩尸,可以不用修改,maker_bopt.ctl與maker_evm.ctl也不用修改屁奏,要修改的是maker_opt.ctl岩榆,它是主要調(diào)整輸入文件等。用vim打開(kāi)修改坟瓢,找到如下幾項(xiàng)并修改如下:
genome=dpp_contig.fasta
est=dpp_est.fasta
protein=dpp_protein.fasta
est2genome=1
隨后就可以在當(dāng)前路徑運(yùn)行程序:
$maker &> maker.log &
3. 結(jié)果解讀
運(yùn)行上一步會(huì)生成一個(gè)dpp_contig.maker.output的文件夾朗恳,里面包含如下內(nèi)容:
其中 dpp_contig_master_datastore_index.log 記錄總體的運(yùn)行情況,需要關(guān)注其中是否有"FAILED", "RETRY", "SKIPPED_SAMLL", "DIED_SIPPED_PERMANET"载绿,因?yàn)檫@意味著有些數(shù)據(jù)出于某些原因沒(méi)有運(yùn)算。如下就是沒(méi)問(wèn)題的:
最后油航,將并行運(yùn)算的結(jié)果進(jìn)行整合崭庸,導(dǎo)出GFF文件, 轉(zhuǎn)錄本序列和蛋白序列:
$fasta_merge -d dpp_contig_master_datastore_index.log
$gff3_merge -d dpp_contig_master_datastore_index.log
結(jié)果如下:
其中GFF文件就需要用IGV,JBrowse, Apollo下展示來(lái)檢查下注釋是否正確谊囚。
參考:
使用MAKER進(jìn)行基因注釋(基礎(chǔ)入門)