使用MAKER進(jìn)行基因注釋(基礎(chǔ)入門)

maker

在基因組注釋上痹筛,MAKER算是一個(gè)很強(qiáng)大的分析流程莺治。能夠識(shí)別重復(fù)序列,將EST和蛋白序列比對(duì)到基因組帚稠,進(jìn)行從頭預(yù)測(cè)谣旁,并在最后整合這三個(gè)結(jié)果保證結(jié)果的可靠性。此外滋早,MAKER還可以不斷訓(xùn)練榄审,最初的輸出結(jié)果可以繼續(xù)用作輸入訓(xùn)練基因預(yù)測(cè)的算法,從而獲取更高質(zhì)量的基因模型馆衔。

Maker的使用比較簡(jiǎn)單瘟判,在軟件安裝成后怨绣,會(huì)有一個(gè)"data"文件夾存放測(cè)試數(shù)據(jù)

ls ~/opt/biosoft/maker/data
dpp_contig.fasta  dpp_est.fasta  dpp_protein.fasta  hsap_contig.fasta  hsap_est.fasta  hsap_protein.fasta  te_proteins.fasta

以"dpp"開頭的數(shù)據(jù)集為例,protein表示是同源物種的蛋白序列拷获,est是表達(dá)序列標(biāo)簽篮撑,存放的是片段化的cDNA序列,而contig則是需要被預(yù)測(cè)的基因組序列匆瓜。

讓我們新建一個(gè)文件夾赢笨,并將這些測(cè)試數(shù)據(jù)拷貝過(guò)來(lái)。

mkdir test01 ; cd test01
cp ~/opt/biosoft/maker/data/dpp* .

由于基因組注釋設(shè)計(jì)到多個(gè)程序驮吱,多個(gè)步驟茧妒,每個(gè)步驟可能都有很多參數(shù)需要調(diào)整,因此就需要建立專門的配置文件用來(lái)告訴maker應(yīng)該如何控制流程的運(yùn)行左冬。

如下步驟創(chuàng)建三個(gè)以ctl結(jié)尾的配置文件

~/opt/biosoft/maker/bin/maker -CTL
ls *.ctl
maker_bopts.ctl  maker_exe.ctl  maker_opts.ctl
  • maker_exe.ctl: 執(zhí)行程序的路徑
  • maker_bopt.ctl: BLAST和Exonerat的過(guò)濾參數(shù)
  • maker_opt.ctl: 其他信息桐筏,例如輸入基因組文件

maker_exe.ctl和maker_bopt.ctl可以簡(jiǎn)單用less查看,可不做修改拇砰,maker_opt.ctl是主要調(diào)整的對(duì)象梅忌。 使用vim maker_opt.ctl修改如下內(nèi)容

genome=dpp_contig.fasta
est=dpp_est.fasta
protein=dpp_protein.fasta
est2genome=1

修改完之后多花幾分鐘看看每個(gè)參數(shù)的設(shè)置,盡管很枯燥除破,但是考慮這個(gè)工具你可能會(huì)反復(fù)多次使用牧氮,所以這點(diǎn)時(shí)間是一定要花的。

隨后就可以在當(dāng)前路徑運(yùn)行程序

~/opt/biosoft/maker/bin/maker &> maker.log &

輸出結(jié)果見(jiàn)"dpp_contig.maker.output", 重點(diǎn)是"dpp_contig_master_datastore_index.log"文件瑰枫,由于maker會(huì)拆分?jǐn)?shù)據(jù)集并行計(jì)算踱葛,因此該文件記錄總體的運(yùn)行情況,需要關(guān)注其中是否有"FAILED","RETRY","SKIPPED_SAMLL","DIED_SIPPED_PERMANET"光坝,因?yàn)檫@意味著有些數(shù)據(jù)出于某些原因沒(méi)有運(yùn)算尸诽。

最后,我們需要將并行運(yùn)算的結(jié)果進(jìn)行整合盯另,導(dǎo)出GFF文件, 轉(zhuǎn)錄本序列和蛋白序列

~/opt/biosoft/maker/bin/fasta_merge -d dpp_contig_master_datastore_index.log
~/opt/biosoft/maker/bin/gff3_merge -d dpp_contig_master_datastore_index.log

在該目錄下就會(huì)出現(xiàn), "dpp_contig.all.gff", "dpp_contig.all.maker.proteins.fasta","dpp_contig.all.maker.transcripts.fasta"

其中GFF文件就需要用IGV逊谋,JBrowse, Apollo下展示來(lái)檢查下注釋是否正確。

附錄

軟件安裝:MAKER可以免費(fèi)用于學(xué)術(shù)用途土铺,但是未經(jīng)許可不可商用。目前有兩個(gè)版本2018年5月4日更新的2.31.10和測(cè)試版3.01.02.出于穩(wěn)定性考慮板鬓,安裝前者悲敷。后續(xù)假設(shè)已經(jīng)在http://yandell.topaz.genetics.utah.edu/cgi-bin/maker_license.cgi進(jìn)行登記,并且下載了壓縮包"maker-2.31.10.tgz"

先檢查下自己的系統(tǒng)情況俭令,看需要補(bǔ)充哪些庫(kù)

tar xf maker-2.31.10.tgz
cd maker/src
perl Build.PL

這一步之后會(huì)羅列出后續(xù)需要運(yùn)行的命令來(lái)完成安裝

./Build installdeps
./Build installexes
./Build install
./Build status
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末后德,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子抄腔,更是在濱河造成了極大的恐慌瓢湃,老刑警劉巖理张,帶你破解...
    沈念sama閱讀 219,427評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異绵患,居然都是意外死亡雾叭,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門落蝙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)织狐,“玉大人,你說(shuō)我怎么就攤上這事筏勒∫破龋” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵管行,是天一觀的道長(zhǎng)厨埋。 經(jīng)常有香客問(wèn)我,道長(zhǎng)捐顷,這世上最難降的妖魔是什么荡陷? 我笑而不...
    開封第一講書人閱讀 58,939評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮套菜,結(jié)果婚禮上亲善,老公的妹妹穿的比我還像新娘。我一直安慰自己逗柴,他們只是感情好蛹头,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著戏溺,像睡著了一般渣蜗。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上旷祸,一...
    開封第一講書人閱讀 51,737評(píng)論 1 305
  • 那天耕拷,我揣著相機(jī)與錄音,去河邊找鬼托享。 笑死骚烧,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的闰围。 我是一名探鬼主播赃绊,決...
    沈念sama閱讀 40,448評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼羡榴!你這毒婦竟也來(lái)了碧查?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,352評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎忠售,沒(méi)想到半個(gè)月后传惠,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡稻扬,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評(píng)論 3 338
  • 正文 我和宋清朗相戀三年卦方,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片腐螟。...
    茶點(diǎn)故事閱讀 40,133評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡愿汰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出乐纸,到底是詐尸還是另有隱情衬廷,我是刑警寧澤,帶...
    沈念sama閱讀 35,815評(píng)論 5 346
  • 正文 年R本政府宣布汽绢,位于F島的核電站吗跋,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏宁昭。R本人自食惡果不足惜跌宛,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評(píng)論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望积仗。 院中可真熱鬧疆拘,春花似錦、人聲如沸寂曹。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)隆圆。三九已至漱挚,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間渺氧,已是汗流浹背旨涝。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留侣背,地道東北人白华。 一個(gè)月前我還...
    沈念sama閱讀 48,398評(píng)論 3 373
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像贩耐,于是被迫代替她去往敵國(guó)和親衬鱼。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容