1. LTR鑒定和LAI評(píng)估(> 5G基因組)
1)需要同時(shí)利用LTR_Finder和LTR_harvest同時(shí)鑒定,但是這兩個(gè)都是單線程伙狐,巨慢涮毫,尤其是LTR_Finder。如果超大基因組這兩個(gè)老是會(huì)因?yàn)槌瑑?nèi)存而跑斷耗時(shí)很幾天贷屎。
2)好消息是LTR_Finder不再更新了罢防,oushujun最新優(yōu)化支持了多進(jìn)程的LTR_FINDER_parallel. 但是LTR_harvest依舊只有單線程。
3)為了速度可以利用把整個(gè)組裝結(jié)果拆分成很多份的策略(當(dāng)基因組大約5G時(shí))唉侄,然后以拆分后的fasta分別進(jìn)行LTR_Finder和LTR_harvest篙梢,然后對(duì)每個(gè)拆分文件用LTR_retriever整合鑒定的結(jié)果,得到每個(gè)文件的*fasta.pass.list和*fasta.out的文件美旧。進(jìn)行手動(dòng)合成一個(gè)文件(LTR_retriever -threads 4 -genome LAphicanu.1.fasta -infinder LAphicanu.1.ltrfinder.scn -inharvest LAphicanu.1.harvest.scn)渤滞,作為L(zhǎng)AI的輸入文件(LAI -t 8 -genome all.fa -intact LAphicanu.all.fasta.mod.pass.list -all LAphicanu.all.fasta.mod.out),生成LAI評(píng)估結(jié)果榴嗅。
2. 2-5G基因組LAI評(píng)估
建議拆分文件為每個(gè)1G或0.5的fasta妄呕,分別利用LTR_Finder進(jìn)行LTR鑒定,然后手動(dòng)cat到一塊作為L(zhǎng)TR_Finder的總數(shù)輸出結(jié)果嗽测,或者不拆分直接用LTR_harvest绪励。
對(duì)于2-5G基因組肿孵,可以不拆分直接用LTR_harvest進(jìn)行LTR鑒定,速度相對(duì)可以疏魏,就不建議拆分了停做。因?yàn)椴鸱趾笫致闊苯觕at scn文件會(huì)報(bào)錯(cuò)大莫,所以必須要進(jìn)行LTR_retriever之后才能合并蛉腌,太麻煩了。
值得注意:
1.LTR_Finder支持harvest的格式輸出(參數(shù)-harvest_out)只厘,可以直接與LTR_harvest結(jié)果合并烙丛,作為L(zhǎng)TR_retriever輸入文件。
2.在基因組評(píng)估之前羔味,最好對(duì)contig的id進(jìn)行簡(jiǎn)化一下河咽,比如不去除空格后的東西,會(huì)引起LTR_retriever環(huán)節(jié)報(bào)錯(cuò)赋元;簡(jiǎn)化contig的ids到15個(gè)字符內(nèi)忘蟹,有些步驟對(duì)contig字符長(zhǎng)度有要求。
整個(gè)流程對(duì)于小基因組來(lái)說(shuō)命令為:
-------------------鑒定LTR--------------------------------
1) ltr_finder LWflye.fasta > LWflye.scn
2) gt suffixerator -db LWflye.fasta -indexname LWflye -tis -suf -lcp -des -ssp -sds -dna
? ? ?gt ltrharvest -index LWflye -seqids yes -maxlenltr 3500 > LWflye.harvest.scn
------------------整合LTR鑒定結(jié)果---------------------------
LTR_retriever -threads 4 -genome LWflye.fasta -infinder LWflye.scn?-inharvest?LWflye.harvest.scn
-----------------------LAI分析-----------------------------------
LAI -t 4 -genome LWflye.fasta -intact LWflye.fasta.pass.list -all LWflye.fasta.out?