基因組組裝完成后曙强,可通過查看contig的N50或者BUSCO残拐,以及LAI評(píng)估組裝質(zhì)量。本文就LAI方法做一簡(jiǎn)單介紹碟嘴。
基因組中的重復(fù)序列大體分為兩類:
- 串聯(lián)重復(fù)(Tandem repeats)(TRF可預(yù)測(cè))
- 散在重復(fù)(Dispersed repeats)
其中串聯(lián)重復(fù)含有:簡(jiǎn)單重復(fù)序列溪食,衛(wèi)星序列等;
散在重復(fù)包括:轉(zhuǎn)座子(TE娜扇,transposons错沃,elements)
TE又可細(xì)分為兩類:
- DNA transposons: 由DNA介導(dǎo)
- RNA transposons: 由RNA介導(dǎo),通過RNA的反轉(zhuǎn)錄獲得DNA雀瓢,從而轉(zhuǎn)移到其他基因組位置枢析。
目前主要存在兩種類型的RNA轉(zhuǎn)座子:
- 1 LTR (long terminal repeats)雙末端都是長(zhǎng)的重復(fù)序列
- 2 non-LTR TEs,雙末端缺乏重復(fù)序列刃麸。 LINE1和SINE(short interspersed transposable element)長(zhǎng)/短穿插轉(zhuǎn)座元件
結(jié)構(gòu)如下(來源http://www.reibang.com/p/7d794d22e0a0)
LTR Assembly Index (LAI) 醒叁,LAI指數(shù)就是完整LTR反轉(zhuǎn)座子序列占總LTR序列長(zhǎng)度的比值。在基因組組裝過程中泊业,LTR較為難組裝把沼,因此被用來檢測(cè)組裝質(zhì)量。
軟件安裝
上述軟件自行下載吁伺,或者使用conda進(jìn)行安裝即可
安裝LTR_retriever
git clone https://github.com/oushujun/LTR_retriever.git
進(jìn)入paths文件饮睬,修改各個(gè)軟件所在路徑
BLAST+=/data/pub/liuzy/software/ncbi-blast-2.8.1+/bin/ #a path that contains makeblastdb, blastn, blastx
RepeatMasker=/data/pub/liuzy/software/repeatmask/RepeatMasker/RepeatMasker #a path that contains RepeatMasker
HMMER=/usr/local/bin/ #a path that contains hmmsearch
CDHIT=/data/pub/liuzy/software/cdhit-4.8.1
安裝LRT_finder
git clone https://github.com/xzhub/LTR_Finder.git
cd LTR_Finder/source/
make
簡(jiǎn)單使用
LTR_finder 鑒定LTR序列
~/software/LTR_Finder/source/ltr_finder ../groups.asm.fasta > groups.asm.finder.scn
這里的-D表示5'和3'LTR之間的最大距離,-d表示5'和3'LTR之間的最小距離篮奄,-L表示5'和3'LTR序列的最大長(zhǎng)度捆愁,-l表示5'和3'LTR序列的最小長(zhǎng)度,-p表示完全匹配配對(duì)的最小長(zhǎng)度窟却,-C表示檢測(cè)中心粒(centriole)刪除高度重復(fù)區(qū)域昼丑,-M表示最小的LTR相似度。如果不怎么該怎么設(shè)置就用默認(rèn)值夸赫。
LTR_retriever根據(jù)LTR_FINDER的輸出識(shí)別LTR-RT矾克,生成非冗余LTR-RT文庫(kù),可用于基因組注釋
/data/pub/liuzy/software/LTR_retriever/LTR_retriever -threads 4 -genome groups.asm.fasta -infinder groups.asm.finder.scn
這里的-infinder表示輸入來自于LTR_FINDER,它支持同時(shí)輸入LTRharvest的輸出(-inharvest)和 MGEScan-LTR 的輸出(-inmgescan). 嫌速度太慢胁附,可以用-threads增加線程數(shù)
計(jì)算LAI值
/opt/biosoft/LTR_retriever/LAI -t 10 -genome groups.asm.fasta -intact groups.asm.fasta.pass.list -all groups.asm.fasta .out
結(jié)果文件Athaliana.fa.out.LAI,第二行最后一個(gè)值就是LAI值
LAI值的評(píng)估標(biāo)準(zhǔn)
Category LAI Examples
Draft 0 ≤ LAI < 10 Apple (v1.0), Cacao (v1.0)
Reference 10 ≤ LAI < 20 Arabidopsis (TAIR10), Grape (12X)
Gold 20 ≤ LAI Rice (MSUv7), Maize (B73 v4)
參考
- LAI: 評(píng)估基因組質(zhì)量一個(gè)標(biāo)準(zhǔn)
- 轉(zhuǎn)座子的基本概念了解
- 利用LTR_retriever整合LTR數(shù)據(jù)集
- [Assessing genome assembly quality using the LTR Assembly Index (LAI). Nucleic Acids Res. gky730]( https://doi.org/10.1093/nar/gky730