背景篇
在植物基因組中娇斩,I類轉(zhuǎn)座因子窗轩,LTR-RT(LTR retrotransposons)是基因組擴(kuò)張的主要原因养渴。完整的LTR長度在85~5000 bp之間,下圖圖A表示的是一個(gè)完整的LTR-RT争群,灰色框表示TSD(target site duplications), 紅色三角形表示LTR motif(長度在2bp左右), 藍(lán)色框表示LTR。LTR中間序列長度在1,000~15,000之間波動(dòng)大年。
完整的LTR-RT主要?dú)w為兩大類: Gypsy和Copia换薄。如果LTR中間的序列不包含開放閱讀框(ORF), 那么所屬的LTR-RT就無法獨(dú)立的轉(zhuǎn)座。
安裝篇
LTR_retriever
不是一個(gè)獨(dú)立的工具翔试,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的結(jié)果轻要,過濾其中的假陽性LTR-RT,得到高質(zhì)量的LTR-RT庫垦缅。
先下載LTR_retriever
本體
git clone https://github.com/oushujun/LTR_retriever.git
之后修改LTR_retriever
下的paths
, 提供BLAST+, RepeatMasker冲泥, HMMER, CDHIT這些工具的路徑壁涎。
BLAST+=/your_path_to/BLAST+2.2.30/bin/
RepeatMasker=/your_path_to/RepeatMasker4.0.0/
HMMER=/your_path_to/HMMER3.1b2/bin/
CDHIT=/your_path_to/CDHIT4.6.1/
BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided
更加方便的安裝方法用Bioconda安裝好cd-hit repeatmasker凡恍, 然后下載LTR_retriever:
conda create -n LTR_retriever
source activate LTR_retriever
conda install -c conda-forge perl perl-text-soundex
conda install -c bioconda cd-hit
conda install -c bioconda/label/cf201901 repeatmasker
git clone https://github.com/oushujun/LTR_retriever.git
./LTR_retriever/LTR_retriever -h
此外你還需要額外安裝LTRharvest
, LTR_FINDER
和MGEScan_LTR
。
- LTRharverst: http://genometools.org/
- LTR_FINDER: https://github.com/xzhub/LTR_Finder
- 修改版MGEScan_LTR: http://dawgpaws.sourceforge.net/
由于MGEScan_LTR裝起來比我想象中麻煩怔球,所以本文就僅使用LTRharverst和LTR_FINDER
使用篇
盡管LTR_retriever支持多個(gè)LTR工具的輸入嚼酝,但其實(shí)上LTRharverst和LTR_FINDER的結(jié)果就已經(jīng)很不錯(cuò)了。
以擬南芥的基因組序列為例竟坛,分別使用LTRharverst和LTR_FINDER來尋找擬南芥中潛在LTR序列革半,之后用LTR_retreiver
來合并結(jié)果碑定。
#LTRharvest
gt suffixerator \
-db TAIR10.fa \
-indexname TAIR10 \
-tis -suf -lcp -des -ssp -sds -dna
gt ltrharvest \
-index TAIR10 \
-similar 90 -vic 10 -seed 20 -seqids yes \
-minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \
-motif TGCA -motifmis 1 > TAIR10.harvest.scn &
# LTR_FINDER
ltr_finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 TAIR10.fa > TAIR10.finder.scn &
LTR_retriever
支持單個(gè)候選的LTR,
LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn
也支持多個(gè)候選LTR輸入
LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn -infinder TAIR10.finder.scn -threads 20
輸出文件如下
其他測試
LAI值是作者提出用于衡量基因組完整度參數(shù)又官。比較2個(gè)LTR輸入和1個(gè)LTR輸入的LAI值延刘,后者是15.62,前者是14.47六敬,這也意味這個(gè)值其實(shí)是受到輸入的候選LTR數(shù)目影響碘赖,但最終結(jié)果應(yīng)該穩(wěn)定在一個(gè)閾值內(nèi)。
我測試了多個(gè)物種在兩種軟件下找到的LTR外构,以及最終pass留下的LTR, 發(fā)現(xiàn)最終能夠pass普泡,數(shù)量都相對較少。同時(shí)限速步驟就是LTR_finder 和 LTRharvest审编。
物種 | 基因組大小 | LTR_finder | LTRharvest | Pass | LAI | 測序技術(shù) |
---|---|---|---|---|---|---|
A. lyrata | 206M | 1456 | 1017 | 1044 | 20.39 | Sanger |
A. thaliana (TAIR10) | 120 M | 207 | 550 | 184 | 15.62 | Sanger |
B. rapa (2.5) | 391M | 1251 | 3182 | 520 | 0 | PacBio + 二代20Kb 40Kb文庫 |
B. rapa (3.0) | 353 M | 3515 | 3635 | 1968 | 7.16 | PacBio + BioNano + Hi-C |
C.rubella | 135 M | 643 | 600 | 144 | 10.96 | 454 + Sanger |
A. alpina | 336 M | 3840 | 3107 | 2556 | 11.01 | PacBio + BioNano + Hi-C |
某物種A | 454 M | 5384 | 2789 | 4294 | 17.89 | PacBio |
還有一個(gè)有趣的現(xiàn)象撼班,B. rapa 3.0版本盡管是最近用三代加Hi-C組裝的基因,但是以LAI的標(biāo)準(zhǔn)垒酬,只能算是Draft級別, 當(dāng)然也比2.5版本好出不少砰嘁。
當(dāng)然作者也對很多物種的多個(gè)版本組裝進(jìn)行了比較,下圖來自于 Assessing genome assembly quality using the LTR Assembly Index (LAI)
如果使用該軟件記得引用下面兩篇文獻(xiàn)
- LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons
- Assessing genome assembly quality using the LTR Assembly Index (LAI)