LTR_retriever: 一個(gè)更加準(zhǔn)的LTR整合分析工具

背景篇

在植物基因組中娇斩,I類轉(zhuǎn)座因子窗轩,LTR-RT(LTR retrotransposons)是基因組擴(kuò)張的主要原因养渴。完整的LTR長度在85~5000 bp之間,下圖圖A表示的是一個(gè)完整的LTR-RT争群,灰色框表示TSD(target site duplications), 紅色三角形表示LTR motif(長度在2bp左右), 藍(lán)色框表示LTR。LTR中間序列長度在1,000~15,000之間波動(dòng)大年。

LTR-RT結(jié)構(gòu)

完整的LTR-RT主要?dú)w為兩大類: Gypsy和Copia换薄。如果LTR中間的序列不包含開放閱讀框(ORF), 那么所屬的LTR-RT就無法獨(dú)立的轉(zhuǎn)座。

安裝篇

LTR_retriever不是一個(gè)獨(dú)立的工具翔试,他的主要作用就是整合 LTRharvest, LTR_FINDER, MGEScan 3.0.0, LTR_STRUC, 和 LtrDetector的結(jié)果轻要,過濾其中的假陽性LTR-RT,得到高質(zhì)量的LTR-RT庫垦缅。

先下載LTR_retriever本體

git clone https://github.com/oushujun/LTR_retriever.git

之后修改LTR_retriever下的paths, 提供BLAST+, RepeatMasker冲泥, HMMER, CDHIT這些工具的路徑壁涎。

BLAST+=/your_path_to/BLAST+2.2.30/bin/
RepeatMasker=/your_path_to/RepeatMasker4.0.0/
HMMER=/your_path_to/HMMER3.1b2/bin/
CDHIT=/your_path_to/CDHIT4.6.1/
BLAST=/your_path_to/BLAST2.2.26/bin/ #not required if CDHIT provided

更加方便的安裝方法用Bioconda安裝好cd-hit repeatmasker凡恍, 然后下載LTR_retriever:

conda create -n LTR_retriever
source activate LTR_retriever
conda install -c conda-forge perl perl-text-soundex
conda install -c bioconda cd-hit
conda install -c bioconda/label/cf201901 repeatmasker
git clone https://github.com/oushujun/LTR_retriever.git
./LTR_retriever/LTR_retriever -h

此外你還需要額外安裝LTRharvest, LTR_FINDERMGEScan_LTR

由于MGEScan_LTR裝起來比我想象中麻煩怔球,所以本文就僅使用LTRharverst和LTR_FINDER

使用篇

盡管LTR_retriever支持多個(gè)LTR工具的輸入嚼酝,但其實(shí)上LTRharverst和LTR_FINDER的結(jié)果就已經(jīng)很不錯(cuò)了。

以擬南芥的基因組序列為例竟坛,分別使用LTRharverst和LTR_FINDER來尋找擬南芥中潛在LTR序列革半,之后用LTR_retreiver來合并結(jié)果碑定。

#LTRharvest
gt suffixerator \
  -db TAIR10.fa \
  -indexname TAIR10 \
  -tis -suf -lcp -des -ssp -sds -dna
gt ltrharvest \
  -index TAIR10 \
  -similar 90 -vic 10 -seed 20 -seqids yes \
  -minlenltr 100 -maxlenltr 7000 -mintsd 4 -maxtsd 6 \
  -motif TGCA -motifmis 1  > TAIR10.harvest.scn &
# LTR_FINDER
ltr_finder -D 15000 -d 1000 -L 7000 -l 100 -p 20 -C -M 0.9 TAIR10.fa > TAIR10.finder.scn &

LTR_retriever支持單個(gè)候選的LTR,

LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn

也支持多個(gè)候選LTR輸入

LTR_retriever -genome TAIR10.fa -inharvest TAIR10.harvest.scn -infinder TAIR10.finder.scn -threads 20

輸出文件如下

運(yùn)行結(jié)果

其他測試

LAI值是作者提出用于衡量基因組完整度參數(shù)又官。比較2個(gè)LTR輸入和1個(gè)LTR輸入的LAI值延刘,后者是15.62,前者是14.47六敬,這也意味這個(gè)值其實(shí)是受到輸入的候選LTR數(shù)目影響碘赖,但最終結(jié)果應(yīng)該穩(wěn)定在一個(gè)閾值內(nèi)。

我測試了多個(gè)物種在兩種軟件下找到的LTR外构,以及最終pass留下的LTR, 發(fā)現(xiàn)最終能夠pass普泡,數(shù)量都相對較少。同時(shí)限速步驟就是LTR_finder 和 LTRharvest审编。

物種 基因組大小 LTR_finder LTRharvest Pass LAI 測序技術(shù)
A. lyrata 206M 1456 1017 1044 20.39 Sanger
A. thaliana (TAIR10) 120 M 207 550 184 15.62 Sanger
B. rapa (2.5) 391M 1251 3182 520 0 PacBio + 二代20Kb 40Kb文庫
B. rapa (3.0) 353 M 3515 3635 1968 7.16 PacBio + BioNano + Hi-C
C.rubella 135 M 643 600 144 10.96 454 + Sanger
A. alpina 336 M 3840 3107 2556 11.01 PacBio + BioNano + Hi-C
某物種A 454 M 5384 2789 4294 17.89 PacBio

還有一個(gè)有趣的現(xiàn)象撼班,B. rapa 3.0版本盡管是最近用三代加Hi-C組裝的基因,但是以LAI的標(biāo)準(zhǔn)垒酬,只能算是Draft級別, 當(dāng)然也比2.5版本好出不少砰嘁。

當(dāng)然作者也對很多物種的多個(gè)版本組裝進(jìn)行了比較,下圖來自于 Assessing genome assembly quality using the LTR Assembly Index (LAI)

基因組評估

如果使用該軟件記得引用下面兩篇文獻(xiàn)

  • LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons
  • Assessing genome assembly quality using the LTR Assembly Index (LAI)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末勘究,一起剝皮案震驚了整個(gè)濱河市矮湘,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌口糕,老刑警劉巖缅阳,帶你破解...
    沈念sama閱讀 221,430評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異景描,居然都是意外死亡十办,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,406評論 3 398
  • 文/潘曉璐 我一進(jìn)店門超棺,熙熙樓的掌柜王于貴愁眉苦臉地迎上來橘洞,“玉大人,你說我怎么就攤上這事说搅≌ㄔ妫” “怎么了?”我有些...
    開封第一講書人閱讀 167,834評論 0 360
  • 文/不壞的土叔 我叫張陵弄唧,是天一觀的道長适肠。 經(jīng)常有香客問我,道長候引,這世上最難降的妖魔是什么侯养? 我笑而不...
    開封第一講書人閱讀 59,543評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮澄干,結(jié)果婚禮上逛揩,老公的妹妹穿的比我還像新娘柠傍。我一直安慰自己,他們只是感情好辩稽,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,547評論 6 397
  • 文/花漫 我一把揭開白布惧笛。 她就那樣靜靜地躺著,像睡著了一般逞泄。 火紅的嫁衣襯著肌膚如雪患整。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,196評論 1 308
  • 那天喷众,我揣著相機(jī)與錄音各谚,去河邊找鬼。 笑死到千,一個(gè)胖子當(dāng)著我的面吹牛昌渤,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播憔四,決...
    沈念sama閱讀 40,776評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼膀息,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了加矛?” 一聲冷哼從身側(cè)響起履婉,我...
    開封第一講書人閱讀 39,671評論 0 276
  • 序言:老撾萬榮一對情侶失蹤煤篙,失蹤者是張志新(化名)和其女友劉穎斟览,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體辑奈,經(jīng)...
    沈念sama閱讀 46,221評論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡苛茂,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,303評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鸠窗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片妓羊。...
    茶點(diǎn)故事閱讀 40,444評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖稍计,靈堂內(nèi)的尸體忽然破棺而出躁绸,到底是詐尸還是另有隱情,我是刑警寧澤臣嚣,帶...
    沈念sama閱讀 36,134評論 5 350
  • 正文 年R本政府宣布净刮,位于F島的核電站,受9級特大地震影響硅则,放射性物質(zhì)發(fā)生泄漏淹父。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,810評論 3 333
  • 文/蒙蒙 一怎虫、第九天 我趴在偏房一處隱蔽的房頂上張望暑认。 院中可真熱鬧困介,春花似錦、人聲如沸蘸际。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,285評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽捡鱼。三九已至八回,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間驾诈,已是汗流浹背缠诅。 一陣腳步聲響...
    開封第一講書人閱讀 33,399評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乍迄,地道東北人管引。 一個(gè)月前我還...
    沈念sama閱讀 48,837評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像闯两,于是被迫代替她去往敵國和親褥伴。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,455評論 2 359

推薦閱讀更多精彩內(nèi)容