轉(zhuǎn)載自 LAI: 評估基因組質(zhì)量一個標準
基因組組裝完成之后般甲,就需要對最后的質(zhì)量進行評估快耿。我們希望得到的contig文件中彼水,每個contig都能足夠的長条霜,能夠有一個完整的基因結(jié)構(gòu)间雀,歸納一下就是3C原則:
- 連續(xù)性(Contiguity): 得到的contig要足夠的長
- 正確性(Correctness): 組裝的contig錯誤率要低
- 完整性(Completeness):盡可能包含整個原始序列
但是這三條原則其實是相互矛盾的悔详,連續(xù)性越高,就意味著要處理更多的模糊節(jié)點惹挟,會導(dǎo)致整體錯誤率上升茄螃,為了保證完全的正確,那么就會導(dǎo)致contig非常的零碎连锯。此外归苍,這三條原則也比較定性,我們需要更加定量的數(shù)值衡量运怖,目前比較常用的標準是N50和BUSCO/CEGMA拼弃。
最近有一篇文章"Assessing genome assembly quality using the LTR Assembly Index (LAI) "提出用長末端重復(fù)序列來評估基因組完整度,因為LTR比較難以組裝摇展,于是就用作評估結(jié)果的一個參數(shù)了吻氧。那問題來了,什么是LTR序列咏连,LTR是在原病毒(整合的反轉(zhuǎn)錄病毒)兩末的重復(fù)序列盯孙,結(jié)構(gòu)見下圖
上圖中TSD表示target site duplications,紅色三角表示LTR motif祟滴。A圖是一個完整的LTR結(jié)構(gòu)振惰,其中a,b,c是LTR_retriever
的分析目標。
LAI指數(shù)就是完整LTR反轉(zhuǎn)座子序列占總LTR序列長度的比值垄懂。
其實作為一個農(nóng)學(xué)出身骑晶,看到LAI,我腦海就想到了Leaf Area Index(葉面積指數(shù))
本文以擬南芥的基因組為例來測試一下這個軟件
一埠偿、軟件安裝
要想保證軟件能夠順利的安裝缚柳,需要先安裝如下這幾個軟件, 好消息是這些軟件都可以通過bioconda解決
makeblastdb, blastn, blastx
cd-hit-est
hmmserch
RepeatMasker
然后從GitHub上下載軟件
cd ~/opt/biosoft
git clone https://github.com/oushujun/LTR_retriever.git
進入LTR_retriever
文件下修改paths文件桶雀,提供每個軟件所在的文件路徑,下面是我的配置,你需要按照實際所在路徑來設(shè)置
BLAST+=/home/xuzhougeng/opt/biosoft/ncbi-blast-2.7.1+/bin/
RepeatMasker=/home/xuzhougeng/opt/biosoft/RepeatMasker/
HMMER=/home/xuzhougeng/opt/anaconda2/envs/maker/bin/
CDHIT=/home/xuzhougeng/opt/anaconda2/envs/assembly/bin/
此外碳锈,你還需要安裝GenomeTools或者LTR_FINDER,或者MGEScan_LTR才能提取出LTR序列,我這里下載的是LTR_FINDER
cd ~/opt/biosoft
git clone https://github.com/xzhub/LTR_Finder.git
cd LTR_Finder/source/
make
二、軟件使用
第一步讓我們用LTR_FINDER
找到基因組的LTR序列
~/opt/biosoft/LTR_Finder/source/ltr_finder -D 20000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Athaliana.fa >Athaliana.finder.scn
-
-D
表示5'和3'LTR之間的最大距離识窿; -
-d
表示5'和3'LTR之間的最小距離; -
-L
表示5'和3'LTR序列的最大長度脑融; -
-l
表示5'和3'LTR序列的最小長度喻频; -
-p
表示完全匹配配對的最小長度; -
-C
表示檢測中心粒(centriole)刪除高度重復(fù)區(qū)域肘迎; -
-M
表示最小的LTR相似度甥温。
如果不怎么該怎么設(shè)置就用默認值。
第二步運行LTR_retriever
根據(jù)LTR_FINDER
的輸出識別LTR-RT妓布,生成非冗余LTR-RT文庫姻蚓,可用于基因組注釋
~/opt/biosoft/LTR_retriever/LTR_retriever -threads 4 -genome Athaliana.fa -infinder Athaliana.finder.scn
這里的-infinder
表示輸入來自于LTR_FINDER
,它支持同時輸入LTRharvest的輸出(-inharvest
)和 MGEScan-LTR 的輸出(-inmgescan
). 嫌速度太慢匣沼,可以用-threads
增加線程數(shù)
這一步會調(diào)用RepeatMasker狰挡,而RepeatMasker要求序列ID長度不大于50個字符,所以請在第一步的時候請先對ID進行修改释涛。
第三步計算LAI加叁。如果前面找到LTR序列太少,低于5%唇撬,這一步程序就會報錯它匕,那么你就需要調(diào)整第一步參數(shù),可能是太嚴格了局荚。
/opt/biosoft/LTR_retriever/LAI -t 10 -genome Athaliana.fa -intact Athaliana.fa.pass.list -all Athaliana.fa.out
這里最后的結(jié)果文件為Athaliana.fa.out.LAI超凳, 第二行就是總體信息,其中RAW_LAI是12.88耀态, LAI是14.47
Chr From To Intact Total raw_LAI LAI
whole_genome 1 119667750 0.0079 0.0612 12.88 14.47
得到的LAI值按照如下評估標準進行分類:
Category | LAI | Examples |
---|---|---|
Draft | 0 ≤ LAI < 10 | Apple (v1.0), Cacao (v1.0) |
Reference | 10 ≤ LAI < 20 | Arabidopsis (TAIR10), Grape (12X) |
Gold | 20 ≤ LAI | Rice (MSUv7), Maize (B73 v4) |
和例子一樣轮傍,TAIR10是中等水平。
參考文獻:
- Ou S. and Jiang N. (2018). LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons. Plant Physiol. 176(2): 1410-1422.
- Ou S., Chen J. and Jiang N. (2018). Assessing genome assembly quality using the LTR Assembly Index (LAI). Nucleic Acids Res. gky730: https://doi.org/10.1093/nar/gky730