基因組質(zhì)量評估 | LAI

轉(zhuǎn)載自 LAI: 評估基因組質(zhì)量一個標準

基因組組裝完成之后般甲,就需要對最后的質(zhì)量進行評估快耿。我們希望得到的contig文件中彼水,每個contig都能足夠的長条霜,能夠有一個完整的基因結(jié)構(gòu)间雀,歸納一下就是3C原則:

  • 連續(xù)性(Contiguity): 得到的contig要足夠的長
  • 正確性(Correctness): 組裝的contig錯誤率要低
  • 完整性(Completeness):盡可能包含整個原始序列

但是這三條原則其實是相互矛盾的悔详,連續(xù)性越高,就意味著要處理更多的模糊節(jié)點惹挟,會導(dǎo)致整體錯誤率上升茄螃,為了保證完全的正確,那么就會導(dǎo)致contig非常的零碎连锯。此外归苍,這三條原則也比較定性,我們需要更加定量的數(shù)值衡量运怖,目前比較常用的標準是N50和BUSCO/CEGMA拼弃。

最近有一篇文章"Assessing genome assembly quality using the LTR Assembly Index (LAI) "提出用長末端重復(fù)序列來評估基因組完整度,因為LTR比較難以組裝摇展,于是就用作評估結(jié)果的一個參數(shù)了吻氧。那問題來了,什么是LTR序列咏连,LTR是在原病毒(整合的反轉(zhuǎn)錄病毒)兩末的重復(fù)序列盯孙,結(jié)構(gòu)見下圖

image

上圖中TSD表示target site duplications,紅色三角表示LTR motif祟滴。A圖是一個完整的LTR結(jié)構(gòu)振惰,其中a,b,c是LTR_retriever的分析目標。

LAI指數(shù)就是完整LTR反轉(zhuǎn)座子序列總LTR序列長度的比值垄懂。

其實作為一個農(nóng)學(xué)出身骑晶,看到LAI,我腦海就想到了Leaf Area Index(葉面積指數(shù))

本文以擬南芥的基因組為例來測試一下這個軟件

一埠偿、軟件安裝

要想保證軟件能夠順利的安裝缚柳,需要先安裝如下這幾個軟件, 好消息是這些軟件都可以通過bioconda解決

makeblastdb, blastn, blastx
cd-hit-est
hmmserch
RepeatMasker

然后從GitHub上下載軟件

cd ~/opt/biosoft
git clone https://github.com/oushujun/LTR_retriever.git

進入LTR_retriever文件下修改paths文件桶雀,提供每個軟件所在的文件路徑,下面是我的配置,你需要按照實際所在路徑來設(shè)置

BLAST+=/home/xuzhougeng/opt/biosoft/ncbi-blast-2.7.1+/bin/
RepeatMasker=/home/xuzhougeng/opt/biosoft/RepeatMasker/
HMMER=/home/xuzhougeng/opt/anaconda2/envs/maker/bin/
CDHIT=/home/xuzhougeng/opt/anaconda2/envs/assembly/bin/

此外碳锈,你還需要安裝GenomeTools或者LTR_FINDER,或者MGEScan_LTR才能提取出LTR序列,我這里下載的是LTR_FINDER

cd ~/opt/biosoft
git clone https://github.com/xzhub/LTR_Finder.git
cd LTR_Finder/source/
make

二、軟件使用

第一步讓我們用LTR_FINDER找到基因組的LTR序列

~/opt/biosoft/LTR_Finder/source/ltr_finder -D 20000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Athaliana.fa >Athaliana.finder.scn

  • -D表示5'和3'LTR之間的最大距離识窿;
  • -d表示5'和3'LTR之間的最小距離;
  • -L表示5'和3'LTR序列的最大長度脑融;
  • -l表示5'和3'LTR序列的最小長度喻频;
  • -p表示完全匹配配對的最小長度;
  • -C表示檢測中心粒(centriole)刪除高度重復(fù)區(qū)域肘迎;
  • -M表示最小的LTR相似度甥温。
    如果不怎么該怎么設(shè)置就用默認值。

第二步運行LTR_retriever根據(jù)LTR_FINDER的輸出識別LTR-RT妓布,生成非冗余LTR-RT文庫姻蚓,可用于基因組注釋

~/opt/biosoft/LTR_retriever/LTR_retriever -threads 4 -genome Athaliana.fa -infinder Athaliana.finder.scn

這里的-infinder表示輸入來自于LTR_FINDER,它支持同時輸入LTRharvest的輸出(-inharvest)和 MGEScan-LTR 的輸出(-inmgescan). 嫌速度太慢匣沼,可以用-threads增加線程數(shù)

這一步會調(diào)用RepeatMasker狰挡,而RepeatMasker要求序列ID長度不大于50個字符,所以請在第一步的時候請先對ID進行修改释涛。

第三步計算LAI加叁。如果前面找到LTR序列太少,低于5%唇撬,這一步程序就會報錯它匕,那么你就需要調(diào)整第一步參數(shù),可能是太嚴格了局荚。

/opt/biosoft/LTR_retriever/LAI -t 10 -genome Athaliana.fa -intact Athaliana.fa.pass.list -all Athaliana.fa.out

這里最后的結(jié)果文件為Athaliana.fa.out.LAI超凳, 第二行就是總體信息,其中RAW_LAI是12.88耀态, LAI是14.47

Chr From To Intact Total raw_LAI LAI
whole_genome 1 119667750 0.0079 0.0612 12.88 14.47

得到的LAI值按照如下評估標準進行分類:

Category LAI Examples
Draft 0 ≤ LAI < 10 Apple (v1.0), Cacao (v1.0)
Reference 10 ≤ LAI < 20 Arabidopsis (TAIR10), Grape (12X)
Gold 20 ≤ LAI Rice (MSUv7), Maize (B73 v4)

和例子一樣轮傍,TAIR10是中等水平。

參考文獻:

  • Ou S. and Jiang N. (2018). LTR_retriever: A Highly Accurate and Sensitive Program for Identification of Long Terminal Repeat Retrotransposons. Plant Physiol. 176(2): 1410-1422.
  • Ou S., Chen J. and Jiang N. (2018). Assessing genome assembly quality using the LTR Assembly Index (LAI). Nucleic Acids Res. gky730: https://doi.org/10.1093/nar/gky730
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末首装,一起剝皮案震驚了整個濱河市创夜,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌仙逻,老刑警劉巖驰吓,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異系奉,居然都是意外死亡檬贰,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門缺亮,熙熙樓的掌柜王于貴愁眉苦臉地迎上來翁涤,“玉大人,你說我怎么就攤上這事】瘢” “怎么了号阿?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長鸳粉。 經(jīng)常有香客問我扔涧,道長,這世上最難降的妖魔是什么届谈? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任枯夜,我火速辦了婚禮,結(jié)果婚禮上艰山,老公的妹妹穿的比我還像新娘卤档。我一直安慰自己,他們只是感情好程剥,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著汤踏,像睡著了一般织鲸。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上溪胶,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天搂擦,我揣著相機與錄音,去河邊找鬼哗脖。 笑死瀑踢,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的才避。 我是一名探鬼主播橱夭,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼桑逝!你這毒婦竟也來了棘劣?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤楞遏,失蹤者是張志新(化名)和其女友劉穎茬暇,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體寡喝,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡糙俗,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了预鬓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片巧骚。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出网缝,到底是詐尸還是另有隱情巨税,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布粉臊,位于F島的核電站草添,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏扼仲。R本人自食惡果不足惜远寸,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望屠凶。 院中可真熱鬧驰后,春花似錦、人聲如沸矗愧。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽唉韭。三九已至夜涕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間属愤,已是汗流浹背女器。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留住诸,地道東北人驾胆。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像贱呐,于是被迫代替她去往敵國和親丧诺。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345