三代數(shù)據(jù)中錯(cuò)誤主要是隨機(jī)錯(cuò)誤和Indel瓣赂,一方面可以通過(guò)CCS帽馋、Arrow等三代內(nèi)部自糾錯(cuò)睡扬,另一方面也可借助二代高通量短序列進(jìn)行進(jìn)一步糾錯(cuò)谦炬。目前已經(jīng)有幾款工具悦屏,本文主要介紹LoRDEC。
一键思、三代糾錯(cuò)軟件
二础爬、LoRDEC工作原理
(1)特點(diǎn)
用簡(jiǎn)潔的deBruijn圖代表二代數(shù)據(jù);比相似的軟件快6倍稚机,存儲(chǔ)少93%
(2)原理
首先幕帆,利用準(zhǔn)確度高的二代數(shù)據(jù)(NGS數(shù)據(jù))構(gòu)建簡(jiǎn)潔的de Bruijn Graph(DBG);然后赖条,依次對(duì)每條PacBio長(zhǎng)讀長(zhǎng)Reads進(jìn)行糾錯(cuò)失乾。該軟件使用C++語(yǔ)言編寫(xiě),運(yùn)行速度快纬乍,借助k-mer構(gòu)建DBG圖內(nèi)存空間較小碱茁。
(3)步驟
1. 過(guò)濾掉weak的kmer;
2. 使用solid kmers構(gòu)建DBG并通過(guò)GATB存儲(chǔ)仿贬;
3. 依次將每條三代長(zhǎng)讀長(zhǎng)序列遍歷DBG進(jìn)行糾錯(cuò)纽竣;
??? 3.1 序列內(nèi)部糾錯(cuò)
? ????? (1) 選取1對(duì)source、target solidkmer茧泪;
? ? ??? (2) 通過(guò)source kmer 蜓氨、target kmer和branch找到DBG里面的相應(yīng)的路徑;
? ? ??? (3) 以最小編輯距離的原則队伟,選取最優(yōu)路徑糾正錯(cuò)誤區(qū)域穴吹;
??????? (4) 考慮到第一步過(guò)濾得到的solid序列仍有假陽(yáng)性,故設(shè)定多對(duì)source嗜侮、target solid kmer港令。
??? 3.2 序列頭、尾糾錯(cuò)(Head/Tail)
? ??? ? (1) 只有source kmer 锈颗,缺少target kmer顷霹;
??????? (2)通過(guò)source kmer在DBG上查找所有路徑(直到branch太多或者是末節(jié)點(diǎn));
??????? (3)按照得分選取最優(yōu)路徑击吱;
??????? (4)當(dāng)內(nèi)部錯(cuò)誤找不到source淋淀、target solid kmer時(shí),按照Head錯(cuò)誤的方式進(jìn)行糾錯(cuò)覆醇。
三绅喉、LoRDEC的使用
(1)下載
可以從官網(wǎng)直接下載最新版本: https://gite.lirmm.fr/lordec/lordec-releases/wikis/home渠鸽,需要安裝一些配套的資源,下載柴罐、安裝均可參考其說(shuō)明徽缚。
但也有整合好第三方支持的編譯好的版本:http://gatb-tools.gforge.inria.fr/versions/bin/,我這里下載的是0.5.3版本革屠。
(2)使用
??? 1. 校正PacBio reads
???? lordec-correct -k 19 -s 3 -a 5 -2 NGS.fq -i? Iso.fa -T 4 -S statistics.txt -m 20G -o CorrectHQ.fa
? ? ? k-mer(-k):小基因組設(shè)置為19凿试; 大基因組設(shè)置為21;豐度閾值(-s)設(shè)置為2或3
??? 2. 統(tǒng)計(jì)
? ?? lordec-stat -T 2 -a 5 -i Iso.fa -2 NGS.fq -k 19 -s 3 -S lordec_stat.txt
??? 3. trim校正后的PacBio序列
????? lordec-trim -i CorrectHQ.fa -o lordec_trimmed_reads.fa
??? 4. trim和分割校正后的PacBio序列
????? lordec-trim -i CorrectHQ.fa -o lordec_trimmed_reads.fa
??? 5. 建立和保存二代數(shù)據(jù)的DBG
???? lordec-build-SR-graph -T 6 -m 20000 -a 5 -k 19 -s 3 -2 NGS.fq -g graph_file.txt
四似芝、參考資料
[1] https://www.cnblogs.com/leezx/p/6098362.html
[2] http://www.atgc-montpellier.fr/lordec/
[3] https://doi.org/10.1093/bioinformatics/btu538