前言
最近在研究低深度WGS數(shù)據(jù)檢測(cè)SV變異益涧,測(cè)試了很多個(gè)軟件软瞎,一直沒(méi)有一個(gè)準(zhǔn)確的結(jié)論闯割。周一很巧地發(fā)現(xiàn)了這篇文章,作者收集了市面上幾乎所有的SV檢測(cè)工具省店,用真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)單獨(dú)做了測(cè)評(píng)嚣崭,也做了一些兩兩組合的測(cè)試,得出了比較有數(shù)據(jù)支持的建議懦傍,值得深度閱讀雹舀。
另一個(gè)特色是作者把69種的使用方法都匯總在了文章的附加文件,非常有指導(dǎo)意義粗俱。感興趣的同學(xué)可以去網(wǎng)頁(yè)下載说榆。
文章信息
文章:Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing【全基因組數(shù)據(jù)的SV檢測(cè)算法的綜合評(píng)估】
期刊:Genome Biol 中科院生物類(lèi)一區(qū)
鏈接:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6547561/
時(shí)間:2019.07.03
作者:Shunichi Kosugi,Yukihide Momozawa, Xiaoxi Liu, Chikashi Terao,Michiaki Kubo, and Yoichiro Kamatani
機(jī)構(gòu):日本橫濱鶴見(jiàn)區(qū)綜合醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)分析實(shí)驗(yàn)室,醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)和轉(zhuǎn)化遺傳學(xué)實(shí)驗(yàn)室
摘要
SV和CNV極大地影響了基因組中編碼的基因的功能寸认,并導(dǎo)致多種人類(lèi)疾病签财。但目前沒(méi)有一種算法可以高精度高準(zhǔn)確度地檢測(cè)每種類(lèi)型的SV。
作者在這篇paper中利用模擬和實(shí)際的WGS數(shù)據(jù)評(píng)估了69種現(xiàn)有檢測(cè)SV的算法的性能偏塞。最后確定了combine不同算法取overlapping的方法荠卷,可以根據(jù)SV的特定類(lèi)型和大小范圍準(zhǔn)確地call SV,并準(zhǔn)確確定SV的斷點(diǎn)、大小和基因型烛愧。
每個(gè)類(lèi)別的SV有自己適合的算法,其中GRIDSS掂碱,Lumpy怜姿,SVseq2,SoftSV疼燥,Manta和Wham是del和dup類(lèi)型最好的檢測(cè)方法沧卢。
為了提高檢測(cè)準(zhǔn)確性,需要為SV的每種類(lèi)型和大小范圍選擇特異算法醉者,并且采用合適的算法組合重復(fù)檢測(cè)取overlapping但狭。
文中有69個(gè)文件的詳細(xì)使用說(shuō)明披诗,可以下載附加文件4做參考×⒋牛【有時(shí)間的話我會(huì)把算法精度高的幾個(gè)寫(xiě)詳細(xì)教程】
實(shí)驗(yàn)方法
1.實(shí)驗(yàn)設(shè)計(jì)思路
匯總69種檢測(cè)SV的算法呈队,用已知真陽(yáng)性SV的數(shù)據(jù)依次去跑這些算法,然后用不同組合的算法去重復(fù)跑數(shù)據(jù)唱歧,最后評(píng)估單個(gè)算法的精度以及組合的精度宪摧。
作者把結(jié)構(gòu)變異分為了DEL(短、中颅崩、長(zhǎng))几于,DUP(短、中沿后、長(zhǎng))沿彭,INS和INV。
針對(duì)模擬數(shù)據(jù)尖滚,作者設(shè)計(jì)了三個(gè)評(píng)估標(biāo)準(zhǔn):準(zhǔn)確性&檢出率喉刘;基因分型準(zhǔn)確度;斷點(diǎn)準(zhǔn)確度熔掺。
針對(duì)真實(shí)數(shù)據(jù)饱搏,作者設(shè)計(jì)了兩個(gè)評(píng)估標(biāo)準(zhǔn):準(zhǔn)確度&檢出率;耗時(shí)&內(nèi)存消耗
2.實(shí)驗(yàn)數(shù)據(jù)WGS數(shù)據(jù)
①模擬數(shù)據(jù)【模擬原始的fastq數(shù)據(jù)】
人工引進(jìn)SV置逻,使用軟件為VarSim推沸,引進(jìn)的8310個(gè) SVs 分別為3526個(gè) DELs,1656個(gè) DUPs券坞,2819個(gè) INSs 和309個(gè) INVs鬓催,首先將其引入模擬父系和母系單倍體基因組。以上SV 80% 來(lái)自實(shí)驗(yàn)中檢測(cè)到的 SVs恨锚,其余的來(lái)自 VarSim 模擬器自動(dòng)生成的人工新的 SVs宇驾。
引入的已知 SVs 來(lái)自 VarSim 軟件包中包含的 DGV 變異數(shù)據(jù),大小和染色體位置忠實(shí)地再現(xiàn)了相應(yīng)的 DGV 變異猴伶。 Sim-A 數(shù)據(jù)集由父母雙方的基因組產(chǎn)生课舍。 利用人工生物技術(shù)(ART)模擬器生成了不同長(zhǎng)度(100bp、125bp他挎、150bp)筝尾、不同插入(400bp、500bp办桨、600bp)和覆蓋度(10X筹淫、20X、30X呢撞、60X)的 Sim-A 數(shù)據(jù)集损姜。
利用 PBSIM 模型生成模擬 PacBio平臺(tái)數(shù)據(jù)(Sim-A-PacBio) 饰剥,采用基于模型的方式生成模擬的父系和母系基因組,分別為: 深度10摧阅、長(zhǎng)度平均75,000和長(zhǎng)度平均8000汰蓉。
其他模擬數(shù)據(jù)集(Sim-MEI、 Sim-NUMT 和 Sim-VEI)則由內(nèi)部腳本生成逸尖。 使用 ART 模擬器生成模擬reads古沥。 Sim-MEI、 Sim-NUMT 和 Sim-VEI de 讀長(zhǎng)娇跟、插入大小和覆蓋率與 Sim-A 數(shù)據(jù)相同岩齿。
這樣得到的模擬數(shù)據(jù)集就有5個(gè),Sim-A苞俘,Sim-A-PacBio盹沈,Sim-MEI、 Sim-NUMT 和 Sim-VEI吃谣。
②真實(shí)NA12878數(shù)據(jù)
NA12878的真實(shí)數(shù)據(jù)集乞封,包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù),是從 DDBJ ( http://www.DDBJ.nig.ac.jp )和 DNAnexus ( https://platform.DNAnexus.com/login )下載的岗憋。為了確定 SV 調(diào)用的孟德?tīng)柖慑e(cuò)誤率肃晚,也從 DDBJ 下載了 NA12891和 NA12892的 Illumina HiSeq WGS 數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集對(duì)應(yīng) NA12878的父母仔戈。 Hg00514的真實(shí)數(shù)據(jù)集关串,包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù),以及來(lái)自瓶中基因組(GIAB)協(xié)會(huì)的 HG002 PacBio RS 數(shù)據(jù)集[79]都是從 DDBJ 上下載的监徘。
3. 實(shí)際數(shù)據(jù)的參考SV數(shù)據(jù)集
從DGV數(shù)據(jù)庫(kù)下載晋修,包含1127個(gè) DELs (占總 DELs 的28%) ,1kb凰盔,3730個(gè) INSs (占總 INSs 的79%) 墓卦,1kb 或未定義長(zhǎng)度。
刪除短的 DELs 和 INSs户敬,因?yàn)榛趌ong reads數(shù)據(jù)包含了更多的 DELs (6550)和 INSs (13,131)的大小范圍落剪,可能比 DGV 數(shù)據(jù)更可靠。
去除了 DGV 和long reads數(shù)據(jù)中95% overlapping(1kb以上長(zhǎng)度的90%overlapping)的 DELs尿庐、 DUPs 和 INVs著榴,總共去除了450個(gè)variants。
4.用69種算法call模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的SV
兩種測(cè)試數(shù)據(jù)的原始格式是fastq屁倔,從這一部開(kāi)始,所有分析步驟都一樣:
如果軟件是直接從fastq開(kāi)始分析就不做處理暮胧;
如果需要用到bam锐借,則先用GRCh37d5做比對(duì)问麸,使用軟件統(tǒng)一為bwa men。
有一些軟件需要的bam格式不同摇锋,只需要修改marker和header泣洞,保證各軟件的輸入數(shù)據(jù)是一樣的袄膏。
實(shí)驗(yàn)結(jié)果
精確度precision和檢出率recall的公式如下,TP是真陽(yáng)性的意思
1. 基于模擬和實(shí)際WGS數(shù)據(jù)的SV檢測(cè)算法評(píng)估
作者匯總了79個(gè)SV檢測(cè)算法哮笆,這些均不需要tumor-normal試驗(yàn)對(duì)。其中10個(gè)在作者服務(wù)器運(yùn)行不了汰扭,所以只記錄了69個(gè)軟件的結(jié)果稠肘。
因?yàn)閿?shù)據(jù)庫(kù)沒(méi)有已知的易位,且varsim無(wú)法模擬易位突變萝毛,所以沒(méi)有評(píng)估易位【這也是很大的bug了】
將true定義為與參考SV按比例顯著overlapping的SV项阴,對(duì)于 DELs、 DUPs 和 INSs笆包,overlapping的比例為50% [對(duì)于模擬數(shù)據(jù)环揽,為80% ] ,對(duì)于INSs庵佣,overlapping的為 ±200 bp歉胶。
設(shè)置不同過(guò)濾閾值記錄準(zhǔn)確率精確度的變化。結(jié)果如下:
(F-measure精確度和檢出率的combine statistics巴粪。越高表示該軟件檢出能力越強(qiáng)通今。)
(1) 檢測(cè)特異性
(2) Del和Dup檢測(cè)算法的大小范圍
DEL
DUP
2. 讀長(zhǎng)較長(zhǎng)的reads的算法評(píng)估
檢測(cè)讀長(zhǎng)較長(zhǎng)reads的三個(gè)軟件分別是PBHoney/Sniffles/pbsv。結(jié)論是验毡,即使讀長(zhǎng)較長(zhǎng)的覆蓋度為10X衡创,短讀長(zhǎng)為30X,但基于長(zhǎng)讀長(zhǎng)的算法在call短讀數(shù)據(jù)(DEL-SS 和 DEL-S)和 INSs 時(shí)表現(xiàn)出良好的性能晶通。
3. reads屬性對(duì)檢測(cè)精度的影響
reads深度越高璃氢,檢出率越高,但精度降低狮辽。作者選取了四個(gè)軟件一也,顯示了支持reads數(shù)對(duì)檢測(cè)結(jié)果的影響,如圖
reads長(zhǎng)度和reads片段插入大小對(duì)于精確度和檢出率并沒(méi)有影響
4. SV檢測(cè)斷點(diǎn)喉脖、大小和基因型的準(zhǔn)確性評(píng)估
BreakSeek, BreakSeq2 椰苟, CREST,DELLY树叽,GRIDSS舆蝴,PBHoney-NGM,pbsv, SvABA, SVseq2和 Wham 檢測(cè)DEL和dup的斷點(diǎn)、大小和基因型時(shí)表現(xiàn)最好洁仗。 CREST, Manta, FermiKit , Pamir , pbsv, SVseq2, SoftSearch , Wham在 calling INS時(shí)表現(xiàn)最好层皱,如圖:
其余類(lèi)型SV的圖和上圖類(lèi)似,在文章的附件1里赠潦。
得出結(jié)論是:
對(duì)于真實(shí)數(shù)據(jù):
數(shù)據(jù)庫(kù)只提供了DUP和DEL叫胖,絕大多數(shù)算法對(duì)于DEL有95%的精度。dup大多不匹配她奥,見(jiàn)附加文件的表S5瓮增。
對(duì)于模擬數(shù)據(jù):
檢測(cè)DEL時(shí),Manta, Lumpy, Pindel, and ERDS 表現(xiàn)出高精度90%和高檢出率哩俭。
檢測(cè)DUP時(shí)绷跑,PennCNV-Seq, CNVnator, BICseq2 and readDepth表現(xiàn)出高精度>89%) 和高檢出率 recall (>800 TPs)。
檢測(cè)INS時(shí), Manta 表現(xiàn)出97% 的準(zhǔn)確度携茂。 **
此外你踩,我們的測(cè)試證明,準(zhǔn)確率和檢出率高的算法讳苦,基因型準(zhǔn)確率也很高带膜。
5. 算法運(yùn)行時(shí)間和內(nèi)存消耗的評(píng)估
如圖,不同類(lèi)型的算法消耗CPU程度不同鸳谜,根據(jù)原理已分類(lèi)膝藕,坐標(biāo)軸橫軸的組RP/SR/RD等等,總體而言咐扭,重新組裝的算法顯示長(zhǎng)運(yùn)行時(shí)間和大內(nèi)存消耗芭挽。需要特定比對(duì)工具的算法比BWA比對(duì)的算法時(shí)間更長(zhǎng)。Pindel作為通用檢測(cè)方法蝗肪,運(yùn)行時(shí)間也很長(zhǎng)袜爪。RD和SR的算法也比其他算法消耗更大的內(nèi)存。
6. 成對(duì)組合兩種算法一起call SV然后取overlapping的方法評(píng)估
根據(jù)檢測(cè)原理薛闪,算法可分為6類(lèi):RP辛馆、 SR、 RD豁延、 AS昙篙、 LR 和 CB ,分別是Read pairs诱咏,Split read苔可,Read depth,Assembly袋狞,Long Read焚辅,Combined Method映屋。
給定算法call SVs 的準(zhǔn)確率檢出率差別很大,準(zhǔn)確性取決于 SVs 的類(lèi)型和大小范圍同蜻。很少有算法能夠高精度地call出所有 SV秧荆,特別是對(duì)于實(shí)際數(shù)據(jù)的 DUP、 INS 和 INV埃仪。
我們?yōu)槊糠N類(lèi)型和每個(gè)大小范圍的SV選擇了51個(gè)算法,每個(gè) SV 類(lèi)型和大小范圍有12-38個(gè)算法陕赃。這些算法在上述單獨(dú)測(cè)試中顯示出較高的精確度和檢出率卵蛉。
我們將其兩兩組合,評(píng)估檢測(cè)水平么库。組合后檢測(cè)INS類(lèi)型SV的水平如下傻丝,小框里斜杠分開(kāi)的值分別是檢出率和精確度,上下兩行分別是模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)诉儒,紅色標(biāo)出的是排名前二十的軟件組合
其余的DUP【大中小】/DEL【大中小】/INV在附件1的表S15-S22
文章也做了不同類(lèi)型的算法取overlapping時(shí)葡缰,檢出率和精確度的變化,如圖:
結(jié)論如下:一般來(lái)說(shuō)忱反,兩個(gè)不同方法類(lèi)別的算法組合比使用相同方法的兩個(gè)算法有更高的精確度泛释,但是檢出率較低;這提示結(jié)合兩種不同方法的算法可能是更好的策略温算;此外怜校,結(jié)果也表明,取兩個(gè)本身單獨(dú)精度和檢出率均很高的算法組合比不同算法檢出一般的組合效果更好注竿。
討論
試驗(yàn)缺陷: NA12878參考 SV 數(shù)據(jù)中存在重疊的冗余 SV茄茁,因?yàn)?DGV 數(shù)據(jù)來(lái)自多個(gè)研究來(lái)源。 也許有一些錯(cuò)誤檢測(cè)的 sv 可能包括在其中巩割。
雖然無(wú)法確定哪些是最好的裙顽,但是性能較差的列在附件1的表S20中。
在幾乎所有情況下宣谈,多種算法之間共同調(diào)用的 SVs 比單一算法調(diào)用的 SVs 表現(xiàn)出更高的精度和更低的召回率愈犹,但是精度提高和召回率降低的程度因算法的具體組合而異。
建議迭代合并overlapping