69種軟件檢測(cè)WGS結(jié)構(gòu)變異SV的算法評(píng)估

前言

最近在研究低深度WGS數(shù)據(jù)檢測(cè)SV變異益涧,測(cè)試了很多個(gè)軟件软瞎,一直沒(méi)有一個(gè)準(zhǔn)確的結(jié)論闯割。周一很巧地發(fā)現(xiàn)了這篇文章,作者收集了市面上幾乎所有的SV檢測(cè)工具省店,用真實(shí)數(shù)據(jù)和模擬數(shù)據(jù)單獨(dú)做了測(cè)評(píng)嚣崭,也做了一些兩兩組合的測(cè)試,得出了比較有數(shù)據(jù)支持的建議懦傍,值得深度閱讀雹舀。

另一個(gè)特色是作者把69種的使用方法都匯總在了文章的附加文件,非常有指導(dǎo)意義粗俱。感興趣的同學(xué)可以去網(wǎng)頁(yè)下載说榆。


文章信息

文章:Comprehensive evaluation of structural variation detection algorithms for whole genome sequencing【全基因組數(shù)據(jù)的SV檢測(cè)算法的綜合評(píng)估】

期刊:Genome Biol 中科院生物類(lèi)一區(qū)

鏈接https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6547561/

時(shí)間:2019.07.03

作者:Shunichi Kosugi,Yukihide Momozawa, Xiaoxi Liu, Chikashi Terao,Michiaki Kubo, and Yoichiro Kamatani

機(jī)構(gòu):日本橫濱鶴見(jiàn)區(qū)綜合醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)分析實(shí)驗(yàn)室,醫(yī)學(xué)科學(xué)中心統(tǒng)計(jì)和轉(zhuǎn)化遺傳學(xué)實(shí)驗(yàn)室


摘要

SV和CNV極大地影響了基因組中編碼的基因的功能寸认,并導(dǎo)致多種人類(lèi)疾病签财。但目前沒(méi)有一種算法可以高精度高準(zhǔn)確度地檢測(cè)每種類(lèi)型的SV。

作者在這篇paper中利用模擬和實(shí)際的WGS數(shù)據(jù)評(píng)估了69種現(xiàn)有檢測(cè)SV的算法的性能偏塞。最后確定了combine不同算法取overlapping的方法荠卷,可以根據(jù)SV的特定類(lèi)型和大小范圍準(zhǔn)確地call SV,并準(zhǔn)確確定SV的斷點(diǎn)、大小和基因型烛愧。

每個(gè)類(lèi)別的SV有自己適合的算法,其中GRIDSS掂碱,Lumpy怜姿,SVseq2,SoftSV疼燥,Manta和Wham是del和dup類(lèi)型最好的檢測(cè)方法沧卢。

為了提高檢測(cè)準(zhǔn)確性,需要為SV的每種類(lèi)型和大小范圍選擇特異算法醉者,并且采用合適的算法組合重復(fù)檢測(cè)取overlapping但狭。

文中有69個(gè)文件的詳細(xì)使用說(shuō)明披诗,可以下載附加文件4做參考×⒋牛【有時(shí)間的話我會(huì)把算法精度高的幾個(gè)寫(xiě)詳細(xì)教程】


實(shí)驗(yàn)方法

1.實(shí)驗(yàn)設(shè)計(jì)思路

匯總69種檢測(cè)SV的算法呈队,用已知真陽(yáng)性SV的數(shù)據(jù)依次去跑這些算法,然后用不同組合的算法去重復(fù)跑數(shù)據(jù)唱歧,最后評(píng)估單個(gè)算法的精度以及組合的精度宪摧。

作者把結(jié)構(gòu)變異分為了DEL(短、中颅崩、長(zhǎng))几于,DUP(短、中沿后、長(zhǎng))沿彭,INS和INV。

針對(duì)模擬數(shù)據(jù)尖滚,作者設(shè)計(jì)了三個(gè)評(píng)估標(biāo)準(zhǔn):準(zhǔn)確性&檢出率喉刘;基因分型準(zhǔn)確度;斷點(diǎn)準(zhǔn)確度熔掺。

針對(duì)真實(shí)數(shù)據(jù)饱搏,作者設(shè)計(jì)了兩個(gè)評(píng)估標(biāo)準(zhǔn):準(zhǔn)確度&檢出率;耗時(shí)&內(nèi)存消耗

image.png

2.實(shí)驗(yàn)數(shù)據(jù)WGS數(shù)據(jù)

①模擬數(shù)據(jù)【模擬原始的fastq數(shù)據(jù)】
人工引進(jìn)SV置逻,使用軟件為VarSim推沸,引進(jìn)的8310個(gè) SVs 分別為3526個(gè) DELs,1656個(gè) DUPs券坞,2819個(gè) INSs 和309個(gè) INVs鬓催,首先將其引入模擬父系和母系單倍體基因組。以上SV 80% 來(lái)自實(shí)驗(yàn)中檢測(cè)到的 SVs恨锚,其余的來(lái)自 VarSim 模擬器自動(dòng)生成的人工新的 SVs宇驾。

引入的已知 SVs 來(lái)自 VarSim 軟件包中包含的 DGV 變異數(shù)據(jù),大小和染色體位置忠實(shí)地再現(xiàn)了相應(yīng)的 DGV 變異猴伶。 Sim-A 數(shù)據(jù)集由父母雙方的基因組產(chǎn)生课舍。 利用人工生物技術(shù)(ART)模擬器生成了不同長(zhǎng)度(100bp、125bp他挎、150bp)筝尾、不同插入(400bp、500bp办桨、600bp)和覆蓋度(10X筹淫、20X、30X呢撞、60X)的 Sim-A 數(shù)據(jù)集损姜。

利用 PBSIM 模型生成模擬 PacBio平臺(tái)數(shù)據(jù)(Sim-A-PacBio) 饰剥,采用基于模型的方式生成模擬的父系和母系基因組,分別為: 深度10摧阅、長(zhǎng)度平均75,000和長(zhǎng)度平均8000汰蓉。

其他模擬數(shù)據(jù)集(Sim-MEI、 Sim-NUMT 和 Sim-VEI)則由內(nèi)部腳本生成逸尖。 使用 ART 模擬器生成模擬reads古沥。 Sim-MEI、 Sim-NUMT 和 Sim-VEI de 讀長(zhǎng)娇跟、插入大小和覆蓋率與 Sim-A 數(shù)據(jù)相同岩齿。

這樣得到的模擬數(shù)據(jù)集就有5個(gè),Sim-A苞俘,Sim-A-PacBio盹沈,Sim-MEI、 Sim-NUMT 和 Sim-VEI吃谣。


②真實(shí)NA12878數(shù)據(jù)

NA12878的真實(shí)數(shù)據(jù)集乞封,包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù),是從 DDBJ ( http://www.DDBJ.nig.ac.jp )和 DNAnexus ( https://platform.DNAnexus.com/login )下載的岗憋。為了確定 SV 調(diào)用的孟德?tīng)柖慑e(cuò)誤率肃晚,也從 DDBJ 下載了 NA12891和 NA12892的 Illumina HiSeq WGS 數(shù)據(jù)集,這兩個(gè)數(shù)據(jù)集對(duì)應(yīng) NA12878的父母仔戈。 Hg00514的真實(shí)數(shù)據(jù)集关串,包括 Illumina HiSeq 和 PacBio RS 數(shù)據(jù),以及來(lái)自瓶中基因組(GIAB)協(xié)會(huì)的 HG002 PacBio RS 數(shù)據(jù)集[79]都是從 DDBJ 上下載的监徘。


3. 實(shí)際數(shù)據(jù)的參考SV數(shù)據(jù)集

從DGV數(shù)據(jù)庫(kù)下載晋修,包含1127個(gè) DELs (占總 DELs 的28%) ,1kb凰盔,3730個(gè) INSs (占總 INSs 的79%) 墓卦,1kb 或未定義長(zhǎng)度。

刪除短的 DELs 和 INSs户敬,因?yàn)榛趌ong reads數(shù)據(jù)包含了更多的 DELs (6550)和 INSs (13,131)的大小范圍落剪,可能比 DGV 數(shù)據(jù)更可靠。

去除了 DGV 和long reads數(shù)據(jù)中95% overlapping(1kb以上長(zhǎng)度的90%overlapping)的 DELs尿庐、 DUPs 和 INVs著榴,總共去除了450個(gè)variants。


4.用69種算法call模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)的SV

兩種測(cè)試數(shù)據(jù)的原始格式是fastq屁倔,從這一部開(kāi)始,所有分析步驟都一樣:

如果軟件是直接從fastq開(kāi)始分析就不做處理暮胧;

如果需要用到bam锐借,則先用GRCh37d5做比對(duì)问麸,使用軟件統(tǒng)一為bwa men。

有一些軟件需要的bam格式不同摇锋,只需要修改marker和header泣洞,保證各軟件的輸入數(shù)據(jù)是一樣的袄膏。


實(shí)驗(yàn)結(jié)果

精確度precision和檢出率recall的公式如下,TP是真陽(yáng)性的意思

image.png
1. 基于模擬和實(shí)際WGS數(shù)據(jù)的SV檢測(cè)算法評(píng)估

作者匯總了79個(gè)SV檢測(cè)算法哮笆,這些均不需要tumor-normal試驗(yàn)對(duì)。其中10個(gè)在作者服務(wù)器運(yùn)行不了汰扭,所以只記錄了69個(gè)軟件的結(jié)果稠肘。

因?yàn)閿?shù)據(jù)庫(kù)沒(méi)有已知的易位,且varsim無(wú)法模擬易位突變萝毛,所以沒(méi)有評(píng)估易位【這也是很大的bug了】

將true定義為與參考SV按比例顯著overlapping的SV项阴,對(duì)于 DELs、 DUPs 和 INSs笆包,overlapping的比例為50% [對(duì)于模擬數(shù)據(jù)环揽,為80% ] ,對(duì)于INSs庵佣,overlapping的為 ±200 bp歉胶。

設(shè)置不同過(guò)濾閾值記錄準(zhǔn)確率精確度的變化。結(jié)果如下:

(F-measure精確度和檢出率的combine statistics巴粪。越高表示該軟件檢出能力越強(qiáng)通今。)

(1) 檢測(cè)特異性

image.png

(2) Del和Dup檢測(cè)算法的大小范圍

DEL

image.png

DUP

image.png

2. 讀長(zhǎng)較長(zhǎng)的reads的算法評(píng)估

檢測(cè)讀長(zhǎng)較長(zhǎng)reads的三個(gè)軟件分別是PBHoney/Sniffles/pbsv。結(jié)論是验毡,即使讀長(zhǎng)較長(zhǎng)的覆蓋度為10X衡创,短讀長(zhǎng)為30X,但基于長(zhǎng)讀長(zhǎng)的算法在call短讀數(shù)據(jù)(DEL-SS 和 DEL-S)和 INSs 時(shí)表現(xiàn)出良好的性能晶通。

image.png

3. reads屬性對(duì)檢測(cè)精度的影響

reads深度越高璃氢,檢出率越高,但精度降低狮辽。作者選取了四個(gè)軟件一也,顯示了支持reads數(shù)對(duì)檢測(cè)結(jié)果的影響,如圖

image.png

reads長(zhǎng)度和reads片段插入大小對(duì)于精確度和檢出率并沒(méi)有影響


4. SV檢測(cè)斷點(diǎn)喉脖、大小和基因型的準(zhǔn)確性評(píng)估

BreakSeek, BreakSeq2 椰苟, CREST,DELLY树叽,GRIDSS舆蝴,PBHoney-NGM,pbsv, SvABA, SVseq2和 Wham 檢測(cè)DEL和dup的斷點(diǎn)、大小和基因型時(shí)表現(xiàn)最好洁仗。 CREST, Manta, FermiKit , Pamir , pbsv, SVseq2, SoftSearch , Wham在 calling INS時(shí)表現(xiàn)最好层皱,如圖:

image.png
image.png

其余類(lèi)型SV的圖和上圖類(lèi)似,在文章的附件1里赠潦。

得出結(jié)論是:

對(duì)于真實(shí)數(shù)據(jù):

數(shù)據(jù)庫(kù)只提供了DUP和DEL叫胖,絕大多數(shù)算法對(duì)于DEL有95%的精度。dup大多不匹配她奥,見(jiàn)附加文件的表S5瓮增。

對(duì)于模擬數(shù)據(jù):

檢測(cè)DEL時(shí),Manta, Lumpy, Pindel, and ERDS 表現(xiàn)出高精度90%和高檢出率哩俭。

檢測(cè)DUP時(shí)绷跑,PennCNV-Seq, CNVnator, BICseq2 and readDepth表現(xiàn)出高精度>89%) 和高檢出率 recall (>800 TPs)。

檢測(cè)INS時(shí), Manta 表現(xiàn)出97% 的準(zhǔn)確度携茂。 **

此外你踩,我們的測(cè)試證明,準(zhǔn)確率和檢出率高的算法讳苦,基因型準(zhǔn)確率也很高带膜。


5. 算法運(yùn)行時(shí)間和內(nèi)存消耗的評(píng)估

如圖,不同類(lèi)型的算法消耗CPU程度不同鸳谜,根據(jù)原理已分類(lèi)膝藕,坐標(biāo)軸橫軸的組RP/SR/RD等等,總體而言咐扭,重新組裝的算法顯示長(zhǎng)運(yùn)行時(shí)間和大內(nèi)存消耗芭挽。需要特定比對(duì)工具的算法比BWA比對(duì)的算法時(shí)間更長(zhǎng)。Pindel作為通用檢測(cè)方法蝗肪,運(yùn)行時(shí)間也很長(zhǎng)袜爪。RD和SR的算法也比其他算法消耗更大的內(nèi)存。

image.png

6. 成對(duì)組合兩種算法一起call SV然后取overlapping的方法評(píng)估

根據(jù)檢測(cè)原理薛闪,算法可分為6類(lèi):RP辛馆、 SR、 RD豁延、 AS昙篙、 LR 和 CB ,分別是Read pairs诱咏,Split read苔可,Read depth,Assembly袋狞,Long Read焚辅,Combined Method映屋。

給定算法call SVs 的準(zhǔn)確率檢出率差別很大,準(zhǔn)確性取決于 SVs 的類(lèi)型和大小范圍同蜻。很少有算法能夠高精度地call出所有 SV秧荆,特別是對(duì)于實(shí)際數(shù)據(jù)的 DUP、 INS 和 INV埃仪。

我們?yōu)槊糠N類(lèi)型和每個(gè)大小范圍的SV選擇了51個(gè)算法,每個(gè) SV 類(lèi)型和大小范圍有12-38個(gè)算法陕赃。這些算法在上述單獨(dú)測(cè)試中顯示出較高的精確度和檢出率卵蛉。

我們將其兩兩組合,評(píng)估檢測(cè)水平么库。組合后檢測(cè)INS類(lèi)型SV的水平如下傻丝,小框里斜杠分開(kāi)的值分別是檢出率和精確度,上下兩行分別是模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)诉儒,紅色標(biāo)出的是排名前二十的軟件組合

image.png

其余的DUP【大中小】/DEL【大中小】/INV在附件1的表S15-S22

文章也做了不同類(lèi)型的算法取overlapping時(shí)葡缰,檢出率和精確度的變化,如圖:

image.png

結(jié)論如下:一般來(lái)說(shuō)忱反,兩個(gè)不同方法類(lèi)別的算法組合比使用相同方法的兩個(gè)算法有更高的精確度泛释,但是檢出率較低;這提示結(jié)合兩種不同方法的算法可能是更好的策略温算;此外怜校,結(jié)果也表明,取兩個(gè)本身單獨(dú)精度和檢出率均很高的算法組合比不同算法檢出一般的組合效果更好注竿。



討論

  1. 試驗(yàn)缺陷: NA12878參考 SV 數(shù)據(jù)中存在重疊的冗余 SV茄茁,因?yàn)?DGV 數(shù)據(jù)來(lái)自多個(gè)研究來(lái)源。 也許有一些錯(cuò)誤檢測(cè)的 sv 可能包括在其中巩割。

  2. 雖然無(wú)法確定哪些是最好的裙顽,但是性能較差的列在附件1的表S20中。

  3. 在幾乎所有情況下宣谈,多種算法之間共同調(diào)用的 SVs 比單一算法調(diào)用的 SVs 表現(xiàn)出更高的精度和更低的召回率愈犹,但是精度提高和召回率降低的程度因算法的具體組合而異。

  4. 建議迭代合并overlapping

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末蒲祈,一起剝皮案震驚了整個(gè)濱河市甘萧,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌梆掸,老刑警劉巖扬卷,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異酸钦,居然都是意外死亡怪得,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)徒恋,“玉大人蚕断,你說(shuō)我怎么就攤上這事∪胝酰” “怎么了亿乳?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)径筏。 經(jīng)常有香客問(wèn)我葛假,道長(zhǎng),這世上最難降的妖魔是什么滋恬? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任聊训,我火速辦了婚禮,結(jié)果婚禮上恢氯,老公的妹妹穿的比我還像新娘带斑。我一直安慰自己,他們只是感情好勋拟,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布勋磕。 她就那樣靜靜地躺著,像睡著了一般指黎。 火紅的嫁衣襯著肌膚如雪朋凉。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天醋安,我揣著相機(jī)與錄音杂彭,去河邊找鬼。 笑死吓揪,一個(gè)胖子當(dāng)著我的面吹牛亲怠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播柠辞,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼团秽,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了叭首?” 一聲冷哼從身側(cè)響起习勤,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎焙格,沒(méi)想到半個(gè)月后图毕,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡眷唉,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年予颤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了囤官。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蛤虐,死狀恐怖党饮,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情驳庭,我是刑警寧澤刑顺,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站饲常,受9級(jí)特大地震影響捏检,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜不皆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望熊楼。 院中可真熱鬧霹娄,春花似錦、人聲如沸鲫骗。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)执泰。三九已至枕磁,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間术吝,已是汗流浹背计济。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留排苍,地道東北人沦寂。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像淘衙,于是被迫代替她去往敵國(guó)和親传藏。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容