1 摘要
二代測(cè)序應(yīng)用于臨床常常需要精確地檢測(cè)變異累颂,這篇文章描述了能精確檢測(cè) germline 和 somatic 微小突變的 UVC軟件。通過統(tǒng)一相反假設(shè),文章發(fā)現(xiàn)了改善變異檢測(cè)性能的兩個(gè)規(guī)律:(1)在高測(cè)序深度下,等位基因頻率與變異檢測(cè)錯(cuò)誤率的立方根成反比锐极;(2)使用貝葉斯因子校正比值比可以模擬各種測(cè)序誤差;UVC在GIAB germline真值集芳肌、192個(gè)混合突變集(不同tumor/normal測(cè)序深度和腫瘤純度)上的表現(xiàn)要優(yōu)于其他變異檢測(cè)軟件灵再。其中肋层,GIAB somatic 真值集來自于物理混合數(shù)據(jù),SEQC2 somatic參考基因集來自于乳腺癌細(xì)胞系 HCC1395翎迁。在16名結(jié)腸腺癌患者Qiagen 71基因panel的突變測(cè)試數(shù)據(jù)上栋猖,UVC軟件與多名獨(dú)立研究者人工審核的一致性達(dá)到了100%。UVC軟件在公開數(shù)據(jù)集上的表現(xiàn)優(yōu)于單一UMI突變檢測(cè)軟件汪榔。在之前公開發(fā)表的UMI測(cè)序數(shù)據(jù)上蒲拉,UVC軟件提升了檢測(cè)性能,這為DNA損傷修復(fù)突變研究提供了支持揍异。UVC軟件源碼地址見:https://github.com/genetronhealth/uvc
2 摘要
檢測(cè)變異是一個(gè)基礎(chǔ)問題全陨。準(zhǔn)確檢測(cè)germline變異對(duì)于評(píng)估許多疾病的易感性、研究生物學(xué)通路至關(guān)重要衷掷。盡管目前已經(jīng)開發(fā)了大量算法和軟件包來檢測(cè)germline變異,但仍有提升的空間柿菩。準(zhǔn)確的檢測(cè)somatic變異對(duì)癌癥的診斷颠焦、預(yù)后和治療檢測(cè)至關(guān)重要朴上。基于NGS的不同變異軟件通常被用于檢測(cè)不同腫瘤類型的等位基因變異。但是她按,變異軟件檢測(cè)的準(zhǔn)確性受到NGS實(shí)驗(yàn)中各種偏差和錯(cuò)誤的影響。在科學(xué)研究中比勉,我們關(guān)注的是患者整體得出的結(jié)論清钥,偶爾影響某些樣本的變異檢測(cè)軟件等技術(shù)問題可以通過樣本量來減輕。但是后众,在臨床環(huán)境中胀糜,我們關(guān)注的是每個(gè)特定患者的突變,變異檢測(cè)這個(gè)議題變得越發(fā)重要蒂誉。變異檢測(cè)的優(yōu)化方法包括過濾假陽(yáng)性變異教藻,但是這種方法無(wú)法拯救假陰性變異。而且右锨,手動(dòng)優(yōu)化變異檢測(cè)的方法括堤,通常費(fèi)事費(fèi)力。
此外绍移,一些優(yōu)化的NGS文庫(kù)制備技術(shù)悄窃,如分子標(biāo)簽UMIs和雙端UMIs測(cè)序,都已經(jīng)應(yīng)用于臨床cfDNA變異的檢測(cè)蹂窖。目前轧抗,UMI變異檢測(cè)軟件和其搭配的實(shí)驗(yàn)流程通常是固定搭配的,因此科研和臨床領(lǐng)域都需要一款表現(xiàn)優(yōu)異的通用UMI變異檢測(cè)軟件恼策,用于不同UMI數(shù)據(jù)的檢測(cè)鸦致。
目前大多數(shù)算法潮剪,如 HaplotypeCaller,Mutect1/Mutect2 和 Strelka1/Strelka2 通常使用等位基因頻率分析和單倍性檢測(cè)的方法來檢測(cè)變異分唾。所有算法都認(rèn)為如果變異等位基因頻率越低抗碰,越容易是一個(gè)假陽(yáng)性變異,但是沒有一種算法可以直接將等位基因頻率轉(zhuǎn)化為假陽(yáng)性概率绽乔。Haplotype 檢測(cè)使用 de Bruijn-like 圖進(jìn)行局部組裝reads來判定是否存在多個(gè)等位基因弧蝇。因此,haplotype 檢測(cè)可以糾正比對(duì)的錯(cuò)誤折砸,但是不能糾正其他類型的NGS偏倚看疗。因此,文章研究了等位基因頻率和假陽(yáng)性概率之間的關(guān)系睦授,并建立了一個(gè)框架來模擬各種NGS 偏倚两芳。文章最終推出了一種新的通用式的變異檢測(cè)軟件UVC。
UVC軟件是通用性和貝葉斯因子比值比的組合去枷。通用性是對(duì)一大類系統(tǒng)的性質(zhì)與系統(tǒng)的動(dòng)態(tài)細(xì)節(jié)無(wú)關(guān)的觀察怖辆。這里的通用性是指文章發(fā)現(xiàn),如果一個(gè)變異的覆蓋深度足夠高删顶,無(wú)論變異類型和錯(cuò)誤類型如何竖螃,等位基因頻率都與變異錯(cuò)誤率的立方根成反比。每個(gè)NGS偏倚的概率和強(qiáng)度分別由貝葉斯因子和比值比進(jìn)行計(jì)算逗余。如果概率高于預(yù)設(shè)的閾值(10^?4),偏倚不會(huì)減少任何reads的支持特咆。否則,會(huì)根據(jù)偏倚的強(qiáng)度減少reads的支持录粱。
UVC能夠在不使用任何訓(xùn)練數(shù)據(jù)集的情況下腻格,精準(zhǔn)的檢測(cè)somatic變異,包括SNVs和IndDels关摇。UVC產(chǎn)生的變異質(zhì)量值參數(shù)可以表示變異的可信度荒叶,其中變異質(zhì)量值指的是VCF文件的QUAL列內(nèi)容。因此输虱,使用者可以簡(jiǎn)單地設(shè)定不同的變異質(zhì)量值閾值進(jìn)行變異過濾些楣。UVC可以應(yīng)用于UMI標(biāo)簽和TN配對(duì)數(shù)據(jù)的檢測(cè),當(dāng)沒有UMI標(biāo)簽和和配對(duì)Normal數(shù)據(jù)時(shí)宪睹,UVC仍能準(zhǔn)確檢測(cè)變異愁茁。因此,UVC 盡可能的利用測(cè)序數(shù)據(jù)中的信息亭病,但對(duì)數(shù)據(jù)沒有特殊的要求鹅很。最后,UVC運(yùn)行速度很快罪帖,使其在臨床環(huán)境中應(yīng)用存在可能促煮。
3 方法
UVC檢測(cè)變異原理的見FIg 1邮屁。文章利用了將相反假設(shè)結(jié)合起來的基本思想。例如菠齿,在NGS檢測(cè)中佑吝,“測(cè)序深度低”和“測(cè)序深度高”構(gòu)成一對(duì)相反的假設(shè),因?yàn)椤暗汀焙汀案摺笔潜舜说姆戳x詞绳匀。通過將這一想法應(yīng)用于NGS 檢測(cè)芋忿,文章獲得了兩個(gè)重要的結(jié)論 “可以通過使用貝葉斯因子校正比值比來模擬偏倚,降低reads支持” 和 “可以通過使用通用性來擬合三次冪定律來計(jì)算變異質(zhì)量值”疾棵。
3.1 使用貝葉斯因子校正比值比來模擬偏倚降低reads支持
文章發(fā)現(xiàn)戈钢,組合使用第1層模型(貝葉斯因子)和第二層模型(比值比)可以模擬NGS中的各種偏倚(如位置偏倚和鏈偏倚)。與傳統(tǒng)的頻率統(tǒng)計(jì)類似是尔,文章的模型考慮了以下兩個(gè)假設(shè):
(1)原假設(shè):在變異候選中沒有偏倚
(2)備選假設(shè):在變異候選中存在一些偏倚
文章根據(jù)模型計(jì)算了一個(gè)原假設(shè)相對(duì)于備選假設(shè)的似然比殉了。這個(gè)似然比被稱為貝葉斯因子,類似于P值拟枚。如果貝葉斯因子超過了預(yù)設(shè)的閾值宣渗,則拒絕原假設(shè),但不拒絕變異本身梨州。然而,變異候選是假陽(yáng)性的概率P1與似然比程正相關(guān)關(guān)系田轧。同時(shí)暴匠,文章模型僅使用沒有任何偏倚特征的reads計(jì)算變異候選是假陽(yáng)性的概率P2。在默認(rèn)情況下傻粘,使用無(wú)信息杰弗里先驗(yàn)分布(參考:https://zhuanlan.zhihu.com/p/428896725?utm_id=0)應(yīng)用于所有等位基因頻率的計(jì)算每窖,用于估計(jì)候選變異為假陽(yáng)性的概率。然后弦悉,將P1和P2中的最小值作為變異候選為假陽(yáng)性的概率窒典。簡(jiǎn)而言之,文章的推理模型應(yīng)用了以下兩條經(jīng)驗(yàn)規(guī)則稽莉。
(1)如果測(cè)序深度較低瀑志,則我們估計(jì)變異候選具有一定偏差的可能性。如果可能性超過某個(gè)閾值污秆,那么我們相應(yīng)增加變異候選為假陽(yáng)性的概率劈猪;
(2)如果測(cè)序深度足夠高,那么我們假設(shè)存在一些偏差良拼,并計(jì)算偏差的效應(yīng)大小
將這兩個(gè)規(guī)則應(yīng)用到UVC檢測(cè)中战得,分別實(shí)現(xiàn)了低覆蓋深度下的高靈敏度和高覆蓋深度下對(duì)系統(tǒng)誤差的魯棒性。
3.2 分層聚類reads
與其他變異檢測(cè)軟件類似庸推,UVC 在不同水平分層聚類reads檢測(cè)突變常侦。首先浇冰,UVC將R1和R2的reads末端進(jìn)行合并,形成fragments聋亡。然后肘习,UVC通過將具有相同UMI的Fragments組成一個(gè)單鏈去重序列(SSCSs)。如果reads沒有進(jìn)行UMI標(biāo)記杀捻,則確保重復(fù)fragments只計(jì)數(shù)一次井厌。如果檢測(cè)到duplex UMIs,則將SSCSs合并為duplex consensus 序列致讥。
3.3 使用通用性來擬合三次冪定律來計(jì)算變異質(zhì)量值
文章發(fā)現(xiàn)等位基因頻率和NGS假陽(yáng)之間存在以下普遍的冪定律:在高測(cè)序深度時(shí)仅仆,給定候選突變的期望變異頻率 f 和 實(shí)際的變異頻率 g (max(f/g,g/f)) ^3 公式與假陽(yáng)性的概率近似成正比。這樣垢袱,NGS 冪定律可以將每個(gè)候選變異的等位基因頻率轉(zhuǎn)化為假陽(yáng)性概率的上限墓拜。
3.4 有配對(duì)Normal樣本時(shí)
UVC 可以利用配對(duì)Normal的測(cè)序數(shù)據(jù)選擇性地調(diào)整Tumor樣本的變異質(zhì)量值,變異質(zhì)量值的調(diào)整依照以下兩個(gè)條件:
(1) 當(dāng)腫瘤樣本和正常樣本等位基因頻率有統(tǒng)計(jì)學(xué)差異時(shí)進(jìn)行獎(jiǎng)勵(lì)
(2)否則请契,根據(jù)tumor/normal等位基因頻率比例的模型進(jìn)行懲罰
4 結(jié)果
我們使用F-score和PrAUC來評(píng)估UVC的性能咳榜。F-score表示精確率(precision)和召回率(recall)的調(diào)和平均值。PrAUC相當(dāng)于平均精確率爽锥,表示精確率與召回率的曲線下面積(AUC)涌韩。
4.1 使用全基因組測(cè)序和擴(kuò)增子測(cè)序數(shù)據(jù)驗(yàn)證冪定律的通用性
首先,我們用兩個(gè)數(shù)據(jù)集驗(yàn)證了NGS冪定律:一個(gè)是Illumina HiSeq在300X平均深度測(cè)序的HG001(或相當(dāng)于NA12878)細(xì)胞系的全基因組測(cè)序(WGS)數(shù)據(jù)集氯夷,另一個(gè)是Illumina NextSeq測(cè)序的由1% HG001和99% HG002(或相當(dāng)于NA24385)組成的細(xì)胞系混合物的擴(kuò)增子測(cè)序數(shù)據(jù)集臣樱。
事實(shí)上,如果等位基因頻率的范圍在0.1和100%之間腮考,那么變異的假陽(yáng)性概率與變異的等位基因頻率的三次冪成反比雇毫,并且這個(gè)范圍的范圍超過了Stumpf和Porter提到的兩個(gè)數(shù)量級(jí)。
4.2 WGS數(shù)據(jù)集上germline變異檢測(cè)評(píng)估結(jié)果
文章使用germline 變異檢測(cè)軟件HaplotypeCaller踩蔚,Strelka2棚放,F(xiàn)reeBayes 和 bcftools 與UVC軟件進(jìn)行了比較。檢測(cè)了2個(gè)平臺(tái)(NovoAlign和 MGISEQ)馅闽,3個(gè)GIAB的參考樣本(HG001,HG002,HG005),2種測(cè)序深度(30X和60X)飘蚯。結(jié)果顯示,UVC在germline SNVs上表現(xiàn)最好捞蛋,HaplotypeCaller在germline InDels上表現(xiàn)最好孝冒,UVC次之。文章核查了germline InDel的檢測(cè)拟杉,發(fā)現(xiàn)UVC有時(shí)不能確定InDel是純合子還是雜合子庄涡,而HaplotypeCaller可以,可能是因?yàn)镠aplotypeCaller采用了定位組裝策略搬设。
4.3 混合模擬WGS數(shù)據(jù)集上Tumor-only模式檢測(cè)評(píng)估結(jié)果
文章使用Tumor-only模式的變異檢測(cè)軟件 Mutect2 和 LoFreq 與UVC軟件進(jìn)行了比較穴店。檢測(cè)了2個(gè)平臺(tái)(NovoAlign和 MGISEQ)撕捍,4種測(cè)序深度(240X、120X泣洞、48X忧风、24X),8種腫瘤純度(1.0, 0.75, 0.5, 0.25, 0.125, 0.0625, 0.03125 and 0.015625)球凰,2 種模擬tumor和normal 細(xì)胞系(HG001/HG002作為tumor/normal狮腿,以及HG002/HG001作為tumor/normal)。結(jié)果顯示呕诉,在Tumor-only模式下檢測(cè)somatic突變SNVs 和 InDels 缘厢,UVC軟件總是表現(xiàn)最好。
4.4 混合模擬WGS數(shù)據(jù)集上Tumor-normal配對(duì)模式檢測(cè)評(píng)估結(jié)果
文章使用Tumor-normal 配對(duì)模式的變異檢測(cè)軟件 Mutect2,Strelka2, VarScan2,LoFreq,SomaticSniper 和 LoLoPicker與UVC軟件進(jìn)行了比較甩挫。檢測(cè)了2個(gè)平臺(tái)(NovoAlign和 MGISEQ)贴硫,4種測(cè)序深度(240X、120X伊者、48X英遭、24X),8種腫瘤純度(1.0, 0.75, 0.5, 0.25, 0.125, 0.0625, 0.03125 and 0.015625)亦渗,2 種模擬tumor和normal 細(xì)胞系(HG001/HG002作為tumor/normal挖诸,以及HG002/HG001作為tumor/normal),2個(gè)正常腫瘤污染率(TiN)分別為0.0和0.046875。除了3種受到隨機(jī)效應(yīng)影響的情況外法精,在Tumor-normal配對(duì)模式下檢測(cè)somatic突變SNVs 和 InDels 税灌,UVC軟件總是表現(xiàn)最好。結(jié)果如表1所示亿虽。
4.4 物理混合模擬WGS數(shù)據(jù)集上Tumor-normal配對(duì)模式檢測(cè)評(píng)估結(jié)果
4.5 乳腺癌細(xì)胞系HCC139 WES數(shù)據(jù)和擴(kuò)增子數(shù)據(jù)上Tumor-normal配對(duì)模式檢測(cè)評(píng)估結(jié)果
文章使用Tumor-normal 配對(duì)模式的變異檢測(cè)軟件 Mutect2,Strelka2, VarScan2,LoFreq,SomaticSniper, Lancet 和 Octopus 與UVC軟件進(jìn)行了比較。評(píng)估的數(shù)據(jù)集為Sequence-QualityControl Consortium (SEQC2) somatic 數(shù)據(jù)集苞也。在Tumor-normal配對(duì)模式下檢測(cè)somatic突變SNVs 和 InDels 洛勉,UVC軟件總是表現(xiàn)最好。結(jié)果如表2所示如迟。
4.6 結(jié)腸癌患者擴(kuò)增子數(shù)據(jù)上Tumor-normal配對(duì)模式檢測(cè)評(píng)估結(jié)果
文章使用UVC與appreci8軟件進(jìn)行了比較收毫。appreci8 使用了機(jī)器學(xué)習(xí)的方法對(duì)8種變異檢測(cè)軟件的結(jié)果進(jìn)行了匯總。評(píng)估的數(shù)據(jù)集為 Qiagen 71基因 結(jié)腸癌 panel的測(cè)序數(shù)據(jù)殷勘。該數(shù)據(jù)集的結(jié)果經(jīng)過了人工的審核此再。Sandmann 表明 appreci8 的表現(xiàn)優(yōu)于任一單一的變異檢測(cè)軟件。appreci8 軟件最終結(jié)果有 0 個(gè)假陽(yáng)性和 7 個(gè)假陰性玲销,UVC最終結(jié)果有 0 個(gè)假陽(yáng)性和 0 個(gè)假陰性输拇,與人工審核結(jié)果 100% 一致。如圖2所示:
4.7 含有UMI標(biāo)簽的擴(kuò)增子數(shù)據(jù)上Tumor-only模式檢測(cè)評(píng)估結(jié)果
為了評(píng)估UVC在UMI數(shù)據(jù)上的性能贤斜,文章使用標(biāo)準(zhǔn)品HD734和健康獻(xiàn)血者血液的物理混合物(以1:9的比例混合)數(shù)據(jù)集來模擬大多數(shù)0.1%突變頻率的等位基因變異策吠。最終結(jié)果顯示逛裤,在沒有任何數(shù)據(jù)集訓(xùn)練的情況下,UVC的表現(xiàn)要優(yōu)于Mageri猴抹。
4.8 使用Tumor-normal配對(duì)模式對(duì)含有UMI標(biāo)簽的擴(kuò)增子數(shù)據(jù)進(jìn)行重新分析带族,為DNA損傷修復(fù)提供額外信息
UVC是唯一可以同時(shí)識(shí)別Tumor和Normal樣本中UMIs的變異檢測(cè)軟件,因此文章將其用于紫外線處理的亞克隆突變數(shù)據(jù)集蟀给。在此測(cè)試數(shù)據(jù)集中蝙砌,SiMSen-seq是一種基于UMI的超靈敏擴(kuò)增子測(cè)序技術(shù),用于檢測(cè)DNA修復(fù)缺陷細(xì)胞中選定啟動(dòng)子區(qū)域的亞克隆突變跋理。將未經(jīng)過紫外線處理的4個(gè)樣品作為“對(duì)照”择克,將相應(yīng)的4個(gè)經(jīng)過紫外線處理的樣品作為“腫瘤”,UVC在RPL13A 基因上游116 bp TTCCG啟動(dòng)子熱點(diǎn)區(qū)域發(fā)現(xiàn)了先前報(bào)道的亞克隆突變薪介,在默認(rèn)設(shè)置下祠饺,所有4個(gè)樣本的等位基因分?jǐn)?shù)在0.05 ~ 0.5%之間。
5 討論
在這里汁政,文章證明了UVC道偷,是一個(gè)通用的變異檢測(cè)軟件,它能通過貝葉斯因子校正比值比估計(jì)評(píng)估NGS偏倚记劈,能夠以較高的準(zhǔn)確率檢測(cè)snv和InDels勺鸦。UVC能同時(shí)識(shí)別Tumor和Normal樣本中UMIs,能準(zhǔn)確檢測(cè)TN中的信號(hào)目木。在敏感性-特異性方面换途,UVC在各種NGS數(shù)據(jù)集上的表現(xiàn)明顯優(yōu)于其他變異檢測(cè)軟件。此外刽射,改進(jìn)的UVC軟件可以更好檢測(cè)DNA損傷修復(fù)军拟。
由于強(qiáng) reference偏倚,UVC軟件在 “4.2 WGS數(shù)據(jù)集上germline變異檢測(cè)評(píng)估結(jié)果” 部分誓禁,在確定長(zhǎng)germline InDEls 的雜合懈息、純合性上表現(xiàn)不是最優(yōu)。在未來摹恰,文章可能會(huì)加入InDel重比對(duì)辫继、局部組裝來改進(jìn)西能。此外俗慈,未來UVC可能會(huì)在功能中增加融合SV檢測(cè)功能姑宽。
6 參考文獻(xiàn)
[1] Xiaofei Z , Hu A C , Sizhen W , et al. Calling small variants using universality with Bayes-factor-adjusted odds ratios[J]. Briefings in Bioinformatics(1):1.