2018年,海普洛斯的科研人員發(fā)表了一篇用DNA數(shù)據(jù)直接預(yù)測(cè)融合基因的文章呻征,標(biāo)題事”GeneFuse: detection and visualization of target genefusions from DNA sequencing data”,文章發(fā)表在International Journal of Biological Sciences 上耘婚,作為一種DNA數(shù)據(jù)預(yù)測(cè)融合基因的軟件,還是不多的陆赋,目前的方法多是由RNA數(shù)據(jù)比對(duì)出沐祷,但是這種方法不利于商業(yè)化嚷闭,存在效率低,成本高的缺點(diǎn)±盗伲現(xiàn)在就讓我們一起學(xué)習(xí)下GeneFuse的分析原理胞锰。
GeneFuse:從DNA測(cè)序數(shù)據(jù)中判斷有無目標(biāo)融合基因。DELLY可以從BAM文件中直接進(jìn)行結(jié)構(gòu)變異的挑選兢榨。首先,該算法根據(jù)比對(duì)結(jié)果進(jìn)行配對(duì)端映射分析凌那,找到方向異常或插入大小異常的序列块攒。然后,識(shí)別出的配對(duì)端簇被解釋為包含斷點(diǎn)的基因組間隔琅绅,以單核苷酸分辨率繪制基因組重排圖千扶。最后澎羞,DELLY將合并支持的閱讀對(duì)妆绞,并將它們與參考基因組進(jìn)行注釋括饶。基于映射的基因融合檢測(cè)器有幾個(gè)優(yōu)點(diǎn)蹦掐。可以掃描盡可能多的找到融合基因位點(diǎn)鳖粟。缺點(diǎn)是牺弹,太依賴比對(duì)文件(BAM文件)张漂,如果比對(duì)文件沒有找到準(zhǔn)確的剪輯和嵌合體航攒,基于映射的融合檢測(cè)算法可能無法正常工作。錯(cuò)誤的比對(duì)經(jīng)常在包含融合基因的位置發(fā)生憔狞。另一方面瘾敢,準(zhǔn)確的剪輯和嵌合體也經(jīng)常發(fā)生在正常的不包含融合的閱讀框中簇抵。最后低濃度的腫瘤DNA樣本也會(huì)提高假陽(yáng)性發(fā)生的概率。
在臨床應(yīng)用中典蜕,與其發(fā)現(xiàn)大量臨床意義未知嘉裤、不確定度較大的基因融合屑宠,不如尋找已知對(duì)臨床治療有響應(yīng)的基因融合典奉。GeneFuse軟件能直接從FASTQ文件中探測(cè)到融合基因卫玖。GeneFuse軟件只對(duì)具有已知臨床意義的基因進(jìn)行研究陕靠。
GeneFuse的基本思想是尋找能很好地映射到兩個(gè)不同基因左右部分剪芥,但不能完全映射到整個(gè)參考基因組的任何位置的reads。在融合點(diǎn)匹配兩個(gè)融合基因的讀碼稱為支持讀碼益兄,每個(gè)融合的重復(fù)支持讀碼將被分組為單個(gè)唯一的支持讀碼净捅。Genefuse一共有四個(gè)步驟:
1、 Indexing
從參考基因組中提取基因序列需要一個(gè)包含目標(biāo)融合基因及其外顯子的CSV文件古今。GeneFuse提供了兩個(gè)csv文件,分別是37和38版本的你画。
Hash表用來儲(chǔ)存k-mer和基因組坐標(biāo)相關(guān)關(guān)系,hash表以后會(huì)被用來映射read與目標(biāo)基因适滓。
2凭迹、 Matching
在匹配步驟中脾猛,通過收集序列的所有長(zhǎng)度為k的子序列猛拴,計(jì)算每個(gè)read序列的集合。Read的相關(guān)基因通過上一部產(chǎn)生的索引號(hào)撼唾,將子序列映射相應(yīng)坐標(biāo)上倒谷。如果左右兩部分能映射到兩個(gè)不同的基因,這個(gè)read分割成兩個(gè)部分抖格。如果左右部分區(qū)域足夠長(zhǎng)(默認(rèn)長(zhǎng)度20)雹拄,這個(gè)讀長(zhǎng)就是一個(gè)合適的匹配候選坐標(biāo)。所有候選的匹配坐標(biāo)將被儲(chǔ)存在一個(gè)list上势篡,下一步會(huì)過濾禁悠。
序列長(zhǎng)度也會(huì)影響突變發(fā)現(xiàn)。為了獲得較長(zhǎng)的序列比规,GeneFuse嘗試合并雙端測(cè)序的每一對(duì)數(shù)據(jù)。對(duì)于read配對(duì)R1和R2灾常,rcR2被認(rèn)為是R2的反哺。合并算法盡可能找到R1和rcR2最大的重合慷荔,他們重合的子序列完全是相同的贷岸。如果重合的區(qū)域高于臨界值(30bp),就認(rèn)為他們是一個(gè)read,合并他們成一個(gè)read。通過合并read,繼續(xù)匹配過程七嫌,即使突變點(diǎn)位于read的邊緣。如何reads不能合并鞋拟,GeneFuse會(huì)對(duì)這些進(jìn)行處理航闺。盡管插入一個(gè)大的序列庫(kù)侮措,會(huì)禁止read對(duì)的重疊,但它不會(huì)對(duì)性能造成重大影響畏吓,因?yàn)镚eneFuse可以將一個(gè)read對(duì)單獨(dú)處理為兩個(gè)單端讀取。
Filtering
匹配的坐標(biāo)文件準(zhǔn)備好以后宏悦,枚舉支持融合的所有子序列,形成一個(gè)新的k-mer饼煞。全部的參考基因組將被掃描尋找K-mer組成,匹配后的基因坐標(biāo)將被儲(chǔ)存起來構(gòu)建一個(gè)新的全局索引G诗越。對(duì)于在融合匹配候選列表中的每個(gè)read,都會(huì)匹配到G褂乍,檢查是否可以匹配到參考基因組褥实。如果一個(gè)read可以映射到參考基因組损离,這個(gè)read可以從匹配的候選list里移除。
其它過濾--像低復(fù)雜度過濾器和匹配質(zhì)量過濾器-也將被用于消除錯(cuò)誤的部分。更進(jìn)一步講眷昆,如果一個(gè)read映射到一個(gè)基因的兩個(gè)部分伞访,它會(huì)被作為刪除項(xiàng)级解,如果刪除長(zhǎng)度很短,則會(huì)被移除。
GeneFuse的工作流程
靈敏度檢測(cè)
為了評(píng)估GeneFuse的性能拼苍,我們將其應(yīng)用于覆蓋1.6 Mb自定義面板的10個(gè)非小細(xì)胞肺癌細(xì)胞DNA樣本笑诅,其中6個(gè)有已知的重排(EML4:exon6-ALK exon20;EML4:exon13-ALK exon20)經(jīng)digital droplet PCR (ddPCR)證實(shí),GeneFuse均能檢測(cè)到。相反,在4個(gè)ALK野生型樣本中均未檢測(cè)到,因此在檢測(cè)ALK融合事件時(shí)靈敏度和特異性均為100%。我們用FACTERA v1.4.4和DELLY v0.7.6測(cè)試了相同的數(shù)據(jù)集。
在分析癌癥測(cè)序數(shù)據(jù)的臨床應(yīng)用中籍琳,從超深測(cè)序數(shù)據(jù)中檢測(cè)出低MAF的可給藥突變和融合至關(guān)重要∥卮铮現(xiàn)有的工具嗦嗡,如DELLY和FACTERA矮冬,對(duì)檢測(cè)結(jié)果不夠敏感胎署,缺乏可視化檢測(cè)融合的功能恢筝。GeneFuse是一種快速侄柔、輕量級(jí)的工具,用于從原始FASTQ數(shù)據(jù)中檢測(cè)目標(biāo)基因融合。該工具具有很高的靈敏度,可以通過生成基于html的讀取堆積可視化來可視化檢測(cè)到的融合陷谱。進(jìn)一步將基因融合檢測(cè)推向臨床應(yīng)用。