Rapid, highly accurate and cost-effective open-source simultaneous complete HLA typing and phasing of class I and II alleles using nanopore sequencing
doi:https://doi.org/10.1111/tan.13926
閱讀鏈接:https://onlinelibrary.wiley.com/doi/10.1111/tan.13926
摘要
由于該區(qū)域的復雜性痛悯,HLA 區(qū)域內(nèi)基因的準確快速基因分型存在許多困難忠荞。 在這里庸汗,我們展示了我們用于 HLA 基因分型的基于納米孔的長讀長聚合酶鏈反應 (PCR) 解決方案的概念驗證結果吮廉。 對于 15 個基于 HLA 人類學的樣本和 13 個 NHS 血液和移植衍生樣本潮尝,40ng 基因組 DNA 對 I 類和 II 類 HLA 等位基因進行了long-range PCR。 合并的 PCR 產(chǎn)物在 Oxford Nanopore MinIoON R9.4.1 流通池上進行測序糠爬。 測序讀數(shù)的HLA基因型是用HLA-LA分配的叼耙。 將調(diào)用的基因型與來自短讀下一代測序、Sanger 序列和/或單點多態(tài)性 (SSP) 分型的組合的參考進行比較肾胯。 對于一致性竖席,第一、第二敬肚、第三和第四字段的準確度分別為 100%毕荐、98.4%、97.5% 和 95.1%艳馒,到可用的四字段準確度憎亚,否則 28 個樣本中的三個字段用于 I 類調(diào)用和 17個 II 類調(diào)用的樣本员寇。 成功展示了母本和父本等位基因的Phasing,以及基于Phasing的純合子運行鑒定第美。 檢測運行時間為 8 小時蝶锋,HLA 分型數(shù)據(jù)重建時間為 15 分鐘。 化驗成本為 55 英鎊(80 美元)/樣品什往。 我們開發(fā)了一種快速且具有成本效益的long-range PCR 和基于納米孔測序的測定法扳缕,可以對HLA區(qū)域內(nèi)的基因進行基因分型,精度高達四個字段别威,識別 HLA 中的純合子運行躯舔,重建母本和父本單倍型,并且可以縮放從多樣本運行到單個樣本省古。
... 介紹方法等請看原文
結果
數(shù)據(jù)傳輸
對于NHSBT樣本分型粥庄,總共產(chǎn)生了2.7 GBase的測序數(shù)據(jù),中位數(shù)讀取長度為3377個堿基豺妓,讀取長度N50為3606個堿基惜互,讀取質(zhì)量的中位數(shù)為9.4。對于人類學panel樣本分型琳拭,總共產(chǎn)生了3.8 GBases的測序數(shù)據(jù)训堆,中位數(shù)讀取長度為3170個堿基,讀取長度N50為3513個堿基臀栈,讀取質(zhì)量的中位數(shù)為9.9蔫慧。兩個面板的運行時間都標準化為8?小時。對于單個FLongle測序樣品权薯,產(chǎn)生了43266個讀數(shù),中位數(shù)讀出長度為1080個堿基睡扬,總序列輸出為110 Megabases堿基盟蚣。
工作流程
整個工作流的時間安排如圖S1所示。多重遠程聚合酶鏈式反應耗時150?分鐘卖怜,隨后修改的LSK-109方法耗時30?分鐘屎开,隨后在納米孔系統(tǒng)上耗時120?分鐘,以及組裝人類白細胞抗原調(diào)用的30?分鐘马靠。項目上的流量單元的產(chǎn)量決定了運行時間奄抽。通常,F(xiàn)Longle上的單個樣本運行2?小時(40?mb產(chǎn)量)甩鳄,而minion上12個多路樣品運行50?分鐘(396?mb產(chǎn)量)逞度,就可以獲得500倍覆蓋的足夠數(shù)據(jù)(圖S2)。因此妙啃,我們將運行時間設置為2?小時档泽。
I 類和 II 類 HLA 識別準確度
在初步分析中俊戳,發(fā)現(xiàn)每個擴增子至少需要500倍的覆蓋率才能準確地識別HLA,因此在覆蓋率低的樣本中馆匿,這些都需要重新運行抑胎。對于第一組NHSBT樣本,11個樣本進行了 I 類等位基因分析(表3)渐北。所有樣本對于第一個領域都是正確的阿逃,NHSBT樣本1的參考輸血服務 (BTS) HLA-C等位基因是7,對于MiSeq呼叫是C07:02:01:03 (盡管在BTS分型中給出了C07:123作為第二選項)赃蛛,對于納米孔盆昙,它是C*07:123。
表3 NHSBT 實驗中樣本的結果列表焊虏。注意:顏色代表匹配的準確性——綠色淡喜,所有字段匹配;黃色诵闭,第二字段不匹配炼团;紅色,第一個字段不匹配疏尿。RunID瘟芝,內(nèi)部運行ID;備用 ID褥琐,NHSBT 樣本 ID锌俱;技術參考:NHSBT 的 MinIon 測序;MinIon敌呈,基于納米孔的 HLA 分型贸宏;BTS、NHSBT 血清分型衍生的等位基因磕洪。 縮寫:NHSBT:NHS血液和移植吭练。
對于第二組 NHSBT 樣本,選擇了一組更具挑戰(zhàn)性的兩個樣本析显。I 類和 II 類調(diào)用的一致性為 100%鲫咽,錯誤率為 0%。
對于人類學panel谷异,對 15 個樣本進行了 I 類和 II 類等位基因分析(表4)分尸。除樣品 IHW09376 外,所有樣品均完全匹配歹嘹。對于唯一出現(xiàn)的字段2錯誤箩绍,參考調(diào)用是 HLA-B*27:05:02,納米孔調(diào)用是 HLA-B*27:110荞下。這表示單個核苷酸變化 (G > A)伶选,并且可能表示任一方法的測序錯誤史飞。對于 II 類等位基因,所有樣本均匹配仰税,但 IHW09021 除外构资,其中 HLA-DRB1 的參考是DRB1*03:02:01,MinION 調(diào)用是 03:03陨簇。對原始數(shù)據(jù)的檢查表明吐绵,這是由納米孔測序中的插入缺失引起的序列比對錯誤。當應用手動校正時河绽,等位基因正確解析己单。
表4 人類學panel實驗中樣本的結果列表。注: IHW ID耙饰,國際組織相容性研討會 ID纹笼;技術參考:等位基因由 IHW、MinIon苟跪、基于納米孔的 HLA 分型提供廷痘。顏色代表匹配的準確性——綠色,所有字段都匹配件已;黃色笋额,第二場不匹配;紅色篷扩,第一個字段不匹配兄猩。A = HLA I 類等位基因;B = HLA II 類等位基因 DPA1鉴未、DPB1枢冤、DQA1、DQB1歼狼;C = HLA-DRB3,4,5 等位基因掏导。
FSGS/APOL1 allele calling
為了了解納米孔系統(tǒng)對可能易患臨床相關疾病的單核苷酸多態(tài)(SNP)變異的使用,將FSGS的G1和G2風險等位基因添加到混合物中羽峰。所有樣本均檢出G1等位基因(rs73885319,chR22:36265860添瓷,NC_000022.10:g.36661906A>G和rs60910145梅屉,chR22:36265988,nc_000022.10:g.36662034T>G)鳞贷。在12個樣本中坯汤,所有樣本都有A參考等位基因。G2等位基因是一個6堿基(rs71785313搀愧,chR22:36266000惰聂,NC_000022.10:g.36662046_36662051delTTATAA)缺失疆偿。
在12個樣本中,未見內(nèi)含子搓幌。值得注意的是杆故,在APOL1基因SNPs區(qū)域的200?堿基內(nèi)觀察到了幾個常見的小SNP,例如rs1403581130溉愁。
R9.4.1 vs R10 pores
作為早期獲取計劃的一部分处铛,該項目被授予新的R10納米孔,以在其上運行人類白細胞抗原分型樣本(圖1)拐揭。R10使用與R9數(shù)據(jù)相同的管道調(diào)用撤蟆,并顯示出顯著更高的單堿基精度。在圖2中堂污,所有三個面板都顯示了R10數(shù)據(jù)(每個面板的頂部)與R9數(shù)據(jù)(每個面板的底部)的IGV圖家肯,顯示了顯示的三個HLA基因--HLA-DQB1(頂部)、HLA-DPB1(中間)和高度多態(tài)的HLA-DRB5之間的單堿基錯配水平大大降低盟猖。
有趣的是讨衣,R10和R9之間的原始平均地圖質(zhì)量(MAPQ)分數(shù)相似(49比44),基本MAPQ分數(shù)(16.2比15.5)相當于基本錯誤率為2.4%比2.8%扒披。
根據(jù)MiniMap2的報告值依,R10孔的中位比對得分(AS,越高越好)為4,350分碟案,而R9.4.1孔的中位比對分數(shù)為722分(Mann-Whitney P?<?.0001愿险,圖3)。
MiniMap2報告的錯配中位數(shù)(NM价说,錯配越少越好)辆亏,R10孔為51,R9.4.1孔為551(Mann-Whitney P?<?.0001,圖3)抖韩。
圖1 HLA-DPB1 基因定相的 IGV 圖藤树。藍條 = 單倍群 1;綠條 = 單倍群 2彻磁。堿基不匹配顯示為條內(nèi)的彩色線條。IGV狸捅,集成基因組查看器
圖2 IGV 圖降低了 R9 和 R10 孔之間的讀取精度衷蜓。頂圖 = HLA-DRB1;中圖 = HLA-DPB1尘喝;底圖 = HLA-DRB5磁浇。IGV,集成基因組查看器
點擊查看圖2原圖
圖3 log10的小提琴圖和晶須圖:左 A朽褪,比較 R9.4.1 孔(藍色)和 R10 孔(紅色)的代表性樣品的對齊分數(shù)(越高越好)置吓。右 B无虚,比較 R9.4.1 孔(藍色)和 R10 孔(紅色)的代表性樣品的錯配數(shù)(越低越好)
Flongle 設備上的單個樣本調(diào)用
為了了解微型納米孔裝置(Flongle 流通池)的輸出是否在 R9.4.1 Flongle 上運行了單個樣品(NHSBT 樣品 27)。數(shù)據(jù)輸出為 0.9 Gb衍锚,對于此樣本的 I 類和 II 類字段友题,在四個字段級別的準確度為 100%。
HLA-DRB1 中的 HLA 定相和純合性鑒定
鑒定母本和父本對 HLA 等位基因的貢獻對于鑒定純合性運行至關重要构拳,這可能會影響器官匹配咆爽,并且難以使用短讀技術檢測。為了展示納米孔長讀長測序?qū)?HLA 定相以及識別純合性運行的能力置森,選擇了單個樣本(人類學panel樣本 1斗埂,IHW09377)進行分析。在使用 FreeBayes 進行變體調(diào)用后凫海,使用 WhatsHap 生成了單倍群呛凶。對于這個樣本,每個樣本都衍生出兩個單倍群行贪,大概是母系和父系對先證者遺傳 HLA 的貢獻漾稀。這可以在 HLA-DRB1 的 IGV 中清楚地看到(圖1) 通過生成單倍群標記的 BAM 文件。在此圖中建瘫,可以在不同顏色的讀數(shù)(綠色表示單倍群 1崭捍,藍色表示單倍群 2)中看到母本和父本等位基因的不同貢獻。每個單倍塊跨越整個擴增子啰脚,加強了 HLA 系統(tǒng)的共同顯性遺傳殷蛇。人類學panel樣本 IHW09377 的目測顯示 HLA-DRB1 是純合子(圖4)。
圖4 IGV 圖顯示 HLA-DRB1 是純合的橄浓,由 VCF 等位基因調(diào)用圖(表意文字下方的面板)表示粒梦,主要由純合(紅色)SNP 和偶爾的雜合(藍色)SNP 組成。IGV荸实,集成基因組查看器
速度和成本效益
與傳統(tǒng)分型(策略)相比匀们,基于納米孔的測定顯示出相當大的基于速度的優(yōu)勢。DNA 提取需要 1 小時准给,文庫制備需要 3 小時泄朴,測序需要 4 到 20 小時,具體取決于所需的序列數(shù)據(jù)量露氮。在運行 Ubuntu LTS 18.04 的具有 256 GB 系統(tǒng)內(nèi)存的 16 核英特爾至強服務器上叼旋,生物信息學分析花費了 1 小時,這意味著該測定總共可以在 8 小時內(nèi)運行沦辙,這比 NGS 和 SSP 方法節(jié)省了大量時間。在成本效益方面讹剔,假設在 MinION 流動槽上匯集 15 個樣本油讯,我們計算出血液 DNA 提取成本為 25 英鎊详民,遠程 PCR 為 3 英鎊,條形碼和文庫制備為 10 英鎊陌兑,流動槽成本為 27.36 英鎊沈跨,在不提取 DNA 的情況下,總共花費 38 英鎊兔综。典型的商業(yè) HLA 分型成本從 300 英鎊到 800 英鎊不等(https://azure.microsoft.com/en-gb/pricing/calculator/)饿凛,這意味著樣本計算成本為 2.87 英鎊/樣本(因為時間是按小時計費的)。
結論
在這項研究中软驰,我們已經(jīng)證明了在納米孔測序系統(tǒng)上使用long-range PCR和測序技術進行全長人類白細胞抗原配型是非常準確的涧窒,比最近的替代方法更便宜,并且對于現(xiàn)場部署使用“手提箱中的實驗室”的方法是可行的锭亏。這種方法利用納米孔測序的便攜性纠吴,再加上筆記本電腦和便攜式聚合酶鏈式反應設備,以便在資源匱乏的條件下進行人類白細胞抗原分型慧瘤。
目前的人類白細胞抗原分型方法依賴于高度特異性戴已,但不是廣泛的分析,如SSP分析锅减,這些分析可以對單個等位基因進行排序糖儡,但不能提供整個感興趣區(qū)域的深入重建。這意味著怔匣,對于更罕見的等位基因握联,盡管SSP提供了準確性,但這是以一種可以用于所有患者的檢測為代價的劫狠。長程聚合酶鏈式反應提供的長擴增以前是使用短讀測序進行的拴疤,我們的方法與納米孔系統(tǒng)的長讀能力相結合,提供了準確理解人類白細胞抗原區(qū)域的獨特能力独泞。
我們使用long-range PCR的優(yōu)勢在于呐矾,整個基因可以包含在一次PCR反應中,從而能夠重建單倍型并準確解析人類白細胞抗原區(qū)域的復雜部分懦砂。它還需要有限的樣本輸入(通常為50?ng基因組DNA)蜒犯。缺點是擴增反應的延伸階段需要時間,最長的擴增片段(>10?kb)每個循環(huán)需要超過10?分鐘荞膘,這意味著典型的用于HLA分型的長距離聚合酶鏈式反應需要長達3?小時罚随。這種方法的優(yōu)點是可以在資源相對匱乏的環(huán)境中實施,從而能夠在中低收入國家使用羽资。在構思時淘菩,我們最初的實驗計劃是一種可以用于LMIC的實驗計劃,作為昂貴和緩慢的國外HLA配型的替代方案。一種克服廣泛的long-range PCR擴增缺點的替代方法可能是使用環(huán)介導的等溫擴增(LAMP-PCR)潮改,這種方法具有快速的優(yōu)點狭郑,但需要大量的引物重新設計。
這個問題的一個潛在解決方案是使用Cas9富集法從基因組DNA樣本中提取人類白細胞抗原區(qū)域汇在,然后進行連接反應并使用納米孔設備進行測序翰萨。這有多個優(yōu)點,第一個優(yōu)點是能夠以公正的方式檢索感興趣的人類白細胞抗原區(qū)域糕殉。此外亩鬼,人類白細胞抗原區(qū)域的甲基化可以自然地從回收的DNA中取消,因為納米孔系統(tǒng)具有檢測甲基化堿基作為孔內(nèi)信號變化的固有能力阿蝶。這將提供理解人類白細胞抗原表達和甲基化之間的關系的能力雳锋。CAS9方法的一個缺點是輸入需要相對大量的基因組dna(>3dna g),盡管血液樣本通常會提供這一點赡磅,但dna提取必須仔細執(zhí)行魄缚,以便最大限度地恢復?μ片段長度》倮龋基于旋轉(zhuǎn)柱的提取通骋逼ィ可以獲得>20?kb的片段,但對于類似于全長?(2 Mb)的讀數(shù)咆瘟,必須使用更奇異的DNA提取方法嚼隘,如桑布魯克和羅素方法或脈沖凝膠電泳法。這些方法將大大降低LMIC的可及性袒餐,并將限制這種類型的應用僅適用于研究環(huán)境飞蛹。
納米孔系統(tǒng)的另一個潛在好處是平行測序人類白細胞抗原的表達分析,以了解人類白細胞抗原表達對移植結果的影響灸眼。在同一檢測方法中卧檐,準確的3-4個等位基因的現(xiàn)場分辨以及甲基化和表達數(shù)據(jù)將極有可能改變我們對該區(qū)域在人類白細胞抗原分型中的重要性的理解。有證據(jù)表明焰宣,II類系統(tǒng)的人類白細胞抗原分型在造血干細胞移植中相當重要霉囚,并且人類白細胞抗原的表達對這類移植的結果有影響。
我們用于重建人類白細胞抗原區(qū)域的算法(HLA-LA)具有顯著的優(yōu)勢匕积,因為它使用了人類白細胞抗原等位基因28的群體參考圖來準確地重建高精度的人類白細胞抗原區(qū)域盈罐。人口參考圖重建的一個問題是,它既需要計算也需要大量的內(nèi)存闪唆,特別是對于長時間讀取的納米孔數(shù)據(jù)盅粪。我們正在與作者合作修改算法,以處理基于納米孔的數(shù)據(jù)悄蕾,以便在現(xiàn)場的計算機上重建是可行的票顾。另一種選擇是使用基于云的基礎設施,其中納米孔測序數(shù)據(jù)從現(xiàn)場上傳,并實時調(diào)用人類白細胞抗原類型库物。這具有集中控制算法和質(zhì)量保證的優(yōu)點霸旗,但缺點是需要轉(zhuǎn)移納米孔測序運行的方法(通常為5-6 GB),這在LMIC中可能很難實現(xiàn)戚揭。
總之,我們介紹了使用納米孔測序技術對所有 I 類和 II 類等位基因進行四個字段分辨率的方法撵枢。它具有成本效益民晒、快速并且與短讀長測序相比具有許多實際優(yōu)勢,我們建議它可能代表最適合 HLA 分型的未來方法锄禽。
long-range PCR:擴增較長的片段潜必,可達30kb