癌癥疫苗靶向腫瘤細(xì)胞的抗原可以大致分為兩類:腫瘤相關(guān)性抗原(tumor-associatied self-antigen)以及腫瘤特異性抗原(tumor-specific antigen)。前者指的是在正常體細(xì)胞中也存在卤妒,但腫瘤細(xì)胞中異常高表達(dá)的抗原甥绿;后者指的是因腫瘤特異性突變而產(chǎn)生的新抗原/新表位(neoantigen/neoepitope)。新抗原相比腫瘤相關(guān)性抗原擁有更強(qiáng)的特異性因此副作用更低则披,并且不受限于胸腺的中樞耐受妹窖。通過(guò)高通量測(cè)序可以獲取大量的腫瘤特異性突變,基于這些突變預(yù)測(cè)新抗原在癌癥的個(gè)性化免疫治療方面有很廣闊的應(yīng)用前景收叶。
I類主要組織相容性復(fù)合體(MHC class I)抗原的處理和呈遞過(guò)程:
- 腫瘤特異性突變產(chǎn)生的突變蛋白會(huì)被蛋白酶體降解為8~11aa的肽段骄呼;
- 這些肽段被抗原加工相關(guān)轉(zhuǎn)運(yùn)體(TAP)轉(zhuǎn)運(yùn)進(jìn)入內(nèi)質(zhì)網(wǎng)腔;
- 與新合成的MHC-I結(jié)合判没;
- 最終通過(guò)高爾基體轉(zhuǎn)運(yùn)至細(xì)胞膜被CD8+ T細(xì)胞識(shí)別蜓萄。
生物信息學(xué)預(yù)測(cè)腫瘤新抗原的方法
目前通過(guò)生物信息學(xué)方法預(yù)測(cè)新抗原主要是關(guān)注于蛋白酶體對(duì)突變蛋白的剪切的預(yù)測(cè)、肽段轉(zhuǎn)運(yùn)澄峰、以及突變肽段和MHC-I結(jié)合的親和力預(yù)測(cè)等方面嫉沽。相關(guān)的分析工具非常多,比如:
- NetChop:通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)人類蛋白酶體的剪切位點(diǎn)俏竞。目前有兩種預(yù)測(cè)方法可共選擇绸硕,分別是C-term 3.0和20S 3.0堂竟。C-term 3.0基于1260個(gè)公開的MHC-I配體的C端剪切位點(diǎn)進(jìn)行訓(xùn)練;20S 3.0基于體外降解實(shí)驗(yàn)的數(shù)據(jù)玻佩。
- NetCTL:預(yù)測(cè)蛋白酶體剪切位點(diǎn)出嘹、TAP轉(zhuǎn)運(yùn)效率以及肽段和MHC-I結(jié)合的親和力。其中蛋白酶體剪切位點(diǎn)的分析結(jié)果和NetChop一致咬崔;TAP轉(zhuǎn)運(yùn)效率預(yù)測(cè)使用Peters等描述的權(quán)重矩陣税稼;肽段和MHC-I結(jié)合的親和力預(yù)測(cè)使用的NetMHC所描述的方法訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。目前支持包含A26和B39在內(nèi)的12類MHC-I超型垮斯。
- NetMHC:通過(guò)神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)肽段和MHC-I結(jié)合的親和力郎仆。其神經(jīng)網(wǎng)絡(luò)使用了81種不同的人類MHC等位基因進(jìn)行訓(xùn)練,包括HLA-A兜蠕、HLA-B扰肌、HLA-C以及HLA-E。
- NetMHCpan 4.0:之前的大部分算法僅利用了體外實(shí)驗(yàn)得到的親和力數(shù)據(jù)進(jìn)行訓(xùn)練熊杨,而忽略了抗原處理和轉(zhuǎn)運(yùn)過(guò)程中潛在的選擇步驟曙旭。NetMHCpan同時(shí)整合了親和力(binding affinity)以及質(zhì)譜洗脫配體(MS eluted ligand)數(shù)據(jù)進(jìn)行訓(xùn)練,得到了相比使用單一數(shù)據(jù)訓(xùn)練更好的預(yù)測(cè)結(jié)果猴凹。
- IEDB MHC-I Binding Predictions:IEDB(Immune Epitope Database)由NIAID資助,是一個(gè)集合抗體和T細(xì)胞表位實(shí)驗(yàn)數(shù)據(jù)的數(shù)據(jù)庫(kù)岭皂。除此之外IEDB上還整合了一些T細(xì)胞表位預(yù)測(cè)的工具郊霎,其中MHC-I Binding Predictions可以在線進(jìn)行MHC-I親和力預(yù)測(cè)。目前支持多種預(yù)測(cè)算法爷绘,包括:IEDB recommended书劝、Consensus、NetMHCpan 4.0土至、ANN 4.0购对、SMMPMBEC、SMM陶因、CombLib骡苞、PickPocket、NetMHCcons楷扬、NetMHCstabpan解幽。
閾值設(shè)定方面通常將半最大抑制濃度IC50 ≤ 50nM作為“強(qiáng)親和力閾值”,IC50 ≤ 500nM作為“中等親和力閾值”烘苹,IC50 ≤ 5000nM作為“低親和力閾值”躲株。但Bassani-Sternberg等的研究通過(guò)比較質(zhì)譜數(shù)據(jù)和預(yù)測(cè)的HLA結(jié)合親和力進(jìn)行比較發(fā)現(xiàn),常用的IC50 ≤ 500nM的親和力閾值對(duì)于一些HLA類型來(lái)說(shuō)過(guò)于嚴(yán)格镣衡。那這么多不同的算法應(yīng)該如何選擇霜定,又如何確定閾值呢档悠?
如何選擇軟件和參數(shù)
最近發(fā)表在Cancer Immunology Research上的一篇文章《Performance Evaluation of MHC Class-I Binding Prediction Tools Based on an Experimentally Validated MHC–Peptide Binding Data Set》使用了獨(dú)立任何一個(gè)算法訓(xùn)練集的MHC親和力數(shù)據(jù)集對(duì)13種預(yù)測(cè)腫瘤新抗原的算法以及參數(shù)進(jìn)行了綜合性評(píng)估。
受測(cè)算法包括NetMHC 4.0望浩、NetMHC 3.4辖所、NetMHCpan 4.0、NetMHCpan 3.0曾雕、NetMHCpan 2.8奴烙、MHCflurry 1.2、PickPocket 1.1剖张、IEDB SMM切诀、、IEDB SMMPMBEC搔弄,以及SYFPEITHI幅虑。(其中SYFPEITHI對(duì)大多數(shù)HLA類型只能預(yù)測(cè)9和10aa肽段,11aa肽段只能適用于HLA-A1顾犹,并且該軟件還不能預(yù)測(cè)HLA-B15倒庵,因此沒重點(diǎn)在正文中討論。)
不同算法效果通過(guò)計(jì)算ROC曲線以及曲線下面積(即AUC)進(jìn)行評(píng)估炫刷;推薦參數(shù)的確定則依據(jù)如下標(biāo)準(zhǔn):(1)FPR≤0.33(2)TPR≥2*FPR(3)保證前兩條的基礎(chǔ)上最高sensitivity(FPR)擎宝。FPR(sensitivity)和TPR的計(jì)算方法可以看我之前寫一篇文章《如何去除二代測(cè)序數(shù)據(jù)中的PCR duplication才科學(xué)?》浑玛。
1. 算法的選擇
通過(guò)分析發(fā)現(xiàn)绍申,當(dāng)考慮所有長(zhǎng)度的肽段(pooled lengths),受測(cè)的算法都顯示出相近的預(yù)測(cè)性能顾彰。但對(duì)于不同長(zhǎng)度的肽段和HLA類型极阅,這些算法的預(yù)測(cè)性能差異較大:
總的來(lái)說(shuō)基于人工神經(jīng)網(wǎng)絡(luò)的pan-specific算法擁有最好的預(yù)測(cè)性能,NetMHC系列的軟件總在效果最好的幾個(gè)算法之列涨享;相比之下IEDB SMM和IEDB SMMPMBEC則總是在較差的算法中筋搏。最新的兩種算法NetMHCpan 4.0和MHCflurry 1.2并不能和其他算法拉開較大差距,并且也沒有某種算法的表現(xiàn)能夠脫穎而出厕隧。因此作者推薦:總是根據(jù)HLA類型和肽段長(zhǎng)度選擇最合適的算法奔脐。
2. 參數(shù)的選擇
文章評(píng)估了強(qiáng)親和力、中等親和力吁讨、低親和力閾值下各算法accuracy的表現(xiàn)帖族。和上文類似:不同長(zhǎng)度肽段混合時(shí)各算法預(yù)測(cè)的accuracy近似,而當(dāng)不同長(zhǎng)度肽段分開評(píng)估時(shí)表現(xiàn)差異較大挡爵∈悖總體上看,強(qiáng)親和力閾值accuracy表現(xiàn)更穩(wěn)定茶鹃,但同時(shí)最低涣雕;中等親和力閾值在混合長(zhǎng)度肽段中的accuracy稍微高一些艰亮,在某些長(zhǎng)度肽段的預(yù)測(cè)中有非常高的accuracy,但并未展示出長(zhǎng)度特異性而是HLA類型特異性挣郭;低親和力閾值下不同算法間差異最大迄埃,并在不同類型HLA中表現(xiàn)不穩(wěn)定。
此外因?yàn)閍ccuracy=(TP+TN)/(P+N)兑障,因此如果TN夠高也可以使得accuracy很高侄非,因此文章還用sensitivity和specificity進(jìn)行了評(píng)估。總的來(lái)說(shuō)流译,使用常用的親和力閾值逞怨,sensitivity結(jié)果不太理想。
雖然在很多研究中希望找到盡可能多的HLA結(jié)合肽段福澡,降低閾值的嚴(yán)格程度以提高sensitivity似乎是個(gè)不錯(cuò)的選擇叠赦,但是該研究卻發(fā)現(xiàn)使用低親和力閾值并不一定都能得到不錯(cuò)的sensitivity。使用上文提到的3條選擇最佳參數(shù)的標(biāo)準(zhǔn)進(jìn)行分析后發(fā)現(xiàn)革砸,對(duì)于AUC更高的算法除秀,推薦的閾值經(jīng)常比低親和力閾值更寬松(IC50 > 5000nM);而對(duì)于表現(xiàn)差的算法算利,推薦的閾值經(jīng)常在中等和低親和力閾值之間(500nM < IC50 < 5000nM)册踩。
為了選出一個(gè)對(duì)任何數(shù)據(jù)集都可用的推薦閾值,該研究基于上述3條標(biāo)準(zhǔn)對(duì)每個(gè)HLA類型和每個(gè)算法都進(jìn)行了resampling效拭。并以100次取樣計(jì)算的推薦閾值的中位數(shù)作為“驗(yàn)證閾值”(validated threshold)暂吉。然后將驗(yàn)證閾值的sensitivity、specificity允耿、accuracy和低親和力借笙、中等親和力閾值通過(guò)第二輪resampling進(jìn)行比較扒怖。簡(jiǎn)單來(lái)說(shuō)就是第一輪確定驗(yàn)證閾值较锡,第二輪比較驗(yàn)證閾值和兩種常用閾值的表現(xiàn)。部分HLA類型中盗痒,大多數(shù)算法使用推薦閾值相比低親和力閾值的sensitivity顯著提高了蚂蕴。在所有HLA類型中,雖然對(duì)于部分算法俯邓,使用推薦閾值的sensitivity可能有所下降骡楼,但是相應(yīng)的specificity提高更多,最終accuracy的表現(xiàn)也有所提高或沒有顯著差異或者略微下降稽鞭。
此外改研究還將直接根據(jù)3條標(biāo)準(zhǔn)選出的推薦閾值和通過(guò)resampling得到的驗(yàn)證閾值進(jìn)行比較鸟整,閾值本身和對(duì)應(yīng)的accuracy基本沒有明顯差異。使用該標(biāo)準(zhǔn)選出的推薦閾值朦蕴,增加了真陽(yáng)性的比例篮条。
3. MHCcombine
作者開發(fā)了一個(gè)預(yù)測(cè)MHC-I結(jié)合的網(wǎng)頁(yè)應(yīng)用——MHCcombine弟头,可以一站式執(zhí)行文章中除了MHCflurry以外的12個(gè)算法:
4. 一些不足
- 本研究仍使用的親和力數(shù)據(jù)進(jìn)行評(píng)估,因此像NetMHCpan 4.0這類加入了質(zhì)譜洗脫配體數(shù)據(jù)進(jìn)行訓(xùn)練的優(yōu)勢(shì)就無(wú)法展現(xiàn)出來(lái)了(忽略了抗原處理和呈遞等過(guò)程的選擇)涉茧。
- 沒有通過(guò)實(shí)驗(yàn)測(cè)定所有MHC-I結(jié)合的親和性赴恨,而是依據(jù)軟件預(yù)測(cè)結(jié)果的排序進(jìn)行實(shí)驗(yàn)驗(yàn)證,當(dāng)不再能檢測(cè)到結(jié)合就停止伴栓。因此可能會(huì)導(dǎo)致結(jié)果存在偏差伦连,正確預(yù)測(cè)出陽(yáng)性的能力(TPR)可能會(huì)被高估。
- 不同HLA類型和肽段長(zhǎng)度的樣本量不平衡钳垮,HLA-A1和B7以及8和11aa的肽段樣本數(shù)量都比較少惑淳。
參考文獻(xiàn)
Neefjes J, Jongsma M L M, Paul P, et al. Towards a systems understanding of MHC class I and MHC class II antigen presentation[J]. Nature Reviews Immunology, 2011, 11(12): 823.
The problem with neoantigen prediction. Nat. Biotechnol. 35, 97 (2017).
Jurtz V, Paul S, Andreatta M, et al. NetMHCpan-4.0: Improved peptide–MHC class I interaction predictions integrating eluted ligand and peptide binding affinity data[J]. The Journal of Immunology, 2017, 199(9): 3360-3368.
Bonsack M, Hoppe S, Winter J, et al. Performance Evaluation of MHC Class-I Binding Prediction Tools Based on an Experimentally Validated MHC–Peptide Binding Data Set[J]. Cancer immunology research, 2019, 7(5): 719-736.