續(xù)言
? ? ? ?在這個轉化醫(yī)學專題的第四篇文章——《腫瘤突變負荷(TMB)與panel設計--part1》中拔鹰,一方面只做了4個模擬panel,panel大小和用于模擬的基因來源都比較有限频丘;另一方面只展示了增加gene的結果娇昙,缺少downsample層面的內容;最后也缺少一個明確的結論耕捞。再加上最近國內有研究報道肺癌上150 gene的panel,其tTMB與WES數據以及bTMB與tTMB之間均能達到很好的相關性澎粟,甚至還可以有效評估免疫治療的療效奇昙!這與國內外相似的TMB模擬研究結論相差甚遠。接下來就對以上遺留問題進行補充回答群叶。
一. 擴大gene范圍并增加基因數目梯度進行模擬
1.1.?用于模擬的基因集合選取
a. 業(yè)內同行相關產品:FMI+MSK產品中的基因和基因表達免疫panel吃挑;
b.?CIVIC數據庫;
c. 2018年以來的4個腫瘤基因組學研究數據:遺傳性腫瘤(cell1,cell2),drivergene(cell文章報道的299個驅動基因),HRD(DNA損傷修復中的同源重組缺失信號通路基因)和cas9抗癌藥物靶基因篩選街立;
d. 以a,b,c做核心gene集合舶衬,隨機引入基因組中其它基因迭代;
1.2 以上五個基因集合共有基因比較
在遺傳性腫瘤和免疫panel以外的五個基因集合范圍內:三個集合共有基因:167個赎离,四個集合共有基因:51個逛犹,五個集合共有的基因只有3個:ATR,BRCA2和ERCC2(# 以基因名稱而非位置進行比較梁剔,忽略誤差) 具體見圖1
二. 10個模擬panel在32個癌種上與WES數據TMB的相關性比較
2.1? 將模擬基因集合從原來的500個~800個的3個梯度虽画,擴展至500個~3000個gene的10個梯度
TMB計算方式沿用上一篇文章,10個梯度的模擬panel在32個癌種上與WES數據TMB的spearman相關數據見圖2荣病,波動情況見圖3狸捕。
2.2 本次模擬結果顯示:
a.對于皮膚黑色素瘤、肺腺癌和子宮內膜癌众雷,500個gene規(guī)模的panel(522 gene灸拍,FMI+MSK),其TMB已經能夠很好的代表WES數據結果砾省,spearman相關>=0.9鸡岗;
b. 體外腫瘤細胞系上cas9篩選得到的628個候選抗癌藥物靶基因單獨作為一個panel,其TMB與WES數據的相關性在大部分癌種上都較差编兄,結合venn圖中的基因交集比較轩性,進一步顯示體外細胞系與病人癌細胞的真實狀況差別較大;
c. panel越大其TMB與WES數據相關性越高狠鸳,但對于葡萄膜黑色素瘤等十多個TMB與WES相關性較差的癌種揣苏,其TMB方面的研究應該不是panel能夠應對的;
三. 模擬panel的downsample分析
? ?? ? ?如果能從現有panel包含的gene范圍內件舵,通過大規(guī)模的迭代優(yōu)化卸察,找到比原來整個基因集合更有代表性的部分子基因集來計算該癌種的TMB,相較于重新開發(fā)一個更大的panel铅祸,似乎是一個彎道超車的好辦法坑质?
? ? ? ?從以上10個模擬panel中選取FMI+MSK,Mimic579和Mimic1328三個,以50個gene為數量級(感興趣也可以嘗試以exon為單位寫程序迭代)合武,從100個gene開始:設定 100 gene、150 gene涡扼、200 gene至模擬panel規(guī)模的不同梯度稼跳,每個梯度上迭代計算1021次,每次迭代均輸出基因集合吃沪,樣本TMB值以及相關分析結果汤善。經過4萬多次計算,最后以各子基因集與WES數據的spearman相關結果為準票彪,分別選取top1和top20的結果红淡,從以下三個方面進行downsample層面的TMB比較:
3.1. 最優(yōu)子基因集與原始基因集合的TMB與WES數據相關性;
3.2. top20的子基因集中基因數目與其TMB相關性數值分布的比較抹镊;
3.3. 最優(yōu)子基因集與WES以和原始基因集合TMB波動性的比較锉屈。
3.1?最優(yōu)子基因集與原始基因集合的TMB與WES數據相關性比較
? ? ?本次選取的FMI+MSK,Mimic 579和Mimic1328三個模擬panel,經過大規(guī)模downsample迭代得到的最優(yōu)基因子集垮耳,其TMB與WES數據相關性相較于原始基因集合颈渊,在32個癌種上均可獲得不同程度的提升。
與?FMI+MSK和Mimic 579 這兩個500個gene規(guī)模的panel相比终佛,1000個基因規(guī)模的Mimic1328 最優(yōu)基因子集的TMB與WES數據的相關性在32個癌種上均趨于穩(wěn)定;
?FMI+MSK和Mimic 579最優(yōu)gene子集的TMB與WES數據的相關性在部分癌種上可以超過Mimic1328的原始gene集合俊嗽, 但32個癌種上都無法超越?Mimic1328的最優(yōu)子集;
在間皮瘤等panel與WES 數據 TMB相關性較低的癌種上绍豁,top20子gene子集與WES數據TMB相關性數值分布波動較大;
3.2 top20子基因集中基因數目與其TMB相關性分布比較
從32個癌種中選取常見的18個癌種,對FMI+MSK,Mimic579 以及?Mimic1328三個模擬panel top20 gene子集中的基因數目與其TMB相關性數值的分布情況進行比較蒸其。
對常見的肺鱗癌和肺腺癌纷捞,top20最優(yōu)子集中基因數目仍在500個左右婴梧,而對于乳腺癌以及皮膚黑色素瘤,約300個的基因就達到與原500多個基因相似的TMB相關性(?對于乳腺癌,300-500個基因的panel,其TMB的 spearman 相關系數均不高昧碉,0.62~0.65,鑒于乳腺癌方面用于預后評估的基因表達panel——Oncotype DX 揽惹,Mammaprint等推進很快被饿,或許對乳腺癌來講,二維層面的基因表達調控相較于一維層面的DNA序列突變更值得關注)
3.3 最優(yōu)子基因集與WES以及原始基因集合TMB的波動性比較
? ? ? ?FMI+MSK搪搏,Mimic579 以及?Mimic1328三個模擬panel downsample得到的最優(yōu)子gene集雖然相關性都優(yōu)于原始基因集合狭握,但理論上基因集合的減小會引起實際個體層面波動性的增加,因此需要對TMB數值層面的穩(wěn)定性進行進一步的比較:
? ? ? 選取?FMI+MSK downsample結果中的top1的肺腺癌和皮膚黑色素瘤慕嚷,Mimic579 downsample 結果中top1的肺鱗癌和乳腺癌的模擬結果哥牍,仍以1為單位毕泌,在TMB 從5.5到16.5的11個固定區(qū)間外喝检,引入TMB<5.5和TMB>16.5嗅辣,共13個TMB細分區(qū)間,選取以上4個癌種分別落入13個區(qū)間中的病例數目在15個以上的部分區(qū)間挠说,通過對WES澡谭,原始基因集合和downsample的 top1子集三組TMB數值的均值比比較來衡量最優(yōu)子集得到的TMB的穩(wěn)定性情況。
? ? ? ?對以上4個癌種17個TMB區(qū)間分析顯示损俭,與原始基因集合相比蛙奖,雖然downsample 后的top1 gene子集的TMB與原始基因集合的TMB整體無差異,( p value在17個區(qū)間中的16個都大于0.05)杆兵,但是與WES基線相比雁仲,p value均有減小的趨勢,也就是與WES基線的差異增大了琐脏≡茏可以推斷downsample后的其它top1基因集合在其它癌種上的穩(wěn)定性也是下降的。那么500個gene層面的panel,其downsample后的結果又一夜回到解放前了— — 相關系數會變得好看日裙,但實際上不穩(wěn)定性卻增加了吹艇;而更大的1000個gene層面的panel,從downsample后top1的子基因集合在32個癌種上的TMB趨于穩(wěn)定昂拂,以及top20基因集合中的基因數目還都維持在1000個左右來推斷受神,其子基因集合在對應癌種類上的穩(wěn)定性應該受影響不大,具體但還需要補充分析格侯。
4. 總結
? ? ? 拋開體外細胞系上cas9篩選抗癌藥物靶基因的特例鼻听,?單從TMB研究的角度看:對于肺腺癌、皮膚黑色素瘤和子宮內膜癌联四,500個基因左右的panel性價比已經較高撑碴;對于直腸腺癌、卵巢癌這些癌種碎连,1000個基因左右的panel應該才會有較好的預測一致性灰羽;而對于前列腺癌等癌種研究,或許其發(fā)病機制本就不在DNA一維序列(僅外顯子區(qū)域中的SNV/INDEL)層面鱼辙。另外廉嚼,對于大Panel TMB的可靠性,不能單看基因數目的多少——除非該大panel是全外顯子設計而非熱點突變密度設計倒戏。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 寫于2019年5月19日