今天我們一起學習一篇最近發(fā)表在Journal for immunotherapy of cancer (IF 10.9)上的文章,Machine learning for prediction of immunotherapeutic outcome in non-small-cell lung cancer based on circulating cytokine signatures[基于循環(huán)細胞因子特征麸粮,通過機器學習算法預測NSCLC免疫治療結局]犁享。
Sasada教授是日本橫濱神奈川癌癥中心癌癥疫苗中心主任,主要研究T細胞免疫豹休,特別是T細胞選擇炊昆、分化和激活的分子機制。2001年至2006年威根,他在日本擔任外科腫瘤學家凤巨。2006年至2010年,他擔任波士頓Dana-Farber癌癥研究所癌癥疫苗中心免疫評估核心主任洛搀。2010年至2014年敢茁,他擔任日本福岡久留姆大學醫(yī)學院免疫學和免疫治療系副教授。2014年留美,他轉到日本橫濱神奈川癌癥中心的癌癥疫苗中心彰檬,并參與了新型癌癥疫苗和免疫療法的臨床前和臨床開發(fā)。
文章簡介:
免疫檢查點抑制劑(ICI)顯著提高了非小細胞肺癌(NSCLC)患者的總生存率(OS)谎砾,但其有效率仍然不高逢倍。在這項研究中,作者通過機器學習算法景图,基于患者的循環(huán)細胞因子開發(fā)了細胞因子ICI反應指數(CIRI)较雕,以便根據患者外周血細胞因子譜來預測接受ICI治療的NSCLC患者的總生存期。作者將123例接受抗PD-1/PD-L1單藥治療的NSCLC患者和99例接受聯(lián)合化療的NSCLC患者分別納入訓練隊列和驗證隊列。分別于治療前(Pre)和治療后6周(治療早期:EDT)檢測患者外周血中93種細胞因子的濃度亮蒋。最終扣典,作者通過集成學習隨機生存森林分類器來選擇特征細胞因子并預測接受ICI治療NSCLC患者的OS。最終慎玖,作者分別基于14個基線循環(huán)細胞因子和19個治療后的循環(huán)細胞因子建立CIRI模型贮尖,并命名為preCIRI14和edtCIRI19。生存分析結果表明這兩個基于細胞因子的預測指數在訓練隊列和驗證隊列中對研究對象有良好的風險分層能力趁怔。就具體的預測性能而言湿硝,preCIRI14和edtCIRI19在兩個隊列中均具有良好的C指數,提示其良好的區(qū)分度痕钢。在個體水平上,CIRI評分較高的患者表現出更差的OS[風險比(HR):preCIRI14和EDTCIRI19分別為0.274和0.163序六,p<0.0001和p=0.0044]任连。通過包括其他循環(huán)和臨床特征,作者開發(fā)了基于循環(huán)細胞因子指數的聯(lián)合預測模型例诀,preCIRI21和edtCIRI27随抠,他們在預測患者的OS方面均具有良好的預測效果。preCIRI21和edtCIRI27在驗證隊列中的C指數分別為0.764和0.757繁涂,他們對應的HR分別為0.141(p<0.0001)和0.158(p=0.038)拱她。整體而言,作者開發(fā)的CIRI模型能狗準確預測長期應用抗PD-1/PD-L1單抗治療的NSCLC患者的OS扔罪,有助于臨床治療前和(或)早期決策秉沼。
1、背景
細胞因子是宿主免疫活動的可溶性介質矿酵,通過促進腫瘤微環(huán)境中腫瘤浸潤并重新激活效應淋巴細胞唬复,在癌癥免疫療法中起著關鍵作用。
一些研究表明全肮,循環(huán)細胞因子可以用于評估不同癌癥中ICI治療的預后敞咧,如腎細胞癌和黑色素瘤。目前為止辜腺,只有少數幾種選擇性的細胞因子休建,如IL-6、IL-8评疗、IL-10测砂、IL-11、IFN-γ百匆、TGF-β1和TNFα邑彪,在小樣本的非小細胞肺癌患者中被評估其與ICI治療應答的相關性。相比之下胧华,很少有研究探索外周血循環(huán)細胞因子在接受ICI治療的NSCLC患者中的預后價值寄症。
基于機器學習的特征提取結合非線性高維數據已被證明是一種可用于癌癥免疫治療個體化患者分層和治療選擇的靈活而強大的方法宙彪。然而麦撵,目前尚未有研究通過機器學習算法鸿吆,基于循環(huán)細胞因子水平預測非小細胞肺癌患者ICI治療的預后。因此望门,該研究通過機器學習算法提取和結合循環(huán)細胞因子特征篮迎,以識別接受PD-1/PD-L1單抗治療后非小細胞肺癌患者總生存期(OS)相關的預后標志物男图。
2、方法
2.1 研究設計
在這項研究中甜橱,作者選擇OS作為研究終點逊笆,而不是PFS或腫瘤大小變化等指標。作者檢測了患者基線(稱為“pre”)和接受抗PD-1/PD-L1單抗治療6周后(稱為“edt”)血漿中的93種循環(huán)細胞因子濃度岂傲。采用集成學習的隨機生存森林(RSF)分類器难裆,選擇與OS相關的細胞因子作為候選特征。然后镊掖,作者將這些選定的細胞因子整合成一個評分乃戈,即基于細胞因子的免疫治療反應指數(CIRI),以反映免疫治療的結果亩进。為了克服機器學習過擬合問題症虑,作者分別在訓練(隊列1;n=123)和獨立驗證隊列(隊列2归薛;n=99)中進行了內部隊列和交叉驗證谍憔。通過C-指數和時間依賴ROC曲線下面積來評價該指數的區(qū)分度。此外主籍,作者還在個體層面上使用生存曲線及Cox回歸評價了該指數對患者的風險分層能力和預后價值韵卤。該研究的整體研究設計如下圖所示。
2.2病例選擇和數據來源
本研究選擇來自日本久留米大學醫(yī)院和神奈川癌癥中心的接受單藥抗PD-1/PD-L1單抗治療或聯(lián)合化療治療的晚期/復發(fā)/轉移性NSCLC患者作為研究對象崇猫。本研究采用了兩個隊列:隊列1(Cohort 1)包括123名患者沈条,入組時間為2016年9月至2020年2月,作為訓練集诅炉;隊列2(Cohort 2)包括99名患者蜡歹,入組時間為2020年2月至2021年2月,與隊列1完全獨立涕烧,用作驗證集月而。通過IHC在石蠟包埋組織切片中測定患者的PD-L1表達水平(22C3;Agilent Technologies/Dako)议纯。在大多數患者中父款,PD-L1表達是在首次治療之前獲得的腫瘤組織中測定的。患者治療后的療效評價按照RECISTv.1.1來確定憨攒。
2.3循環(huán)細胞因子分析
在治療開始前(pre)和治療開始后6周(edt)采集患者外周血標本世杀,離心分離血漿,測定93種細胞因子的水平(補充表S1)肝集。為了避免潛在的批次效應瞻坝,作者對細胞因子濃度進行了標準化處理。
2.4機器學習算法開發(fā)
使用randomForestSRC包用于生存分析的隨機生存森林(RSF)構建杏瞻。細胞因子使用測量濃度所刀。對于特征選擇,考慮了包括所有93個細胞因子的數據集捞挥,并使用RSF最小深度過濾器對每個細胞因子的特征重要性進行評分:隨機森林最小深度評估了在決策樹中劃分特征(在本例中為細胞因子)的級別浮创。較小的最小深度表示接近決策樹的根節(jié)點,并對最終預測產生更直接的影響砌函。因此斩披,最小深度越小,細胞因子在確定模型結果方面的重要性就越大胸嘴。作者選擇了最小深度小于整體均值的細胞因子作為重要特征細胞因子雏掠,并使用最小深度的倒數(定義為“重要性分數”)來可視化這些細胞因子的重要性斩祭。特征選擇的超參數如下:k-折交叉驗證的分割數為10劣像;樹的數量為1000;節(jié)點大小為3摧玫;劃分規(guī)則為“l(fā)ogrank”耳奕。最終使用隨機森林識別的重要細胞因子建立預測模型。作者采用k-折交叉驗證進行內部驗證诬像。作者將訓練集中的所有樣本用于模型訓練屋群,并使用完全獨立的驗證隊列來測試其預測性能,從而實現交叉驗證坏挠。
2.5統(tǒng)計分析
使用randomForestSRC和survivalROC計算C-指數和時間依賴性ROC曲線下面積(AUC)芍躏。通過survival包,使用Youden方法來確定CIRI的最佳cutoff值降狠,預測時間以1年時間點的生存狀態(tài)為基準对竣。CIRI得分高于截斷值被定義為高風險組,具有較差的治療反應和預后榜配,否則被視為低風險組否纬,具有良好的治療反應和預后。
3蛋褥、研究結果
3.1納入研究對象一般特征
隊列1和隊列2之間在年齡临燃、性別、BMI、吸煙狀態(tài)膜廊、驅動基因突變(EGFR和ALK)乏沸、腦和肝轉移、白蛋白水平(治療前)溃论、NLR(治療前后)方面沒有差異屎蜓。在肺癌分期、組織學钥勋、腫瘤PD-L1表達水平炬转、治療線數、PS評分和白蛋白水平(治療后)方面存在顯著差異算灸。隊列1的患者大多數接受接受單藥治療(78.1%)扼劈,而隊列2的患者則主要接受聯(lián)合治療(65.7%)。兩個隊列在基于RECIST的免疫治療應答類型菲驴、PFS和OS之間沒有顯著差異荐吵。
3.2基于基線細胞因子特征預測免疫治療結局
作者最初開發(fā)了一個集成學習的隨機森林分類器薯蝎,使用基線細胞因子預測接受抗PD-1/PD-L1免疫治療NSCLC患者的OS。首先谤绳,根據它們在隨機森林算法中的最小深度占锯,對訓練集的93個基線細胞因子進行了評分和排序,以確定它們在OS預測模型中的重要性缩筛。如圖2A所示消略,作者選擇了14個細胞因子(骨巖蛋白、CX3CL1瞎抛、IL-11艺演、sTNF-R1、IL-21桐臊、腦鈉肽-3胎撤、MMP-1、骨鈣素豪硅、IL-6Rα哩照、APRIL、IL-1ra懒浮、CCL5飘弧、sCD163和CCL20)作為特征細胞因子识藤,并用于構建OS預測模型(以下簡稱“preCIRI14”)。preCIRI14在訓練集中表現出優(yōu)越的性能次伶,其C-指數為0.667痴昧,能夠預測治療后患者的生存期(圖2B)。接下來冠王,將preCIRI14應用于預測每個時間點的事件發(fā)生赶撰。ROC曲線的時間依賴AUC估計表明,在治療后1-2個月內柱彻,AUC保持在0.8以上豪娜,然后隨時間降至約0.7(圖2C)。
為了評估個體水平的預測準確性哟楷,根據preCIRI14預測的預后風險對患者進行評分瘤载。然后,根據治療后1年時點的ROC曲線卖擅,使用Youden方法確定了預測preCIRI14分數的優(yōu)化截斷值(補充圖S1)鸣奔,用于將患者分為高風險和低風險組。
如圖2D所示惩阶,訓練集中的45名患者和78名患者分別被分類為高風險和低風險組挎狸。Kaplan-Meier法估計的OS率和log rank檢驗顯示,高風險組患者的預后明顯較低風險組差(風險比0.320断楷;95% CI 0.200至0.511锨匆;p<0.0001)。值得注意的是脐嫂,高風險組患者的中位生存期為180天统刮,而低風險組為732天紊遵。最后账千,在驗證集(隊列2)的99名NSCLC患者中評估了preCIRI14分數在免疫治療的風險分層方面的性能。在人群水平上暗膜,preCIRI14的C-指數在驗證集中為0.700匀奏,略高于訓練集(圖2B)。預測概率的時間依賴ROC曲線估計也證實学搜,在治療后1.5年內娃善,AUC保持在0.7以上,隨后在2年時間點降至0.586(圖2E)瑞佩。在個體水平上聚磺,驗證集中的29名患者和70名患者分別被分類為高風險和低風險組。Kaplan-Meier生存分析證實炬丸,高風險組患者的預后明顯較低風險組差(風險比0.274瘫寝;95% CI 0.150至0.501蜒蕾;p<0.0001)。高風險組患者的中位生存期為161天焕阿,而低風險組為682天(圖2F)咪啡。
由于腫瘤PD-L1表達是FDA批準的用于臨床預測NSCLC免疫治療效果的生物標志物,在治療前暮屡,作者研究了基線腫瘤PD-L1蛋白表達在ICI治療的風險分層中的應用撤摸。如補充圖S2所示,在訓練集和驗證集中褒纲,腫瘤PD-L1蛋白質表達與患者抗PD-1/PD-L1免疫治療響應和生存之間沒有明顯關聯(lián)准夷。
3.3基于治療早期循環(huán)細胞因子特征預測免疫治療結局
隨后汁蝶,作者評價了治療后6周的細胞因子譜在接受ICIs治療NSCLC患者中的預后作用渐扮。類似于基線細胞因子譜分析,作者選擇了19個特征細胞因子(骨橋蛋白掖棉、IL-23墓律、IL-21、骨鈣素幔亥、VEGF-A耻讽、CX3CL1、IL-16帕棉、CCL23针肥、CCL13、IL-1ra香伴、IL-11慰枕、IL-15、APRIL即纲、IL-2Rα具帮、BAFF、sTNF-R1低斋、IL-33蜂厅、IL-17A/F和IL-25)(圖3A)來構建基于細胞因子譜的OS預測模型(以下稱為'edtCIRI19')。與preCIRI14的預測性能相比膊畴,治療初始后早期階段的細胞因子反應與患者對免疫治療的生存率呈更強的相關性掘猿。edtCIRI19模型的C指數在訓練集和驗證集中分別為0.712和0.751(圖3B)。edtCIRI19每個時間點的ROC曲線在訓練集和驗證集中也表現出類似的預測性能唇跨,其中治療后24個月的AUC保持在0.778和0.725以上(圖3C稠通、E)礁遵。在個體水平上,根據在訓練集中治療后1年時間點的ROC曲線采记,根據edtCIRI19模型的預測分數將患者分為預后不良和預后良好組(補充圖S3)佣耐。Kaplan-Meier分析顯示,在訓練集和驗證集中唧龄,高風險組的患者預后明顯較差(訓練集HR 0.278兼砖;95% CI 0.141至0.546;p<0.0001既棺;驗證集HR 0.163讽挟;95% CI 0.039至0.678;p=0.0044丸冕;圖3D耽梅、F)。
作者還探討了治療前和治療后6周循環(huán)細胞因子譜的動態(tài)變化是否與患者對抗PD-1/PD-L1免疫治療的生存有關胖烛⊙劢悖基于細胞因子濃度的差異(減法)和變化倍數,作者選擇了17個特征細胞因子(骨橋蛋白佩番、VEGF-A众旗、IL-33、IL-21趟畏、IL-15贡歧、IL-31、IL-2Rα赋秀、CCL11利朵、IL-17A/F、CCL22猎莲、IL-16绍弟、CCL7、CX3CL1益眉、IL-11晌柬、CXCL11姥份、CXCL5和CCL24郭脂;補充圖S4)和20個細胞因子(骨橋蛋白、VEGF-A澈歉、CXCL5展鸡、TGF-β1、骨鈣素埃难、CCL22莹弊、IL-2Rα涤久、IL-15、IL-31忍弛、CCL8响迂、FGF-基本、CCL23细疚、IL-17A蔗彤、IL-16、IL-33疯兼、IL-21然遏、IL-9、IL-27吧彪、IL-22和CCL11待侵;補充圖S5)來構建OS預測模型(以下稱為'diffCIRI17'和'foldCIRI20')。如在線補充圖S4和S5所示姨裸,與edtCIRI19相比秧倾,diffCIRI17和foldCIRI20在抗PD-1/PD-L1免疫治療后的OS預測中在預測準確性和可重復性方面表現較差(圖3)。
3.4聯(lián)合預測模型
最終傀缩,作者通過將細胞因子與其他循環(huán)因子以及已在臨床研究中被證明與免疫治療反應相關的臨床特征相結合中狂,開發(fā)了針對抗PD-1/PD-L1免疫治療患者生存預測的高級預測模型。作者在高級預測模型(以下稱為“preCIRI21”和“edtCIRI27”)中包含了諸如年齡扑毡、性別胃榕、分期、BMI瞄摊、血清白蛋白勋又、NLR、腫瘤PD-L1表達和治療選擇(僅適用于edtCIRI模型)等因素换帜,如圖4和圖5所示楔壤,在訓練集和驗證集中,與僅使用循環(huán)細胞因子相比惯驼,preCIRI21和edtCIRI27在預測效力方面均有所提升蹲嚣。在驗證集中,preCIRI21和edtCIRI27模型的C-指數分別為0.764和0.757祟牲。在個體水平上隙畜,根據preCIRI21和edtCIRI27模型預測得分將患者分為高風險組的患者,其預后明顯較差说贝,低風險組患者的預后較好(preCIRI21模型:HR 0.141议惰,95% CI 0.073至0.273,p<0.0001乡恕;edtCIRI27模型:HR 0.158言询,95% CI 0.021至1.170俯萎,p=0.038)。
3.5循環(huán)細胞因子特征與NSCLC病人預后預測之間的相關性
接下來日矫,作者在個體水平上計算了細胞因子與CIRI評分之間的Spearman相關系數赂弓。在兩個獨立隊列中觀察到了大多數細胞因子水平與CIRI評分之間的顯著相關性(圖6)。在preCIRI14模型中哪轿,基線骨營養(yǎng)素盈魁、CX3CL1、IL-11窃诉、sTNF-R1杨耙、蛋白-3、MMP-1飘痛、APRIL珊膜、IL-1ra、sCD163和CCL20水平與訓練集和驗證集中患者的CIRI評分之間存在顯著正相關關系(圖6A)敦冬。在edtCIRI19模型中辅搬,治療后6周的骨營養(yǎng)素、CX3CL1脖旱、IL-16堪遂、CCL23、IL-1ra萌庆、IL-11溶褪、APRIL、IL-2Rα践险、BAFF和sTNF-R1水平與訓練集和驗證集中患者的CIRI評分之間存在顯著正相關關系(圖6B)猿妈。相反,在治療后6周的骨鈣素與CIRI評分呈負相關(圖6B)巍虫。此外彭则,在preCIRI21的高風險組中,觀察到Alb和BMI水平降低占遥,NLR水平升高以及女性患者比例較高俯抖。在edtCIRI27的高風險組中,觀察到Alb水平降低瓦胎,NLR水平升高以及PD-L1水平較高(見補充材料)芬萍。
4柬祠、小編有話說
- 關于類別不平衡的問題我們之前多次說到過。如果作者可以提供不同結局事件組患者的基線比較就會便于讀者知道是不是存在該問題负芋。另外漫蛔,作者也應該在方法學中提到是否存在這一問題并如何解決;
- 機器學期最初的特征預處理應該更加詳細地說明旧蛾。盡管作者剛開始交代了細胞因子的處理方法惩猫。然而,后續(xù)模型中作者同樣加入了其他臨床變量蚜点;
- 模型評價中轧房,作者從整體和個體對模型展開評價,這是值得學習的绍绘。如果在模型評價中加入校正曲線和決策曲線以及IDI和NRI將更有說服力奶镶。另外,我們之前分享的一篇BMJ的臨床預測模型文章是一個很好的范例陪拘。如何從整體到個體厂镇、再到臨床應用情景,全面評價模型將更具說服力和臨床實用性左刽。