Construction of a solid Cox model for AML patients based on multiomics bioinformatic analysis
基于多組學(xué)生物信息學(xué)分析苛谷,構(gòu)建AML患者的實(shí)體Cox模型
發(fā)表期刊:Front Oncol
發(fā)表日期:2022 Aug 10
影響因子:5.738
DOI:? 10.3389/fonc.2022.925615
一、研究背景
????????急性骨髓性白血病(AML)是一組高度異質(zhì)性的血液惡性腫瘤舱殿,具有各種細(xì)胞遺傳學(xué)和分子異質(zhì)性的特征。一些研究表明往产,AML患者骨髓(BM)微環(huán)境的變化在很大程度上促進(jìn)了白血病發(fā)生粘拾、抗藥性和白血病復(fù)發(fā)的不同生物過程。AML的BM微環(huán)境由白血病細(xì)胞胳蛮、基質(zhì)細(xì)胞、內(nèi)皮細(xì)胞和不同的免疫細(xì)胞亞群組成丛晌。
????????白血病的免疫微環(huán)境呈現(xiàn)出免疫失調(diào)和抑制仅炊,導(dǎo)致抑制性T細(xì)胞和效應(yīng)性T細(xì)胞的不平衡,T細(xì)胞衰竭澎蛛,與正常骨髓組織相比抚垄,骨髓源性抑制細(xì)胞(MDSCs)和支持白血病的巨噬細(xì)胞增加。最近關(guān)于白血病免疫微環(huán)境特征的研究可以幫助尋找新的預(yù)后生物標(biāo)志物和潛在的治療目標(biāo)。
二呆馁、材料與方法
1桐经、數(shù)據(jù)來源
1)TCGA:151例的mRNA數(shù)據(jù)、188例的miRNA數(shù)據(jù)和140例的甲基化數(shù)據(jù)浙滤;篩選后有97名患者進(jìn)行研究
2)獨(dú)立驗(yàn)證隊(duì)列阴挣,GSE106291數(shù)據(jù)集(251個(gè)樣本)
3)單細(xì)胞RNA序列數(shù)據(jù)集GSE116256,包括16個(gè)未處理的樣本(D0)纺腊,被用來揭示免疫細(xì)胞類型中樞紐基因的分布
4)免疫基因集畔咧,包括776個(gè)基因
5)實(shí)驗(yàn):55名新診斷的AML患者
2、分析流程
1)候選基因的篩選和分層聚類:DESeq2分析mRNA和miRNA表達(dá)的差異揖膜;使用methylmix軟件包來分析基因甲基化水平和mRNA表達(dá)值之間的相關(guān)性誓沸;基于生存相關(guān)的免疫基因(SIGs)進(jìn)行無監(jiān)督的層次聚類,建立TCGA-AML患者的免疫基因組分類
2)免疫浸潤分析:單樣本基因集富集分析(ssGSEA)壹粟;ESTIMATE算法拜隧,計(jì)算基質(zhì)、免疫和估計(jì)分?jǐn)?shù)
3)蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)的構(gòu)建和基因本體論功能富集分析:mRNA相互作用數(shù)據(jù)來自STRING數(shù)據(jù)庫趁仙;使用DAVID進(jìn)行GO富集分析
4)生存分析和預(yù)后模型的構(gòu)建:構(gòu)建Cox回歸模型洪添、LASSO汤善、生存分析
5)scRNA數(shù)據(jù)集分析:采用Seurat和SingleR軟件包來生成統(tǒng)一模態(tài)近似和投影(UMAP)圖镇匀,并揭示樞紐基因在每種免疫細(xì)胞類型中的分布
6)分子對接:使用AutoDock Vina 1.1.2進(jìn)行分子對接的虛擬篩選,預(yù)測最可能的最佳配體郑兴;從蛋白質(zhì)數(shù)據(jù)庫檢索了樞紐基因的三維結(jié)構(gòu)坐儿;從ZINC15類藥物數(shù)據(jù)庫中提取了2115種FDA批準(zhǔn)的化合物庫
流程圖
三律胀、實(shí)驗(yàn)結(jié)果
01 - 基于對患者預(yù)后有顯著影響的免疫相關(guān)基因的AML分類
????????為了更廣泛地研究AML中的免疫基因,從TCGA數(shù)據(jù)庫中檢索了97個(gè)樣本的轉(zhuǎn)錄組貌矿、microRNA和DNA甲基化譜數(shù)據(jù)并整合了臨床信息炭菌。采用Cox比例風(fēng)險(xiǎn)回歸模型對97個(gè)樣本mRNA表達(dá)數(shù)據(jù)中的776個(gè)免疫相關(guān)基因進(jìn)行分析,確定了98個(gè)顯著影響AML患者生存的生存相關(guān)免疫基因(SIGs)逛漫。
????????利用98個(gè)SIGs的無監(jiān)督聚類分析黑低,根據(jù)基因表達(dá)特征,將這97個(gè)樣本聚類為三個(gè)不同的免疫亞型(Im1:免疫群1酌毡,Im2:免疫群2克握,Im3:免疫群3)(圖1A)。如免疫基因熱圖所示枷踏,大多數(shù)SIG在Im1和Im3群中高表達(dá)菩暗,但在Im2群中低表達(dá)(圖1B)。Kaplan-Meier生存分析顯示旭蠕,Im2群組的預(yù)后明顯好于Im1和Im3群組(圖1C)停团。
????????由于免疫微環(huán)境與AML的發(fā)生和發(fā)展明顯相關(guān)旷坦,因此利用單樣本基因集富集(ssGSEA)算法來探索三個(gè)免疫群中免疫微環(huán)境的差異。結(jié)果顯示佑稠,Im2集群的浸潤性免疫細(xì)胞比Im1和Im3集群少(圖2A)秒梅。一致的發(fā)現(xiàn)表明,Im2簇的免疫評分明顯較低(圖2B)舌胶,而Im2簇的腫瘤純度明顯較高捆蜀,但I(xiàn)m1和Im3簇的腫瘤純度則明顯較低(圖2C)♂I可以得出結(jié)論辆它,免疫浸潤少、免疫分?jǐn)?shù)低的患者可能比免疫浸潤多婉烟、免疫分?jǐn)?shù)高的患者預(yù)后好娩井。
02 - 通過對數(shù)據(jù)綜合分析暇屋,篩選出19個(gè)樞紐基因
????????基于Im2群和Im1/3群在免疫浸潤和生存趨勢上的顯著差異似袁,作者將Im2定義為缺乏免疫浸潤的亞型(IL型),Im1/3定義為免疫浸潤豐富的亞型(IR型)咐刨。為了揭示IL和IR亞型之間不同預(yù)后的潛在機(jī)制昙衅,對兩種類型的AML患者的mRNA表達(dá)譜進(jìn)行了詳細(xì)分析。進(jìn)行差異表達(dá)基因分析定鸟,發(fā)現(xiàn)1936個(gè)差異表達(dá)基因(DEGs)在IL和IR亞型之間存在顯著差異而涉。有42個(gè)SIG-DEGs是1936個(gè)DEGs和98個(gè)SIGs的共同成員(圖3A,B)联予。
????????為了闡明IL和IR亞型預(yù)后差異的機(jī)制啼县,從STRING網(wǎng)站獲得了42個(gè)DEG-SIGs的相互作用數(shù)據(jù),然后用Cytoscape構(gòu)建蛋白-蛋白相互作用(PPI)網(wǎng)絡(luò)(圖3C)沸久〖揪欤基因本體論(GO)功能富集分析區(qū)分了三個(gè)子本體中的一些富集術(shù)語:生物過程(BP)、細(xì)胞成分(CC)和分子功能(MF)(圖3D)卷胯。在BP方面子刮,42個(gè)DEG-SIGs富集在防御反應(yīng)、炎癥反應(yīng)和免疫系統(tǒng)過程中窑睁。在CC方面挺峡,42個(gè)DEG-SIGs富集于整合素復(fù)合體、質(zhì)膜外側(cè)和細(xì)胞表面担钮。對于MF橱赠,42個(gè)DEG-SIGs在細(xì)胞部分、三級顆粒和整個(gè)膜中富集箫津。這些結(jié)果可能部分地說明了42個(gè)DEG-SIGs影響AML患者預(yù)后的潛在機(jī)制狭姨。
????????考慮到白血病發(fā)生和發(fā)展的復(fù)雜機(jī)制吓著,接下來進(jìn)行綜合多組學(xué)分析,以確定與預(yù)后相關(guān)的樞紐基因送挑。比較IL和IR亞型之間患者的miRNA表達(dá)譜绑莺,發(fā)現(xiàn)有93個(gè)miRNA有明顯的差異表達(dá)(圖4A)。使用DIANO TOOLS/microT-CDS共鑒定了7294個(gè)目標(biāo)miRNA基因(TDEmiRs)惕耕。通過綜合生物信息學(xué)分析纺裁,從42個(gè)DEG-SIGs和7294個(gè)TDEmiRs中選出了IL和IR亞型之間的15個(gè)常見差異表達(dá)基因(圖4C)。
????????對mRNA和甲基化特征的綜合分析表明司澎,355個(gè)基因的mRNA表達(dá)水平和甲基化程度之間存在明顯的負(fù)相關(guān)欺缘。當(dāng)這355個(gè)甲基化相關(guān)基因(MethylCor)與42個(gè)DEG-SIGs交叉比對時(shí),發(fā)現(xiàn)了6個(gè)與免疫浸潤相關(guān)的常見基因挤安,以及IL和IR亞型之間的差異表達(dá)谚殊、甲基化和預(yù)后(圖4B,C )蛤铜。
03 - 構(gòu)建了一個(gè)基于5個(gè)hub基因的預(yù)后模型
????????在觀察到IL和IR類型之間的免疫浸潤嫩絮、基因表達(dá)和臨床行為的明顯差異后,作者接下來結(jié)合microRNA和表觀遺傳調(diào)控?cái)?shù)據(jù)围肥,建立了一個(gè)基于19個(gè)免疫相關(guān)DEGs的LASSO-Cox比例危害回歸模型剿干。利用LASSO模型,建立了一個(gè)基于5個(gè)樞紐基因的分類器來預(yù)測AML的預(yù)后(風(fēng)險(xiǎn)分?jǐn)?shù)=-0.086×ADAMTS3 + 0.180×CD52 + 0.472×CLCN5 - 0.356×HAL + 0.368×ICAM3)(圖5A, B )穆刻。KM圖顯示了不同亞型患者之間的OS差異(圖5C)置尔,ROC曲線表明該模型可以有效預(yù)測AML的1年、3年和5年的預(yù)后(AUC分別=0.82氢伟、0.83榜轿、0.99)(圖5D)。與早期的分析一致朵锣,發(fā)現(xiàn)TCGA-AML資料的151個(gè)mRNA樣本有類似的預(yù)測性能(圖5E, F )谬盐。
????????為了進(jìn)一步測試這個(gè)模型,從GEO數(shù)據(jù)庫中獲得了驗(yàn)證隊(duì)列(GSE106291)猪勇,1年设褐、3年和5年的KM圖和ROC曲線證實(shí)了基于5-hub基因的模型的預(yù)后價(jià)值(圖5G,H)泣刹。按疾病分類分層后助析,結(jié)果顯示,IL型的風(fēng)險(xiǎn)得分明顯低于IR型椅您。這些評價(jià)表明外冀,基于5-hub基因的模型可以在傳統(tǒng)分配的風(fēng)險(xiǎn)組中識(shí)別出一批高危患者掀泳,并可指導(dǎo)臨床實(shí)踐雪隧。
????????為了驗(yàn)證基于5-hub基因模型的預(yù)后價(jià)值西轩,收集了200名新診斷的AML患者中檢測到的6575個(gè)基因突變和55名新診斷的AML患者(新橋醫(yī)院)中檢測到的38個(gè)基因突變。常見的突變基因是DNMT3A脑沿、IDH1藕畔、NRAS、RUNX1和TET2庄拇。在這個(gè)模型分類中注服,通過卡方檢驗(yàn)考慮,高風(fēng)險(xiǎn)與RUNX1和TET2的突變有明顯關(guān)系措近。對55名有預(yù)后信息的患者進(jìn)行KM分析表明溶弟,RUNX1(圖6A)和TET2(圖6B)突變的患者與預(yù)后不良相關(guān),中位生存期較短瞭郑。
04 - hub基因在AML患者的免疫細(xì)胞中的多樣化分布
????????為了探索這5個(gè)樞紐基因在AML發(fā)病機(jī)制中的價(jià)值辜御,作者進(jìn)一步確定了單細(xì)胞測序數(shù)據(jù)集GSE116256,利用Seurat軟件包進(jìn)行聚類屈张,SingleR軟件包進(jìn)行注釋擒权,描述這5個(gè)樞紐基因在免疫細(xì)胞中的分布(圖7A)。如散點(diǎn)圖(圖7B)和小提琴圖(圖7C)所示袜茧,CD52菜拓、ICAM3和CLCN5在粒細(xì)胞瓣窄、單核細(xì)胞笛厦、T淋巴細(xì)胞、B淋巴細(xì)胞俺夕、樹突狀細(xì)胞和NK細(xì)胞中廣泛表達(dá)裳凸,而ADAMTS3在這些細(xì)胞中很少表達(dá)。HAL在粒細(xì)胞和單核細(xì)胞中高度表達(dá)劝贸,但在其他免疫細(xì)胞中很少表達(dá)姨谷。據(jù)此,我們假設(shè)這些樞紐基因通過調(diào)節(jié)特定細(xì)胞的基因表達(dá)發(fā)揮各種作用映九。蛋白質(zhì)圖譜數(shù)據(jù)庫中血細(xì)胞的樞紐基因表達(dá)進(jìn)一步證實(shí)了這一結(jié)果梦湘。
05 - 對樞紐基因的最佳匹配化合物的調(diào)查
????????為了研究最合適的化合物,作者利用CD52件甥、CLCN5捌议、ICAM3的三維結(jié)構(gòu)和ZINC15數(shù)據(jù)庫中2115個(gè)FDA批準(zhǔn)的化合物進(jìn)行了分子對接的虛擬篩選。前兩個(gè)命中的化合物對各自靶點(diǎn)的預(yù)測結(jié)合親和力從高到低排列引有。這些蛋白質(zhì)和候選化合物的最可能的相互作用的二維可視化表示在圖8中瓣颅。
四、結(jié)論
????????利用多組學(xué)分析和驗(yàn)證方法譬正,作者構(gòu)建并驗(yàn)證了一個(gè)新型的宫补、基于5個(gè)樞紐基因的模型檬姥,該模型可以進(jìn)行穩(wěn)健的風(fēng)險(xiǎn)分層,并有利于鑒定AML的預(yù)后情況粉怕。通過scRNA測序分析健民,揭示了5個(gè)樞紐基因在免疫細(xì)胞中的分布。此外贫贝,對已知蛋白結(jié)構(gòu)的三個(gè)基因(CD52荞雏、CLCN5和ICAM3)進(jìn)行了虛擬篩選,發(fā)現(xiàn)了與之結(jié)合能量最低的化合物平酿,這為進(jìn)一步尋找靶向抑制劑提供了思路凤优。