Multi-Omics Signatures Identification for LUAD Prognosis Prediction Model Based on the Integrative Analysis of Immune and Hypoxia Signals
基于免疫和缺氧信號綜合分析的LUAD預(yù)后預(yù)測模型的多組學(xué)特征識別
發(fā)表期刊:Front Cell Dev Biol
發(fā)表日期: 2022 Mar 10
doi:10.3389/fcell.2022.840466
一、背景
????????肺癌是最常見和最嚴重的癌癥類型之一,并在全世界范圍內(nèi)呈現(xiàn)出男女發(fā)病率和死亡率的主要原因。肺腺癌(LUAD)是肺癌最常見的組織學(xué)亞型钉凌,具有異質(zhì)性結(jié)局和不同的治療反應(yīng)榆浓。然而升薯,對LUAD啟動和進展背后的潛在機制的理解仍然有限。越來越多的證據(jù)表明右遭,免疫與缺氧在腫瘤微環(huán)境中的相互作用具有臨床意義懈叹。
????????腫瘤微環(huán)境(TME)由腫瘤細胞乖杠、內(nèi)皮細胞、免疫細胞项阴、成纖維細胞、巨噬細胞和細胞外基質(zhì)組成笆包,是癌變的關(guān)鍵調(diào)節(jié)因素环揽,對LUAD的啟動、發(fā)展和進展以及對各種治療方法的反應(yīng)有很大影響庵佣。TME的不同組成部分可以調(diào)節(jié)腫瘤的發(fā)展和進展歉胶。在免疫細胞中,活性氧(ROS)是幾種關(guān)鍵功能(如吞噬巴粪、抗原呈現(xiàn)和識別通今、細胞溶解以及表型分化)的媒介,并對T和自然殺傷(NK)細胞產(chǎn)生免疫抑制作用肛根。
二辫塌、材料與方法
1.數(shù)據(jù)來源
TCGA隊列包括510個LUAD原發(fā)性實體瘤樣本和58個正常對照樣本的RNA-seq譜,561個LUAD樣本的WES數(shù)據(jù)派哲,以及455個Illumina 450 k DNA甲基化陣列圖譜臼氨,為了消除多個樣品中FPKM的定量mRNA豐度引起的誤差,將FPKM轉(zhuǎn)換為TPM進行標準化芭届。
2.實驗流程
1) 免疫狀態(tài)的定義:28個免疫細胞亞群的免疫相關(guān)基因(IRGs)來自Charoentong等人(2017)的研究储矩;通過GSEA計算每個樣本的28種免疫細胞類型的富集得分(ES)感耙;生存分析;ESTIMATE算法通過估計不同浸潤基質(zhì)和免疫細胞的比例來生成免疫評分持隧;通過映射RNA-seq圖譜的樣本ID即硼,也為WES和DNA甲基化圖譜的LUAD樣本構(gòu)建了免疫相關(guān)隊列
2)缺氧-免疫相關(guān)亞型的鑒定:從分子標記數(shù)據(jù)庫(MSigDB v7.4)下載缺氧相關(guān)基因(HRGs);應(yīng)用可用于一般非線性降維的均勻流形近似和投影(UMAP)算法來降低HRG表達譜的維度屡拨,并利用潛變量以 "ward.D "聚類法將患者分組
3)多組學(xué)數(shù)據(jù)分析和預(yù)后預(yù)測模型構(gòu)建:兩個隊列之間的差異基因表達分析使用DESeq2軟件包只酥;使用Fisher's精確檢驗來識別差異突變模式;使用CoMEt算法識別共生和互斥突變洁仗;單變量Cox回歸层皱、lasso回歸、多變量Cox回歸
4)功能富集分析:GO分析赠潦;DEG和DMP相關(guān)基因的分析和GSEA是使用R包"clusterProfile "進行的叫胖;GSEA圖是使用R包 "enrichplot "生成的
三、實驗結(jié)果
01 - LUAD的免疫狀態(tài)和免疫相關(guān)的DEGs
????????作者通過GSEA計算了569個樣本(包括510個腫瘤樣本和58個正常樣本)中每個樣本的RNA-seq譜的富集度分數(shù)(ESs)她奥。結(jié)果顯示凸丸,28個免疫細胞中的25個在腫瘤和正常樣本之間有明顯差異。除了活化B細胞愉阎、CD56dim自然殺傷細胞和活化CD4 T細胞外触趴,大多數(shù)免疫細胞在正常樣品中明顯富集,而不是在腫瘤樣品中(圖1A)凡资。此外還觀察到砸捏,幾種免疫細胞的富集程度在不同的腫瘤階段也有明顯的不同。根據(jù)所有腫瘤樣本中28種免疫細胞的ESs譜隙赁,定義了510個原發(fā)腫瘤樣本的免疫狀態(tài)垦藏,并使用 "ward.D "聚類法將相關(guān)的LUAD患者分為兩組,該方法旨在通過根據(jù)聚類方差的變化來選擇合并的聚類伞访,從而找到緊湊的球形聚類(圖1B)掂骏,兩組分別產(chǎn)生215和295名患者。存活率比較顯示兩組之間存在明顯差異厚掷,預(yù)后較好的組被標記為IMMUNITY_H弟灼,其他為IMMUNITY_L。
????????作者接下來探討了IMMUNITY_H和IMMUNITY_L隊列之間的表達變化冒黑,以確定免疫相關(guān)的DEGs田绑,將差異倍數(shù)大于2且FDR小于0.001的基因視為差異表達,其中1118個和628個基因在IMMUNITY_H隊列中分別上調(diào)和下調(diào)(圖1C)抡爹。從結(jié)果中觀察到大多數(shù)趨化因子(如CCR5辛馆、CXCR6和CCL5)是宿主防御的關(guān)鍵介質(zhì),在IMMUNITY_H樣本中明顯上調(diào),并協(xié)調(diào)免疫細胞招募到感染和炎癥部位昙篙。
????????使用clusterProfile軟件包對上調(diào)和下調(diào)的基因進行了功能富集分析腊状。結(jié)果顯示,上調(diào)基因在免疫相關(guān)的生物過程中富集苔可,如T細胞激活和白細胞增殖缴挖,這表明上調(diào)基因在增強腫瘤相關(guān)的免疫力方面發(fā)揮了積極作用(圖1D)。另一方面焚辅,下調(diào)的基因主要富集在與神經(jīng)系統(tǒng)發(fā)育相關(guān)的生物過程中映屋,這表明一些下調(diào)的基因通過影響神經(jīng)系統(tǒng)發(fā)育來調(diào)節(jié)免疫和腫瘤細胞的活動。KEGG通路富集分析結(jié)果也顯示同蜻,上調(diào)的基因主要富集在免疫相關(guān)的通路中棚点,而下調(diào)的基因則富集在與神經(jīng)系統(tǒng)發(fā)育和代謝相關(guān)的通路中。
02 - 缺氧免疫相關(guān)亞型和相關(guān)預(yù)后DEGs的鑒定
????????為了探究每個樣本的缺氧狀態(tài)湾蔓,作者提取了200個與缺氧有關(guān)的標志基因的表達瘫析,然后用UMAP處理。利用UMAP產(chǎn)生的潛在變量默责,進一步將患者分為兩組(圖2A)贬循。兩組中分別有249和261名患者,生存分析顯示兩組之間有明顯的差異(圖2A)桃序。預(yù)后較好的患者被分配到HYPOXIA_L組杖虾,其他患者被分配到HYPOXIA_H組。綜合考慮免疫和缺氧狀態(tài)媒熊,將患者分為三組奇适,即"HYPOXIA_L & IMMUNITY_H"(n = 124),"HYPOXIA_H & IMMUNITY_L"(n = 170)芦鳍,以及 "MIX"(n = 216)嚷往。生存分析結(jié)果顯示,不同組別患者的OS時間有明顯差異(圖2B)怜校,"HYPOXIA_L & IMMUNITY_H "隊列中的患者預(yù)后最好间影,而 "HYPOXIA_H & IMMUNITY_L "的患者預(yù)后最差注竿。
????????作者進一步研究了不同缺氧-免疫狀態(tài)的隊列之間各種臨床特征(如年齡茄茁、臨床分期、腫瘤大小巩割、淋巴結(jié)和遠處轉(zhuǎn)移)的分散性裙顽。通過Cox比例風(fēng)險回歸分析,觀察到OS時間與年齡無關(guān)宣谈。然而愈犹, "HYPOXIA_H & IMMUNITY_L "組的患者明顯比 "HYPOXIA_L & IMMUNITY_H "組的患者年輕(圖2C),這可能解釋了臨床觀察到的年輕肺部患者往往在診斷時傾向于出現(xiàn)晚期疾病,導(dǎo)致生存率極低漩怎。除此之外還觀察到吸煙年限較長的患者往往在高危("HYPOXIA_H & IMMUNITY_L")隊列中富集(圖2D)勋颖。作者還關(guān)注了免疫缺氧狀態(tài)與各種臨床因素之間的關(guān)聯(lián),如性別和臨床分期勋锤。一般來說饭玲,性別與免疫缺氧狀態(tài)無關(guān)(圖2E)。對于臨床分期叁执,觀察到I期患者傾向于預(yù)后好的 "HYPOXIA_L & IMMUNITY_H "隊列茄厘,而III期患者傾向于 "HYPOXIA_H & IMMUNITY_L "隊列(圖2E)。由于所選比較的患者中只有4.48%存在遠處轉(zhuǎn)移谈宛,只考慮 "N"(區(qū)域淋巴結(jié))和 "T"(原發(fā)腫瘤)進行TNM分散分析次哈。結(jié)果顯示,腫瘤大小較高的患者在 "HYPOXIA_H & IMMUNITY_L "組中明顯富集吆录,而含有癌癥的淋巴結(jié)較多的患者在 "HYPOXIA_H & IMMUNITY_L "組中也明顯富集窑滞。這些結(jié)果進一步表明,預(yù)后較差的"HYPOXIA_H & IMMUNITY_L "組的患者往往是高風(fēng)險的径筏。
????????通過比較 "HYPOXIA_L & IMMUNITY_H "和 "HYPOXIA_H & IMMUNITY_L "隊列之間的表達葛假,得到缺氧-免疫相關(guān)的DEGs,最后得到2798個DEGs滋恬。在 "HYPOXIA_H & IMMUNITY_L "隊列中聊训,有1091個基因顯著上調(diào),患者的生存率較低恢氯,被認為是風(fēng)險DEGs(如GAPDH带斑、NTS、LDHA和CDH2)勋拟,而在"HYPOXIA_L & IMMUNITY_H "隊列中勋磕,有1707個基因顯著上調(diào),患者的結(jié)果較好敢靡,被認為是保護性DEGs(如RCSD1挂滓、IL16、PRB4和VEGFD)啸胧。
03 - 比較不同缺氧-免疫狀態(tài)下的體細胞突變
????????在確定了與缺氧-免疫狀態(tài)相關(guān)的基因特征后赶站,作者還探討 "HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "隊列之間基因組水平的改變。這一部分使用了varscan2關(guān)于單核苷酸變體(SNV)纺念、單核苷酸多態(tài)性(SNP)贝椿、插入(INS)和缺失(DEL)的結(jié)果。觀察到在 "HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "隊列中陷谱,大多數(shù)基因組變異是錯義突變(約85%)烙博,而對于大多數(shù)類型,"HYPOXIA_H & IMMUNITY_L "隊列中的樣本所包含的變異數(shù)量明顯高于 "HYPOXIA_L & IMMUNITY_H"(補充圖S2)。所有SNVs的轉(zhuǎn)折(Tv)和過渡(Ti)之間的比率大約為2:1渣窜,并在兩個隊列中保持穩(wěn)定铺根。此外,還觀察到 "HYPOXIA_H & IMMUNITY_L "隊列中患者的TMB明顯大于 "HYPOXIA_L & IMMUNITY_H "的患者乔宿,這也表明 "HYPOXIA_H & IMMUNITY_L "是高風(fēng)險狀態(tài)夷都。
????????在 "HYPOXIA_H & IMMUNITY_L "隊列中,181個基因在10%以上的樣本中發(fā)生突變予颤,而在 "HYPOXIA_L & IMMUNITY_H "隊列中只有44個基因符合這一標準囤官,其中有42個基因是重疊的。圖3A顯示了相應(yīng)隊列中前20個最頻繁突變的基因蛤虐。從結(jié)果中觀察到TP53党饮、TTN和MUC16是相應(yīng)隊列中最頻繁突變基因的前三名。這些基因是相互作用的驳庭,并調(diào)節(jié)各種腫瘤相關(guān)的生物過程刑顺。接下來調(diào)查了前25個經(jīng)常突變的基因的共現(xiàn)和排他性突變(圖3B)。與普遍存在的共同發(fā)生情況(280例)相比饲常,兩個隊列中只有四個獨特的病例表現(xiàn)出相互排斥的突變蹲堂,這表明它們可能在同一途徑中產(chǎn)生冗余效應(yīng),并且它們之間的選擇性優(yōu)勢可以保留多個突變副本贝淤。為了提取體細胞基因組水平的特征柒竞,應(yīng)用Fisher's檢驗來確定兩個隊列之間的差異突變基因,最后有54個基因被認為是顯著差異突變的(圖3C)播聪。從結(jié)果中發(fā)現(xiàn) "HYPOXIA_H & IMMUNITY_L "隊列中的基因突變頻率高于 "HYPOXIA_L & IMMUNITY_H "隊列朽基。為了驗證同一突變可能對不同隊列患者的生存時間產(chǎn)生不同的影響,作者將"HYPOXIA_L & IMMUNITY_H "和"HYPOXIA_H & IMMUNITY_L "隊列的患者分為 "wt "組和 "mut "組离陶。生存分析結(jié)果顯示稼虎,有幾個基因在一個隊列中可以將患者分成兩組,其OS時間明顯不同招刨,而在另一個隊列中則不能霎俩。例如,在 "HYPOXIA_H & IMMUNITY_L "隊列中沉眶,有CRB1突變和無CRB1突變的患者的OS時間有明顯差異打却,而在 "HYPOXIA_L & IMMUNITY_H "中沒有這種明顯差異(圖3D),而TPR顯示了相反的結(jié)果(圖3D)沦寂。
04 - 比較不同缺氧-免疫狀態(tài)下的DNA甲基化水平
????????作者利用Illumina Infinium 450k DNA甲基化數(shù)據(jù)來識別和比較不同缺氧免疫隊列中DNA甲基化模式的影響学密,僅考慮分組為"HYPOXIA_L & IMMUNITY_H "或 "HYPOXIA_H & IMMUNITY_L "的患者淘衙。預(yù)處理后传藏,使用 ChAMP 檢測差異甲基化探針 (DMP) 的 264 個樣本,其中不超過 20% 的探針缺失 β 值,確定了2082個缺氧免疫相關(guān)的DMPs(圖4A)毯侦。與"HYPOXIA_L & IMMUNITY_H "隊列相比哭靖,"HYPOXIA_H & IMMUNITY_L "隊列中發(fā)現(xiàn)了1844個(88.57%)涉及520個基因的低甲基化位置,而只有238個(11.43%)涉及128個基因的位置是顯著低甲基化侈离。這些結(jié)果表明试幽,"HYPOXIA_H & IMMUNITY_L "隊列總體上傾向于有低甲基化的位置。只有3個基因(ZC3H12D卦碾,XKR6铺坞,DIP2C)同時含有高甲基化和低甲基化的位置。在 "HYPOXIA_H & IMMUNITY_L "隊列的這520個低甲基化基因中洲胖,分別有29個和23個基因明顯上調(diào)和下調(diào)济榨。相比之下,高甲基化的基因中只有4個上調(diào)和5個下調(diào)的基因绿映。
????????功能富集分析結(jié)果顯示擒滑,低甲基化的基因主要參與感覺感知、離子運輸和離子平衡叉弦,而高甲基化的基因在發(fā)育和細胞反應(yīng)中發(fā)揮潛在作用(圖4B)丐一。這些DMP相關(guān)基因的基因集富集分析(GSEA)顯示,具有高活性β差異的高甲基化基因?qū)Ω鞣N癌癥相關(guān)途徑如自然殺傷細胞介導(dǎo)的細胞毒性淹冰、Wnt信號通路和MAPK信號通路具有更重要的貢獻(圖4C)库车。
05 - 利用多組學(xué)特征進行預(yù)后預(yù)測
????????在轉(zhuǎn)錄組層面,在 "HYPOXIA_H & IMMUNITY_L "隊列中共發(fā)現(xiàn)了1091個上調(diào)基因和1707個下調(diào)基因樱拴。在基因組水平上凝颇,"HYPOXIA_H & IMMUNITY_L "和"HYPOXIA_H & IMMUNITY_L "隊列中分別發(fā)現(xiàn)了181和44個頻繁突變的基因。在DNA甲基化水平上疹鳄,"HYPOXIA_H & IMMUNITY_L "和"HYPOXIA_H & IMMUNITY_L "隊列中拧略,位于645個注釋基因區(qū)域的2208個DMP中,有1163個是不同的甲基化瘪弓。此外垫蛆,根據(jù)單變量Cox比例風(fēng)險模型,從這些基因改變中篩選出對患者總生存時間有顯著影響的缺氧-免疫相關(guān)的預(yù)后特征腺怯。之后袱饭,選擇了由230個DEGs、9個突變和97個DMPs組成的336項呛占÷枪裕考慮到大量的重要特征和它們之間可能的相互作用,應(yīng)用LASSO Cox回歸模型來評估特征對預(yù)測生存的貢獻程度(圖5A)晾虑,保留了39個特征(27個DEGs疹味,8個突變仅叫,4個DMPs),用逐步法建立多變量的Cox比例風(fēng)險回歸模型糙捺。
????????作者將TCGA樣本隨機分為訓(xùn)練集(n = 295)和獨立測試集(n = 126)诫咱,該過程重復(fù)5次。結(jié)果顯示洪灯,訓(xùn)練模型的性能是滿意的坎缭,平均一致性指數(shù)(C-index)等于0.816。接下來签钩,根據(jù)建立的模型計算每個樣本的風(fēng)險分數(shù)掏呼,訓(xùn)練集1年、3年和5年預(yù)后預(yù)測的平均AUC值達到0.841铅檩、0.86和0.853(圖5B)哄尔。關(guān)于測試集的預(yù)測,1年柠并、3年和5年生存率的平均AUC值等于0.788岭接、0.755和0.805(圖5B)。此外臼予,根據(jù)風(fēng)險評分中位數(shù)將樣本分為高風(fēng)險和低風(fēng)險隊列鸣戴。K-M生存分析顯示,與低風(fēng)險隊列相比粘拾,高風(fēng)險隊列的總生存期更差(補充圖S3)窄锅。
????????作者進一步合并所有TCGA樣本,生成了由19個特征組成的總體預(yù)測模型缰雇,包括11個DEGs入偷、7個突變和1個DMPs(圖5C),從中發(fā)現(xiàn)一些特征如DEGs FSIP2械哟、LINC01697疏之、FAM83A和ADM,最初似乎沒有統(tǒng)計學(xué)意義暇咆,但很可能與其他特征和結(jié)果相關(guān)锋爪。
????????簡而言之,MYT1L爸业、DMD其骄、AHNAK2和MUC5B的突變對更好的預(yù)后有明顯的積極貢獻,而其他的突變則起相反的作用扯旷。此外拯爽,與上述觀察相似,高危人群的總生存時間明顯短于低危人群(圖5D)钧忽。還觀察到毯炮,根據(jù)各自的AUC值逼肯,風(fēng)險評分對1年、3年和5年生存率的鑒別力很高否副,分別為0.819、0.844和0.849(圖5E)崎坊。為了進一步證明整合多組學(xué)特征比使用單組學(xué)特征能提供更穩(wěn)健的預(yù)后預(yù)測备禀,作者對每種類型的組學(xué)數(shù)據(jù)采取了與上述相同的策略。結(jié)果顯示奈揍,沒有任何一個單組學(xué)特征可以提供比綜合模型更強的模型(補充圖S4)曲尸。
????????除了基因改變外,還考慮了一些可能也有預(yù)后能力的臨床因素男翰,如分期另患、性別和年齡。發(fā)現(xiàn)臨床分期與總生存時間顯著相關(guān)蛾绎,但性別和年齡與之無關(guān)(圖5F)昆箕。作者測試了不同的臨床因素與風(fēng)險評分之間的關(guān)聯(lián),發(fā)現(xiàn)III期和II期患者的風(fēng)險評分明顯大于I期(圖5G)租冠。結(jié)合這些臨床因素和風(fēng)險評分鹏倘,建立了一個整合模型,結(jié)果顯示顽爹,通過整合風(fēng)險評分和分期信息纤泵,可以提高預(yù)后能力(C-index = 0.803)。此外镜粤,該模型在1年捏题、3年和5年的生存預(yù)測方面也取得了更好的表現(xiàn)(圖5H)。因此肉渴,由上述19個基因改變組成的多組學(xué)特征可以產(chǎn)生準確的預(yù)后預(yù)測公荧,基于這些多組學(xué)特征計算的風(fēng)險分數(shù)可以被視為一個獨立的預(yù)后指標。
四同规、結(jié)論
????????基于TCGA的表達譜稚矿,作者旨在利用28個免疫細胞亞群的泛癌宏基因和缺氧相關(guān)基因的表達鑒定每個樣本的缺氧和免疫狀態(tài)。把缺氧-免疫狀態(tài)與多組學(xué)基因改變相關(guān)聯(lián)捻浦,以篩選出缺氧-免疫生物標志物晤揣,最后建立一個預(yù)后預(yù)測模型。本研究結(jié)果有望提供一個更全面的缺氧-免疫基因組圖譜朱灿,并可能為LUAD患者提供一個更好的預(yù)后預(yù)測器昧识。