Multi-omics Data Analyses Construct TME and Identify the Immune-Related Prognosis Signatures in Human LUAD
多組學(xué)數(shù)據(jù)分析構(gòu)建TME并識(shí)別人類LUAD中與免疫相關(guān)的預(yù)后特征
發(fā)表期刊:Mol Ther Nucleic Acids
發(fā)表日期:2020 Sep 4
影響因子:7.032
DOI:??10.1016/j.omtn.2020.07.024
一录煤、研究背景
肺癌是所有癌癥類型中發(fā)病率和死亡率最高的癌癥辐赞。許多流行病學(xué)調(diào)查和實(shí)驗(yàn)研究認(rèn)為响委,LUAD的發(fā)生和發(fā)展主要與環(huán)境因素和基因改變有關(guān)。到目前為止夹囚,與基因相關(guān)的治療策略主要有兩類邀窃,即靶向治療和免疫治療瞬捕。
TME通常被定義為腫瘤周圍的環(huán)境肪虎,其中包括細(xì)胞外基質(zhì)、血管以及免疫細(xì)胞和神經(jīng)元等細(xì)胞角色刑枝,所有這些都與腫瘤的進(jìn)展和治療結(jié)果有很大的關(guān)系。越來越多的研究通過實(shí)驗(yàn)闡明了TME浸潤(rùn)在各種癌癥類型的免疫治療反應(yīng)和耐藥中的貢獻(xiàn)作用靠娱,并探討了它們對(duì)患者預(yù)后的影響像云。
二蚂夕、材料與方法
1?數(shù)據(jù)來源
TCGA:535個(gè)LUAD樣本和59個(gè)正常對(duì)照樣本的RNA-seq圖譜數(shù)據(jù)双抽,561個(gè)LUAD樣本的WES數(shù)據(jù)牍汹,以及504個(gè)Illumina 450k DNA甲基化陣列的圖譜數(shù)據(jù)
?2?分析流程
1)TME構(gòu)建:采用ESTIMATE算法構(gòu)建TME免疫評(píng)分的中位數(shù)分為高免疫組(n = 268)和低免疫組(n = 267)柬泽;使用CIBERSORT計(jì)算每個(gè)樣本的浸潤(rùn)免疫含量锨并;對(duì)于WES和甲基化譜的LUAD樣本,通過映射RNA-seq譜的樣本ID構(gòu)建了一個(gè)高免疫隊(duì)列和一個(gè)低免疫隊(duì)列
2)多組學(xué)數(shù)據(jù)分析:分析高免疫隊(duì)列和低免疫隊(duì)列之間的基因表達(dá)解幼、體細(xì)胞突變和DNA甲基化的差異撵摆;WES數(shù)據(jù)用于檢測(cè)SNVs特铝、SNPs和INDELs壹瘟;CoMEt算法識(shí)別共存和互斥突變稻轨,包maftools用于創(chuàng)建體細(xì)胞突變的可視化;R包ChAMP用于處理甲基化陣列數(shù)據(jù)笆呆,篩選出缺失值超過20%的樣本赠幕,使用451個(gè)樣本,進(jìn)一步分為高免疫隊(duì)列219個(gè)樣本和低免疫隊(duì)列232個(gè)樣本竖慧;limma軟件包和Bumphunter算法分別識(shí)別差異甲基化探針和區(qū)域圾旨;利用Pearson相關(guān)性研究探針信號(hào)與基因表達(dá)水平之間的相關(guān)性魏蔗,并從所有探針中隨機(jī)選取與真DMP集相同數(shù)量的探針莺治,構(gòu)建100個(gè)隨機(jī)集
3)功能豐富性分析:R軟件包c(diǎn)lusterProfiler
4)臨床相關(guān)性:Kaplan-Meier生存分析
5)預(yù)后預(yù)測(cè)模型的建立和評(píng)價(jià):?jiǎn)巫兞緾ox谣旁、lasso回歸模型、多變量Cox砌们;R軟件包timeROC繪制ROC曲線評(píng)價(jià)模型
三浪感、結(jié)果展示
01 -?在LUAD建造TME并剖析浸潤(rùn)性免疫內(nèi)容
為了評(píng)估浸潤(rùn)的基質(zhì)細(xì)胞和免疫細(xì)胞的腫瘤相關(guān)效應(yīng)篮撑,通過使用ESTIMATE算法匆瓜,根據(jù)TCGA表達(dá)譜初步建立TME驮吱。ESTIMATE產(chǎn)生一個(gè)被稱為 "estimate score"的指數(shù),全面推斷腫瘤的純度桐筏。如圖1A所示梅忌,與正常樣本相比,LUAD樣本的estimatescore分布明顯偏低琼腔,基質(zhì)得分和免疫得分也是如此丹莲。
接下來甥材,研究腫瘤純度與臨床因素之間的關(guān)系性含。如結(jié)果所示(圖S1A)商蕴,estimate score在腫瘤大小究恤、遠(yuǎn)處轉(zhuǎn)移和腫瘤階段上有顯著差異后德。對(duì)比顯示瓢湃,I期樣本的estimate score明顯高于III期和IV期樣本绵患。此外,與高分(高于中位數(shù))隊(duì)列中的患者相比织狐,低estimate score(低于中位數(shù))隊(duì)列中的患者預(yù)后較差(圖S1A)移迫。
從TNM分期系統(tǒng)方面來看厨埋,不同腫瘤大小的免疫評(píng)分有顯著差異捐顷,但淋巴結(jié)和遠(yuǎn)處轉(zhuǎn)移沒有差異(圖1D-1F)。綜合TNM分期分類方面徽龟,如圖1B所示蛹头,早期和晚期的免疫評(píng)分有顯著差異渣蜗,其中I期的免疫評(píng)分顯著高于III期和IV期耕拷。相比之下骚烧,基質(zhì)評(píng)分僅與遠(yuǎn)處轉(zhuǎn)移顯著相關(guān),而非腫瘤大小既峡、淋巴結(jié)和分期(圖S1B)运敢。較高的免疫評(píng)分與較長(zhǎng)的總生存時(shí)間顯著相關(guān)(圖1C)传惠,而基質(zhì)評(píng)分與患者預(yù)后無顯著相關(guān)性(圖S1B)稻扬。
由于免疫浸潤(rùn)水平和細(xì)胞組成與腫瘤進(jìn)展和患者結(jié)局密切相關(guān),將LUAD樣本利用其免疫評(píng)分中位數(shù)分為高免疫隊(duì)列和低免疫隊(duì)列酗宋,并利用CIBERSORT進(jìn)一步表征細(xì)胞組成疆拘,探討免疫細(xì)胞亞群與臨床特征之間的關(guān)系哎迄。剔除CIBERSORT產(chǎn)生的P值大于0.05的樣本漱挚。共保留468個(gè)樣本旨涝,其中203個(gè)屬于低免疫力隊(duì)列,265個(gè)屬于高免疫力隊(duì)列慨默。
將每個(gè)樣本的免疫含量剖析為22種免疫細(xì)胞成員厦取。高免疫隊(duì)列中記憶B細(xì)胞蒜胖、CD8 T細(xì)胞、活化的記憶CD4T細(xì)胞寻狂、M1巨噬細(xì)胞蛇券、靜止的樹突狀細(xì)胞纠亚、活化的肥大細(xì)胞和γdelta T細(xì)胞的比例明顯較大蒂胞,而漿細(xì)胞、M0巨噬細(xì)胞和活化的樹突狀細(xì)胞的比例較小 (圖1G)赴叹。在考慮免疫評(píng)分與上述檢測(cè)到的臨床因素之間的關(guān)系的同時(shí)指蚜,推測(cè)不同的免疫細(xì)胞成員可能對(duì)患者的結(jié)果有不同的貢獻(xiàn)摊鸡,檢測(cè)到記憶B細(xì)胞免猾、CD8 T細(xì)胞掸刊、M0巨噬細(xì)胞、M2巨噬細(xì)胞和活化樹突狀細(xì)胞在TNM階段石窑、腫瘤大小或淋巴結(jié)上有顯著差異松逊,而其他細(xì)胞亞群在所有臨床因素中似乎沒有統(tǒng)計(jì)學(xué)意義(圖1H)经宏。此外烁兰,盡管組合顯示出辨別力(圖1C)沪斟,單一類型的細(xì)胞成員對(duì)LUAD的患者總體生存率貢獻(xiàn)不大(圖1H)主之。
02 -?免疫浸潤(rùn)依賴性差異化表達(dá)基因的鑒定
利用TCGA的LUAD樣本表達(dá)譜來鑒別高免疫組和低免疫組之間的表達(dá)變化槽奕,其中高免疫隊(duì)列中分別有611個(gè)和164個(gè)基因上調(diào)和下調(diào)(圖2A)粤攒。發(fā)現(xiàn)CXCR4和CCL8等29個(gè)趨化因子顯著上調(diào)(圖2B)琼讽,這些因子能夠調(diào)節(jié)多種免疫細(xì)胞對(duì)腫瘤的招募钻蹬。
使用clusterProfiler進(jìn)行功能富集分析问欠,發(fā)現(xiàn)上調(diào)的基因富集在免疫相關(guān)的生物過程中(圖2C),表明它們?cè)谠鰪?qiáng)腫瘤相關(guān)免疫力方面具有積極作用旗国。此外能曾,一些上調(diào)的基因如LILRB4交播、RUNX3和CXCR3已在先前的研究中被實(shí)驗(yàn)驗(yàn)證為調(diào)節(jié)T細(xì)胞活化和支持腫瘤浸潤(rùn)抢埋。另外驹暑,下調(diào)的基因主要富集在代謝過程中(圖2D)优俘,推測(cè)一些下調(diào)基因利用代謝開關(guān)調(diào)控免疫細(xì)胞和腫瘤細(xì)胞的活動(dòng)帆焕。
03 - 不同免疫滲透水平下的體細(xì)胞突變比較
在檢測(cè)到上述部分的轉(zhuǎn)錄改變后视搏,進(jìn)一步研究了是否有證據(jù)表明高免疫力和低免疫力隊(duì)列的基因組層存在差異∠馗ぃ基于TCGA門戶網(wǎng)站的WES數(shù)據(jù)浑娜,如圖3A和圖S3A所示,在高免疫力和低免疫力人群中式散,大多數(shù)基因變異都是錯(cuò)義突變(約60%)筋遭。從全局的角度來看,低免疫隊(duì)列的樣本持有的變異數(shù)量明顯多于高免疫隊(duì)列的樣本。
SNV方面漓滔,高免疫和低免疫隊(duì)列中所有樣本共檢測(cè)到64,344和88,708個(gè)SNV编饺,其中C>A是高免疫隊(duì)列和低免疫隊(duì)列中最常見的類型响驴。無論SNV的類型如何透且,低免疫隊(duì)列中的突變數(shù)都顯著高于高免疫隊(duì)列中的突變數(shù)(圖3B)。所有SNVs的轉(zhuǎn)座(Tv)和轉(zhuǎn)座(Ti)之間的比例約為2:1豁鲤,并且在兩個(gè)隊(duì)列中保持穩(wěn)定(圖S3D)秽誊。此外,高免疫隊(duì)列中的SNPs琳骡、INSs和DELs也被低免疫隊(duì)列中的SNP超過(圖3C)锅论。相比高免疫力隊(duì)列中的樣本,低免疫力隊(duì)列中的樣本具有明顯較高的變異等位基因分?jǐn)?shù)(VAFs)水平(圖3D)楣号。盡管兩個(gè)免疫隊(duì)列中4種類型的體細(xì)胞突變的變異數(shù)量存在顯著差異最易,但所有變異中所占據(jù)的每個(gè)突變類型的內(nèi)成分比幾乎保持不變(圖S3A-3C),這表明所觀察到的突變數(shù)量的差異不是由類型轉(zhuǎn)移引起的炫狱。
在低免疫力隊(duì)列中藻懒,129個(gè)基因在10%以上的樣本中發(fā)生了突變,而在高免疫力隊(duì)列中毕荐,只有62個(gè)基因符合這一標(biāo)準(zhǔn)束析,其中有56個(gè)基因發(fā)生了重疊。相應(yīng)隊(duì)列中最常突變的15個(gè)基因見圖3E憎亚,TP53员寇、TTN和MUC16在兩個(gè)隊(duì)列中都占據(jù)了前三位的位置,而且它們之間存在相互作用第美。
接下來蝶锋,利用CoMEt算法研究了前25個(gè)最常突變基因的共現(xiàn)和排他性突變情況,與普遍的共現(xiàn)情況相比什往,有兩個(gè)隊(duì)列(KRAS-TP53扳缕、KRAS-TNR和STK11-TP53)中有3個(gè)獨(dú)特的病例在表現(xiàn)出排他性突變(圖3J),這表明它們可能在同一途徑中產(chǎn)生冗余效應(yīng)别威,并且它們之間具有選擇優(yōu)勢(shì)躯舔,可以保留一個(gè)以上的突變拷貝。
有些基因在兩組之間有差異性突變頻率省古。檢測(cè)到268個(gè)差異突變基因粥庄,按p值升序排序,前10名如圖3F所示豺妓。不同的變異可能會(huì)對(duì)患者的其他基因改變甚至臨床結(jié)果產(chǎn)生不同的影響惜互。沒有SNPs的KRAS的表達(dá)水平在高免疫和低免疫隊(duì)列之間有顯著差異布讹,但當(dāng)SNP rs121913530(C>A)存在時(shí),則相反(圖3I)训堆。此外描验,STK11是另一個(gè)典型的例子,以證明兩個(gè)隊(duì)列之間不同的突變點(diǎn)(圖3G)和預(yù)后影響差異的合理連鎖反應(yīng)(圖3H)坑鱼。
04 -?TIME描繪LUAD的DNA甲基化模式
未能維持正常的DNA甲基化膘流,其中包括CpG島的低甲基化和CpG貧乏區(qū)域的低甲基化,增加了觸發(fā)腫瘤形成和惡化的敏感性姑躲。因此睡扬,接下來使用來自TCGA的甲基化數(shù)據(jù)檢測(cè)和比較不同免疫隊(duì)列中DNA甲基化模式的影響。
451個(gè)樣本中共鑒定了5,764個(gè)免疫相關(guān)的差異甲基化探針DMPs(圖4A)黍析。與低免疫力人群相比卖怜,高免疫力人群共檢測(cè)到高甲基化位點(diǎn)5647個(gè),涉及2386個(gè)基因阐枣,其中2221個(gè)位點(diǎn)位于1687個(gè)CpG島上马靠。相比之下,低甲基化位點(diǎn)的數(shù)量大大超過了68個(gè)基因相關(guān)的117個(gè)位點(diǎn)蔼两,位于56個(gè)CpG島上甩鳄。因此,高免疫群整體上傾向于有低甲基化的位置额划,但低甲基化只發(fā)生在少數(shù)基因上妙啃。此外,還發(fā)現(xiàn)許多DMP相關(guān)基因在兩個(gè)隊(duì)列之間有差異表達(dá)俊戳。從高免疫隊(duì)列中的2386個(gè)低甲基化基因中揖赴,有63個(gè)上調(diào)和32個(gè)下調(diào)的DEG(圖4B)。然而抑胎,從低甲基化基因組中燥滑,只檢測(cè)到7個(gè)上調(diào)的DEGs。
在基因本體分析的基礎(chǔ)上阿逃,對(duì)DMP相關(guān)基因的功能進(jìn)行了研究铭拧。前15位富集的生物過程中,F(xiàn)DR最低的GO項(xiàng)表明它們?cè)诩?xì)胞分化和發(fā)育中的潛在作用(圖4G)恃锉。DMP相關(guān)基因的基因集富集分析(GSEA)表明搀菩,具有高度正β差異的高甲基化基因?qū)δ[瘤相關(guān)神經(jīng)生物學(xué)過程有更重要的貢獻(xiàn)(圖4D),說明異常甲基化誘導(dǎo)的腫瘤免疫攻擊行為是通過對(duì)神經(jīng)通路的識(shí)別和參與實(shí)現(xiàn)的破托。
考慮到先前關(guān)于DNA甲基化和基因表達(dá)水平之間相關(guān)性的發(fā)現(xiàn)肪跋,推測(cè)在本研究中是否存在類似的現(xiàn)象,以及在不同的免疫水平上這種趨勢(shì)是否穩(wěn)定炼团。結(jié)果表明澎嚣,在2441個(gè)DMP相關(guān)基因中,高免疫組有329個(gè)正相關(guān)基因和926個(gè)負(fù)相關(guān)基因瘟芝,低免疫組有346個(gè)正相關(guān)基因和939個(gè)負(fù)相關(guān)基因易桃。與使用隨機(jī)選擇的探針構(gòu)建的100個(gè)隨機(jī)集的相關(guān)系數(shù)的相對(duì)平衡分布相比,與DMP相關(guān)基因相關(guān)的探針信號(hào)容易與表達(dá)水平負(fù)相關(guān)(圖4C)锌俱。
免疫水平不影響甲基化水平和表達(dá)水平之間的相關(guān)性晤郑,這由圖4E所示的兩個(gè)隊(duì)列間相關(guān)系數(shù)的高度一致性所支持,兩個(gè)隊(duì)列之間負(fù)相關(guān)(圖5B中的Venn圖)或正相關(guān)(圖5A中的Venn圖)基因集的大量重疊贸宏。在低免疫組和高免疫組中造寝,這些一致的正相關(guān)和負(fù)相關(guān)基因分別在免疫系統(tǒng)和細(xì)胞增殖中富集,而趨勢(shì)不一致的基因則有其獨(dú)特的功能吭练。例如诫龙,低免疫力隊(duì)列中獨(dú)特的正相關(guān)基因可以參與突觸相關(guān)功能(圖5A)。此外鲫咽,正相關(guān)基因的探針更常位于基因體和3′UTR區(qū)域签赃,而負(fù)相關(guān)基因的探針更傾向于與啟動(dòng)子相鄰的區(qū)域(圖4F),說明DNA甲基化對(duì)表達(dá)的影響存在區(qū)域差異分尸。
05 -?多組學(xué)特征提供準(zhǔn)確的預(yù)后預(yù)測(cè)方法
為了從眾多的基因改變中找出免疫相關(guān)的預(yù)后信號(hào)锦聊,采用了基于lasso回歸和Cox比例危險(xiǎn)回歸的策略。還分別研究了三種改變的聯(lián)合效應(yīng)和單獨(dú)效應(yīng)箩绍,以確定哪種模型的性能最好孔庭。
首先,對(duì)于聯(lián)合效應(yīng)材蛛,將所有的基因改變進(jìn)行合并圆到,其中由DEGs、5個(gè)突變和217個(gè)DMPs組成的337個(gè)變量仰税,采用單變量Cox比例危險(xiǎn)模型確定對(duì)患者的總生存時(shí)間的顯著獨(dú)立影響构资。采用lasso回歸模型刪除貢獻(xiàn)較小的變量,在最優(yōu)參數(shù) (圖6A)下陨簇,保留52個(gè)變量吐绵,建立多變量Cox比例危害回歸模型。隨機(jī)將TCGA樣本分為訓(xùn)練集和獨(dú)立測(cè)試集(n=142)河绽。在結(jié)果中(圖S6)己单,訓(xùn)練模型的平均協(xié)整指數(shù)(C-index)等于0.839。其次耙饰,根據(jù)建立的模型計(jì)算每個(gè)樣本的風(fēng)險(xiǎn)評(píng)分纹笼,訓(xùn)練集上1年、3年苟跪、5年預(yù)后預(yù)測(cè)的AUC均值分別達(dá)到0.871廷痘、0.875蔓涧、0.928。在測(cè)試集的預(yù)測(cè)方面, 1年笋额、3年和5年生存期的AUC均值分別為0.796元暴、0.786和0.777。此外兄猩,按風(fēng)險(xiǎn)評(píng)分中位數(shù)將樣本分為高風(fēng)險(xiǎn)和低風(fēng)險(xiǎn)隊(duì)列(圖6F)茉盏。生存分析(圖6G)顯示,與低風(fēng)險(xiǎn)隊(duì)列相比枢冤,高風(fēng)險(xiǎn)隊(duì)列的總體生存率較差鸠姨。
考慮到上述構(gòu)建的模型具有很好的魯棒性和有效性,再結(jié)合所有TCGA樣本淹真,生成一個(gè)由27個(gè)變量組成的整體預(yù)測(cè)模型(圖6D)讶迁。此外,與上述發(fā)現(xiàn)一致核蘸,根據(jù)生存分析的結(jié)果添瓷,高危隊(duì)列的預(yù)后比低危隊(duì)列差(圖5F和5G)。不管是1年值纱、3年還是5年的生存率鳞贷,風(fēng)險(xiǎn)評(píng)分都有很高的辨別力,AUC值分別等于0.861虐唠、0.850和0.916(圖6B)搀愧。
采用與上述相同的策略,判斷每類基因改變的單獨(dú)效應(yīng)是否具有同等甚至更優(yōu)的效益疆偿,以及高免疫和低免疫隊(duì)列之間的差異性突變是否能夠取代頻繁突變基因在預(yù)測(cè)模型中的作用咱筛。從圖S9所示的結(jié)果來看,無論表達(dá)變化杆故、體細(xì)胞突變迅箩、差異性DNA甲基化,與聯(lián)合模型相比处铛,沒有任何單一特征能夠提供足夠強(qiáng)大的預(yù)后預(yù)測(cè)饲趋。
此外撤蟆,當(dāng)將頻繁的體細(xì)胞突變替換為差異性突變時(shí)奕塑,得到了一個(gè)基于23個(gè)變量的預(yù)測(cè)模型,但性能沒有改善(圖S10)家肯。另外龄砰,考慮到這些差異突變的頻率相對(duì)較低,最終沒有保留這個(gè)模型。
除了基因改變外式镐,一些臨床因素也可能對(duì)總生存時(shí)間有預(yù)測(cè)價(jià)值。雖然階段與總體生存時(shí)間顯著相關(guān)固蚤,但與上述僅基于多組學(xué)改變構(gòu)建的總體模型相比碟案,納入臨床因素的新模型的辨別能力并沒有提高,如圖6E所示颇蜡。此外,這個(gè)新模型在其1年辆亏、3年和5年生存預(yù)測(cè)上并沒有取得更好的表現(xiàn)(圖6C)风秤。只有由上述27種改變組成的多組學(xué)特征已經(jīng)可以產(chǎn)生準(zhǔn)確的預(yù)后預(yù)測(cè)。
四扮叨、結(jié)論
在本研究中缤弦,旨在根據(jù)TCGA的表達(dá)譜,估計(jì)LUAD的TME浸潤(rùn)模式彻磁,尤其是腫瘤相關(guān)免疫系統(tǒng)碍沐,然后通過分析多組學(xué)數(shù)據(jù)(RNA-seq、全外顯子組測(cè)序和DNA甲基化陣列)衷蜓,將免疫狀態(tài)與遺傳或表觀遺傳特征相關(guān)聯(lián)累提,最終從顯著的改變中建立預(yù)后預(yù)測(cè)模型。期待本研究結(jié)果能夠?yàn)槿祟怢UAD提供更全面的免疫基因組學(xué)圖譜磁浇,并有可能找到更好的預(yù)后預(yù)測(cè)因子斋陪。