發(fā)表雜志:Biological Procedures Online
影響因子:7.71
生信分析咨詢 請關注“生信小課堂”全網同名
研究背景:
結直腸癌(CRC)是全球癌癥相關死亡的主要原因之一。單細胞轉錄組測序可以為單個細胞提供準確的基因表達數據熬拒。大批量轉錄組測序(bulk RNA-seq)已經成為一種識別新的分子生物標志物和提高我們對腫瘤發(fā)展了解的強大技術爷光。為了全面識別CRC基因治療的預測生物標志物和新的分子靶點,利用bulk RNA-seq和scRNA-seq分析可以精確地對患者進行分層和識別澎粟。通過整合scRNA-seq和bulk RNA-seq數據蛀序,構建CRC患者的預后模型并驗證了該模型預測CRC預后的能力。
研究結果:
一活烙、CRC單細胞測序數據的降維聚類分析
1徐裸、tsne圖所示,scRNA-seq數據整合為13個樣本(圖1A)啸盏,4位患者數據(圖1B)和腫瘤類型(圖1C)也整合在其中重贺。
2、使用FindCluster()函數對單元格進行聚類,得到20個聚類(圖1D)檬姥。)并從20個聚類中分類出7種細胞類型(圖1E)。
3粉怕、各亞群中最顯著的前5個標記基因的表達量在圖1F中顯示健民。
4、選取前三個標記基因繪制小提琴圖(圖2A)贫贝,通過WebGestaltR包進行KEGG注釋秉犹,在這5個聚類中篩選FDR < 0.05的關鍵通路(圖2B)。
二稚晚、基于TCGA數據庫的細胞簇豐度預測與分析
1崇堵、使用CIBERSORT 評估20個cluster在TCGA數據中的含量。結腸癌患者腫瘤組織中C1客燕、C2鸳劳、C4、C5也搓、C15赏廓、C16和C19的豐度較高,C7傍妒、C10幔摸、C11、C13颤练、C14和C17的豐度較低(圖3A)既忆。
2、生存分析結果表明嗦玖,C4患雇、C11和C13豐度高,C5和C14豐度低意味著更好的存活率(圖3B)踏揣。
3庆亡、對所有配對基因進行Pearson相關性分析,并使用WGCNA構建加權共表達網絡(圖4A)捞稿。
4又谋、在本研究中,共表達網絡符合無標度網絡娱局,選擇β=12以確保網絡無標度(圖4B)彰亥。
5、對模塊進行聚類分析衰齐,并將距離較近的模塊合并為一個新模塊任斋,共獲得12個模塊(圖4C),進一步分析了各模塊與豐度的相關性耻涛,紅色模塊與腫瘤和C14簇最相關(圖4D)废酷。
6瘟檩、在GO富集分析中,生物過程(BP)差異顯著的基因本體共有237個澈蟆,前10個如圖5A所示墨辛。共有122個基因在細胞組分(CCs)上有顯著差異,前10個如圖5B所示趴俘。59個基因本體論在分子功能(MF)上有顯著差異睹簇,前10位如圖5C所示。
7寥闪、對這些基因進行KEGG信號通路富集分析太惠,28條通路被顯著注釋,前10位如圖5D所示疲憋。這些注釋結果表明凿渊,這些基因與腫瘤發(fā)生密切相關。
三柜某、關鍵的簇細胞通訊分析
1嗽元、在這20個簇中步势,就配體受體相互作用的數量和強度而言早歇,細胞與細胞之間存在較高的相關性(圖6A)棋嘲。
2芥喇、C14簇會被其他簇所影響测砂,如C13和C16簇通過MDK-SDC2影響C14(圖6B)玉罐。
四奥喻、預后風險模型的構建與評價
1婿牍、選擇red模塊中的615個基因構建預后模型监嗜。使用glmnet包進行Lasso Cox回歸分析和觀察各自變量的變化軌跡(圖7A)谐檀。使用十折交叉驗證來構建每個lambda下的模型和置信區(qū)間(圖7B)。當λ =0.0175時裁奇,模型最優(yōu)桐猬,選取8個基因構建風險模型
2、風險評估模型預測1刽肠、3溃肪、5年生存率的AUC分別為0.72、0.70音五、0.65(圖7C)惫撰,TCGA數據庫中風險評分高的患者OS明顯差于風險評分低的患者(圖7D)。
3躺涝、風險模型預測1厨钻、3、5年生存率的AUC分別為0.79、0.83夯膀、0.69诗充,GSE17537數據集中高危組預后較差(圖7E和F)。
4诱建、該模型可根據T分期其障、M分期、N分期涂佃、分期、年齡和癌癥狀態(tài)顯著區(qū)分高危和低危組(圖7G)蜈敢。
五辜荠、低危組與高危組間GSVA及TMB分析(風險評分與臨床應用的關系)
1、進一步計算生物功能與風險評分之間的相關性抓狭,選擇相關性大于0.4的部分(圖8A)伯病。
2、風險評分組富集分析顯示否过,與樣本風險評分負相關的途徑有8條午笛,與樣本風險評分正相關的途徑有32條∶绻穑基于40條KEGG通路進行富集評分聚類分析結果顯示药磺,RENAL_CELL_CARCINOMA等相關通路的表達隨著風險評分的增加而增加(圖8B)。
六煤伟、構建整合風險評分和臨床特征的諾模圖
1癌佩、使用單變量,評估8基因模型的臨床應用的獨立性(圖8C)便锨。使用多變量围辙,Cox回歸分析臨床信息和風險評分(圖8D)。
2放案、根據單因素和多因素分析結果姚建,構建了具有臨床特征(M分期和風險評分)的諾模模型(圖8E)。
3吱殉、生存期中1掸冤、3、5年的諾模校正曲線與標準曲線呈現(xiàn)幾乎相同的結果(圖8F)考婴。
4贩虾、利用決策曲線分析(DCA)來評估模型的可靠性。DCA圖的結果表明沥阱,諾模模型比其他的評價效果更好(圖8G)缎罢。
七、既往未報道的模型基因MPZ、SCARA3策精、MPP2和PBXIP1在結直腸癌中的表達及功能分析
1舰始、通過qPCR 檢測了既往未報道的CRC患者臨床樣本中模型基因(MPZ, SCARA3, MPP2和PBXIP1)的表達情況(圖9A-D)。
2咽袜、免疫組化IHC分析顯示丸卷,MPZ、SCARA3询刹、MPP2谜嫉、PBXIP1在CRC組織中表達水平較高(圖9E-H)。
3凹联、通過抑制MPZ沐兰、SCARA3、MPP2和PBXIP1的表達抑制SW620細胞體外集落形成能力(圖10A),且能抑制小鼠體內致瘤性(圖10B-C)蔽挠。
4住闯、對移植瘤組織進行免疫組化分析發(fā)現(xiàn),SW620/sh-MPZ澳淑、SW620/sh-SCARA3比原、SW620/sh-MPP2和SW620/sh-PBXIP1組的MPZ、SCARA3杠巡、MPP2和PBXIP1表達水平較低(圖10D)量窘。
研究總結:作者通過scRNA-seq和bulk RNA-seq數據,并進行WGCNA分析氢拥,這是一種新的預測CRC患者OS的預后模型绑改,可用于預測CRC患者的生存率。作者還探索了4個此前未報道的基因(MPZ兄一、SCARA3厘线、MPP2和PBXIP1)的作用,這些基因可能在未來成為CRC的新的治療靶點出革。