肝癌復發(fā)的CpG甲基化信號特征
發(fā)表于2017年温艇,雜志是 JOURNAL OF CLINICAL ONCOLOGY 影響因子26.303 , 文章是 CpG Methylation Signature Predicts Recurrence in Early-Stage Hepatocellular Carcinoma: Results From a Multicenter Study 亮點應該是自己的數據嘶居,然后使用了兩個機器學習算法:
- LASSO, Least Absolute Shrinkage and Selector Operation;
- SVM-RFE, Support Vector Machine-Recursive Feature Elimination;
前面我們講解了一篇2013年多組學數據探索乳腺癌細胞系藥物敏感性使用的也是兩個機器學習算法,不過是LS-SVM和RF,但是也有借鑒意義邮屁。
課題設計
自己的450K甲基化芯片數據上傳到了:GSE75041
本項目共納入 576 patients with Early-stage hepatocellular carcinoma (E-HCC) 整袁,其中
- 66 tumor samples were analyzed using the Illumina Methylation 450k Beadchip.
- internal cohort (n = 141) and two external cohorts (n = 191 and n =104).
也就是先小隊列做450K拿到感興趣的甲基化位點,然后擴大隊列只測量感興趣的甲基化位點證明自己拿到的位點是有臨床價值的佑吝,整體課題設計如下:
項目納入的病人來源:
- 347 E-HCC samples at the Sun Yat-sen University Cancer Center (SYSUCC)
- 295 samples at three independent centers as follows:
- 191 samples from the First Affiliated Hospital of Sun Yat-sen University
- 57 samples from Guangzhou Medical University Cancer Center (GZMUCC)
- 47 samples from the First Affiliated Hospital of Anhui Medical University (AHMUFH).
文章的introduction部分肯定是介紹 E-HCC疾病的重要性坐昙,還有甲基化信號的重要性。
當然芋忿,也不落俗套的在 The Cancer Genome Atlas (TCGA) database 數據庫進行驗證炸客。
數據處理
首先,復發(fā)與否的66個腫瘤樣本數據找差異甲基化位點戈钢,得到 a list of 2,550 differential CpGs
然后使用 LASSO algorithm to identify a set of 30 CpGs
接著使用 SVM-RFE algorithm and selected a set of 30 CpGs
兩個算法有14個CpG位點的交集痹仙,如下圖所示:
其中并集是46個,可以看熱圖如下:
繼續(xù)使用 penalized Cox regression model 殉了,最后縮小到3個甲基化位點:
- cg20657849, SCAN domain containing 3 (SCAND3)
- cg19406367, Src homology 3-domain growth factor receptor-bound 2-like interacting protein 1 (SGIP1)
- cg19931348 ,peptidase inhibitor 3 (PI3)
算法的效果如下开仰;
同時也根據這3個甲基化位點,構建了風險模型公式:risk score = (0.104 × methylation level of SGIP1) + (?1.125 × methylation level of SCAND3) + (?0.085 × methylation level of PI3).
并且稱之為: a methylation-based signature for patients with E-HCC (MSEH)
然后就可以去驗證集里面去看看預測效果薪铜。
生存分析驗證模型效果
在開頭我們介紹的數據集里面众弓,作者都使用了生存分析,很顯著的發(fā)現這3個甲基化位點組成的a methylation-based signature for patients with E-HCC (MSEH) 具有很好的區(qū)分效果痕囱,如下圖:
因為作者驗證的數據集已經有3個了田轧,所以在TCGA的驗證作者只是放在附件。
In addition, the predictive value of MSEH was validated further in the TCGA data. MSEH successfully discriminated 125 patients with TNM stage I into high-risk and low-risk groups in terms of both RFS and OS (P , .001, P = .043, respectively; Data Supplement).
感興趣的朋友也可以很容易去下載TCGA的肝癌的甲基化信號矩陣鞍恢,來根據這3個甲基化位點組成的a methylation-based signature for patients with E-HCC (MSEH) 來進行驗證傻粘。
(文章轉自jimmy的2018年閱讀文獻筆記)
生信基礎知識大全系列:生信基礎知識100講
史上最強的生信自學環(huán)境準備課來啦!帮掉! 7次改版弦悉,11節(jié)課程,14K的講稿蟆炊,30個夜晚打磨稽莉,100頁PPT的課程。
如果需要組裝自己的服務器涩搓;代辦生物信息學服務器
如果需要幫忙下載海外數據(GEO/TCGA/GTEx等等)污秆,點我?
如果需要線下輔導及培訓昧甘,看招學徒
如果需要個人電腦:個人計算機推薦
如果需要置辦生物信息學書籍良拼,看:生信人必備書單
如果需要實習崗位:實習職位發(fā)布
如果需要售后:點我