21-Deep learning (DL)一種基于多組學構(gòu)建肝癌患者分型的新算法

一.研究背景

今天要為大家分享一篇去年三月發(fā)表在Clinical Cancer Research 的文章[Deep Learning based multi-omics integration robustly predicts survival in liver cancer; 2018.3; IF:9.619]

目前扩灯，缺少整合多個樣本群的多組學數(shù)據(jù)預測HCC的生存的研究工作，而識別肝細胞癌(HCC)魯棒性的生存亞型能夠顯著改善患者的治療偶芍。所以為了填補這一空缺，本文作者基于HCC提出了一個深度學習（DL）模型喇闸，能夠?qū)⒘鶄€樣本群的患者魯棒性的劃分為不同的生存亞群沧竟。作者使用來自TCGA的RNA-seq短纵，miRNA-seq和甲基化數(shù)據(jù)，對360 例HCC患者構(gòu)建基于DL的生存敏感模型，其預測預后的效果不亞于考慮基因組學及臨床數(shù)據(jù)的替代模型痕钢。

二.主要方法和數(shù)據(jù)

數(shù)據(jù)： ??

研究涉及了6個樣本群

①　TCGA 數(shù)據(jù)集:來自TCGA的360 例樣本的RNA-seq 數(shù)據(jù), miRNA-seq 數(shù)據(jù), DNA甲基化數(shù)據(jù)以及臨床信息图柏。

②　驗證集1(LIRI-JP cohort, RNA-seq)：來自ICGC的230 例樣本的RNA-seq 數(shù)據(jù) 。

③　驗證集2(NCI cohort, microarray gene expression)：來自GSE14520的221 例具有生存信息的樣本盖喷。

④　驗證集3(Chinese cohort, miRNA expression array)：來自GSE31384的166對HCC與正常組織的配對樣本爆办。

⑤　驗證集4(E-TABM-36, gene expression microarray)：來自Affymetrix HG-U133A GeneChips平臺的40例具有臨床信息的HCC樣本。

驗證集5(Hawaiian cohort, DNA Methylation array)：來自Illumina HumanMethylation450 BeadChip平臺的27 例具有全基因組甲基化譜的樣本课梳。

主要方法：

1．使用機器學習轉(zhuǎn)換特征

2．特征選擇以及K均值聚類

3．數(shù)據(jù)分割以及魯棒性評估

4．有監(jiān)督的分類

5．評估模型的指標

6．功能分析

三.結(jié)果展示

? ?1. 在TCGA樣本群中結(jié)合HCC的多組學數(shù)據(jù)識別出兩類生存亞型

表1

圖1

對于TCGA數(shù)據(jù)距辆，得到基因RNAseq以及miRNA和甲基化數(shù)據(jù)作為輸入特征。使用深度學習方法將這三類組學數(shù)據(jù)整合到一起暮刃，結(jié)構(gòu)如圖1A所示跨算。得到100個特征，然后我對100個特征進行單變量Cox-PH回歸椭懊，發(fā)現(xiàn)與生存相關的37個特征诸蚕。對這37個特征進行K均值聚類，最終確定最優(yōu)的K是2氧猬，將兩類展示不同的標簽背犯。對這兩類使用交叉證實的支持向量機（SVM），具體步驟如圖1B盅抚。最終如表1所示晨另，訓練集數(shù)據(jù)的 C-index 高箫措，brier score低，并且對生存差異的log-rank的p值顯著啼肩。這些結(jié)果表明蝶桶，使用聚類標簽的分類模型對生存特定的聚類具有較強的魯棒性线得。

2.生存亞型在五個獨立的數(shù)據(jù)集中得到了魯棒性驗證

表2

圖2

在這一部分流椒，為了驗證分類模型在預測生存結(jié)局的魯棒性垦巴，作者使用五個獨立的樣本集來驗證，每個驗證集的結(jié)果如圖2所示邑彪。接下來作者又對每個驗證集評估了指數(shù)瞧毙，可以看到在表2中列出了這五個樣本群的C-index，brier score锌蓄，以及l(fā)og-rank的p值升筏。

3.DL算法的性能優(yōu)于其他算法

在這一部分，作者將DL方法與兩個其他方法相比較瘸爽。在第一種方法中，使用傳統(tǒng)的降維方法主成分分析（PCA）代替铅忿，獲得了前100個主成分剪决，然后進行單變量Cox-PH，最終得到13個主要組成分。但是柑潦，這種方法在檢測生存亞組中給出的log-rank p值并不顯著（P = 0.14）享言。在第二個比較方法中，有37個特征渗鬼，但是最終得到的log-rank p值仍然不顯著览露。此外，這兩類方法在所有驗證集中都沒有很好的識別出生存亞組譬胎。

4. 增加臨床信息并不能改善基于多組學數(shù)據(jù)的DL模型

表3

在這一部分作者想探究加入臨床信息會不會對模型起到優(yōu)化效果差牛。因此作者加入臨床信息作為特征，對模型進行了評估堰乔，評估結(jié)果如表3所示偏化。可以看出當臨床因素作為特征時镐侯，對每個指數(shù)進行比較侦讨，與未加入臨床特征的模型相比較，整體效果并不好苟翻。推測其原因可能是DL神經(jīng)網(wǎng)絡的獨特優(yōu)勢韵卤，它可以通過相關的基因組特征為降低臨床特征的冗余性做貢獻。

5. 生存亞組與臨床因素的相關性

表4

作者在兩個生存亞組和臨床變量之間進行Fisher 's精確檢驗崇猫，發(fā)現(xiàn)只有grade(P=0.0004)和stage(P=0.002)與生存顯著相關沈条。由于HCC包括HBC、HCV和酒精在內(nèi)的多種危險因素邓尤，作者就在按個體危險因素分層的樣本群中測試了DL的模型（表4）拍鲤，結(jié)果表明在多數(shù)分級樣本群中，模型的效果都比較好汞扎。并且TP53突變已經(jīng)被證實與HCC的預后顯著相關,而在這兩個亞組中季稳，F(xiàn)isher 's精確檢驗結(jié)果表明TP53突變具有顯著差異。

6. TCGA HCC生存亞群的功能分析

圖3

圖4

作者首先對識別到的兩個生存亞組進行差異表達分析澈魄，得到上調(diào)基因以及下調(diào)基因景鼠。圖3展示了標準化后的整體的表達信息。這些差異基因包括干性marker基因痹扇，癌癥marker基因以及已經(jīng)被證實和HCC進展有關的基因铛漓。接下來作者又對這些差異基因進行功能富集，功能富集結(jié)果如圖4所示鲫构。圖4A是S1類的富集結(jié)果浓恶，而S2類的富集結(jié)果展示在圖4B中。

四.結(jié)論

總結(jié)一下结笨，作者使用深度學習的方法整合多組學數(shù)據(jù)包晰，對HCC樣本群進行了預后分型湿镀，并且評估了模型的魯棒性，及分型效能伐憾，對這個方法感興趣或者也在研究預后的小伙伴可以仔細研讀下這篇文獻哦勉痴。

往期分享

22-從DNA損傷修復以及分析亞型角度分析膀胱癌中的免疫調(diào)節(jié)

23-基于代謝基因進一步識別和PTC相關的預后模型

24-基于免疫相關基因構(gòu)建肝癌免疫預后模型（IPM）

25-多組學分析鑒定腺癌突變與免疫預后的關系