21-Deep learning (DL)一種基于多組學構(gòu)建肝癌患者分型的新算法

一.研究背景

今天要為大家分享一篇去年三月發(fā)表在Clinical Cancer Research 的文章[Deep Learning based multi-omics integration robustly predicts survival in liver cancer; 2018.3; IF:9.619]

目前扩灯,缺少整合多個樣本群的多組學數(shù)據(jù)預測HCC的生存的研究工作,而識別肝細胞癌(HCC)魯棒性的生存亞型能夠顯著改善患者的治療偶芍。所以為了填補這一空缺,本文作者基于HCC提出了一個深度學習(DL)模型喇闸,能夠?qū)⒘鶄€樣本群的患者魯棒性的劃分為不同的生存亞群沧竟。作者使用來自TCGA的RNA-seq短纵,miRNA-seq和甲基化數(shù)據(jù),對360 例HCC患者構(gòu)建基于DL的生存敏感模型,其預測預后的效果不亞于考慮基因組學及臨床數(shù)據(jù)的替代模型痕钢。

二.主要方法和數(shù)據(jù)

數(shù)據(jù): ??

研究涉及了6個樣本群

① TCGA 數(shù)據(jù)集:來自TCGA的360 例樣本的RNA-seq 數(shù)據(jù), miRNA-seq 數(shù)據(jù), DNA甲基化數(shù)據(jù)以及臨床信息图柏。

② 驗證集1(LIRI-JP cohort, RNA-seq):來自ICGC的230 例樣本的RNA-seq 數(shù)據(jù) 。

③ 驗證集2(NCI cohort, microarray gene expression):來自GSE14520的221 例具有生存信息的樣本盖喷。

④ 驗證集3(Chinese cohort, miRNA expression array):來自GSE31384的166對HCC與正常組織的配對樣本爆办。

⑤ 驗證集4(E-TABM-36, gene expression microarray):來自Affymetrix HG-U133A GeneChips平臺的40例具有臨床信息的HCC樣本 。

驗證集5(Hawaiian cohort, DNA Methylation array):來自Illumina HumanMethylation450 BeadChip平臺的27 例具有全基因組甲基化譜的樣本课梳。

主要方法:

1.使用機器學習轉(zhuǎn)換特征

2.特征選擇以及K均值聚類

3.數(shù)據(jù)分割以及魯棒性評估

4.有監(jiān)督的分類

5.評估模型的指標

6.功能分析

三.結(jié)果展示

? ?1. 在TCGA樣本群中結(jié)合HCC的多組學數(shù)據(jù)識別出兩類生存亞型

表1


圖1


對于TCGA數(shù)據(jù)距辆,得到基因RNAseq以及miRNA和甲基化數(shù)據(jù)作為輸入特征。使用深度學習方法將這三類組學數(shù)據(jù)整合到一起暮刃,結(jié)構(gòu)如圖1A所示跨算。得到100個特征,然后我對100個特征進行單變量Cox-PH回歸椭懊,發(fā)現(xiàn)與生存相關的37個特征诸蚕。對這37個特征進行K均值聚類,最終確定最優(yōu)的K是2氧猬,將兩類展示不同的標簽背犯。對這兩類使用交叉證實的支持向量機(SVM),具體步驟如圖1B盅抚。最終如表1所示晨另,訓練集數(shù)據(jù)的 C-index 高箫措,brier score低,并且對生存差異的log-rank的p值顯著啼肩。這些結(jié)果表明蝶桶,使用聚類標簽的分類模型對生存特定的聚類具有較強的魯棒性线得。

2.生存亞型在五個獨立的數(shù)據(jù)集中得到了魯棒性驗證

表2


圖2


在這一部分流椒,為了驗證分類模型在預測生存結(jié)局的魯棒性垦巴,作者使用五個獨立的樣本集來驗證,每個驗證集的結(jié)果如圖2所示邑彪。接下來作者又對每個驗證集評估了指數(shù)瞧毙,可以看到在表2中列出了這五個樣本群的C-index,brier score锌蓄,以及l(fā)og-rank的p值升筏。

3.DL算法的性能優(yōu)于其他算法

在這一部分,作者將DL方法與兩個其他方法相比較瘸爽。在第一種方法中,使用傳統(tǒng)的降維方法主成分分析(PCA)代替铅忿,獲得了前100個主成分剪决,然后進行單變量Cox-PH,最終得到13個主要組成分。但是柑潦,這種方法在檢測生存亞組中給出的log-rank p值并不顯著(P = 0.14)享言。在第二個比較方法中,有37個特征渗鬼,但是最終得到的log-rank p值仍然不顯著览露。此外,這兩類方法在所有驗證集中都沒有很好的識別出生存亞組譬胎。

4. 增加臨床信息并不能改善基于多組學數(shù)據(jù)的DL模型

表3


在這一部分作者想探究加入臨床信息會不會對模型起到優(yōu)化效果差牛。因此作者加入臨床信息作為特征,對模型進行了評估堰乔,評估結(jié)果如表3所示偏化。可以看出當臨床因素作為特征時镐侯,對每個指數(shù)進行比較侦讨,與未加入臨床特征的模型相比較,整體效果并不好苟翻。推測其原因可能是DL神經(jīng)網(wǎng)絡的獨特優(yōu)勢韵卤,它可以通過相關的基因組特征為降低臨床特征的冗余性做貢獻。

5. 生存亞組與臨床因素的相關性

表4


作者在兩個生存亞組和臨床變量之間進行Fisher 's精確檢驗崇猫,發(fā)現(xiàn)只有grade(P=0.0004)和stage(P=0.002)與生存顯著相關沈条。由于HCC包括HBC、HCV和酒精在內(nèi)的多種危險因素邓尤,作者就在按個體危險因素分層的樣本群中測試了DL的模型(表4)拍鲤,結(jié)果表明在多數(shù)分級樣本群中,模型的效果都比較好汞扎。并且TP53突變已經(jīng)被證實與HCC的預后顯著相關,而在這兩個亞組中季稳,F(xiàn)isher 's精確檢驗結(jié)果表明TP53突變具有顯著差異。

6. TCGA HCC生存亞群的功能分析

圖3

圖4


作者首先對識別到的兩個生存亞組進行差異表達分析澈魄,得到上調(diào)基因以及下調(diào)基因景鼠。圖3展示了標準化后的整體的表達信息。這些差異基因包括干性marker基因痹扇,癌癥marker基因以及已經(jīng)被證實和HCC進展有關的基因铛漓。接下來作者又對這些差異基因進行功能富集,功能富集結(jié)果如圖4所示鲫构。圖4A是S1類的富集結(jié)果浓恶,而S2類的富集結(jié)果展示在圖4B中。

四.結(jié)論

總結(jié)一下结笨,作者使用深度學習的方法整合多組學數(shù)據(jù)包晰,對HCC樣本群進行了預后分型湿镀,并且評估了模型的魯棒性,及分型效能伐憾,對這個方法感興趣或者也在研究預后的小伙伴可以仔細研讀下這篇文獻哦勉痴。

往期分享

22-從DNA損傷修復以及分析亞型角度分析膀胱癌中的免疫調(diào)節(jié)

23-基于代謝基因進一步識別和PTC相關的預后模型

24-基于免疫相關基因構(gòu)建肝癌免疫預后模型(IPM)

25-多組學分析鑒定腺癌突變與免疫預后的關系

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市树肃,隨后出現(xiàn)的幾起案子蒸矛,更是在濱河造成了極大的恐慌,老刑警劉巖胸嘴,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件雏掠,死亡現(xiàn)場離奇詭異,居然都是意外死亡筛谚,警方通過查閱死者的電腦和手機磁玉,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來驾讲,“玉大人蚊伞,你說我怎么就攤上這事∷泵” “怎么了时迫?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長谓晌。 經(jīng)常有香客問我掠拳,道長,這世上最難降的妖魔是什么纸肉? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任溺欧,我火速辦了婚禮,結(jié)果婚禮上柏肪,老公的妹妹穿的比我還像新娘姐刁。我一直安慰自己,他們只是感情好烦味,可當我...
    茶點故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布聂使。 她就那樣靜靜地躺著,像睡著了一般谬俄。 火紅的嫁衣襯著肌膚如雪柏靶。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天溃论,我揣著相機與錄音屎蜓,去河邊找鬼。 笑死钥勋,一個胖子當著我的面吹牛梆靖,可吹牛的內(nèi)容都是我干的控汉。 我是一名探鬼主播笔诵,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼返吻,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了乎婿?” 一聲冷哼從身側(cè)響起测僵,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎谢翎,沒想到半個月后捍靠,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡森逮,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年榨婆,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片褒侧。...
    茶點故事閱讀 37,989評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡良风,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出闷供,到底是詐尸還是另有隱情烟央,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布歪脏,位于F島的核電站疑俭,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏婿失。R本人自食惡果不足惜钞艇,卻給世界環(huán)境...
    茶點故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望豪硅。 院中可真熱鬧哩照,春花似錦、人聲如沸舟误。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽嵌溢。三九已至眯牧,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間赖草,已是汗流浹背学少。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留秧骑,地道東北人版确。 一個月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓扣囊,卻偏偏與公主長得像,于是被迫代替她去往敵國和親绒疗。 傳聞我的和親對象是個殘疾皇子侵歇,可洞房花燭夜當晚...
    茶點故事閱讀 42,700評論 2 345