多組學數(shù)據(jù)探索乳腺癌細胞系藥物敏感性
也是公共數(shù)據(jù)的挖掘骑丸,但是不是對TCGA數(shù)據(jù)庫的挖掘,不過其整合的多組學又恰好是TCGA計劃納入的7種數(shù)據(jù)菇怀。
文章標題很精煉:Modeling precision treatment of breast cancer. 是2013年發(fā)表的咕痛,但是在2015有一個勘誤信息麻惶,修正了補充材料的一些圖表梅惯,還有GATK的流程宪拥。
目前還不清楚不同組學數(shù)據(jù)該如何結合起來更好的預測癌癥病人的治療效果,考慮到細胞系數(shù)據(jù)容易獲取铣减,也比較方便做實驗她君,所以作者整合了一些細胞系的公共數(shù)據(jù)。
乳腺癌病人的異質性在治療領域是很大的問題葫哗,有文章根據(jù)表達量分6類缔刹,如下:
- luminal A
- luminal B
- ERBB2-enriched
- basal-like
- claudin-low
- normal-like
當然,PAM50的分類也是可以的劣针,也有文章把CNV和表達量結合起來把乳腺癌病人分成10類校镐,如果再結合更多的信息,分類會更復雜捺典。這也就是為什么會有TCGA計劃鸟廓,而且即使有了多組學數(shù)據(jù),目前也不清楚那一類型的數(shù)據(jù)更優(yōu)辣苏。
所以本文作者使用2種機器學習算法來針對多組學數(shù)據(jù)結果進行預測乳腺癌細胞系的藥物療效。
最后還把預測結果應用到了TCGA計劃的306個乳腺癌病人數(shù)據(jù)里面哄褒。
項目設計
總共是 84 breast cancer cell lines 稀蟋,包括
- 35 luminal
- 27 basal
- 10 claudin-low
- 7 normal-like
- 2 matched normal
- 3 of unknown subtype.
本研究納入了7種不同類型的數(shù)據(jù):
- DNA copy number (Affymetrix SNP6 - EGA accessions EGAS00000000059 and EGAS00001000585)
- mRNA expression (Affymetrix U133A and Exon 1.0 ST array - ArrayExpress accessions E-TABM-157 and E-MTAB-181)
- transcriptome sequence (RNAseq - Gene Expression Omnibus (GEO) accession GSE48216)
- promoter methylation (Illumina Methylation27 BeadChip - GEO accession GSE42944)
- protein abundance (Reverse Protein Lysate Array - Additional file 2)
- mutation status (Exome-Seq - GEO accession GSE48216).
- therapeutic response data
每種數(shù)據(jù)的樣本量是:
- Exome-seq data were available for 75 cell lines
- SNP6 data for 74 cell lines
- therapeutic response data for 70
- RNAseq for 56
- exon array for 56
- Reverse Phase Protein Array (RPPA) for 49
- methylation for 47
- U133A expression array data for 46 cell lines.
只有48個細胞系有著4種以上的數(shù)據(jù)。
整體項目設計如下:
不同數(shù)據(jù)的相關性:
- Correlation among the three expression datasets (U133A, exon array, and RNAseq) ranged from 0.6 to 0.77 at the cell line level, and from 0.58 to 0.71 at the gene level.
- Promoter methylation and gene expression were, on average, negatively correlated as expected, with correlation ranging from -0.16 to -0.25 at the cell line level and -0.10 to -0.15 at the gene level.
- Across the genome, copy number and gene expression were positively correlated (0.18 to 0.22 at the cell line level; 0.35 to 0.44 at the gene level).
這樣的簡單粗暴的比較并不可取呐赡。
預測算法
使用了2種機器學習算法:
- weighted least squares support vector machine (LS-SVM)
- random forests (RF)
每個算法在不同數(shù)據(jù)類型的有不同的效果比如退客,對:LS-SVM classifiers
- RNAseq performed best for 22 compounds
- exon array for 20 compounds
- SNP6 for 18,
- U133A for 17
- methylation data for 12 compounds
而對RF算法,表現(xiàn)差不多,總體來說萌狂,RNAseq表現(xiàn)最好档玻,而SNP6表現(xiàn)最差,如下圖:
meta分析驗證signatures
作者這里針對tamoxifen藥物得到了174-gene signature可以用來區(qū)分藥物敏感性和耐受性茫藏,然后就整合了4篇文獻里面的439 ER-positive patients把他們分組后根據(jù) relapse-free survival 信息來做生存分析误趴,如下:
數(shù)據(jù)文章來源是:
- Definition of clinically distinct molecular subtypes in estrogen receptor-positive breast carcinomas through genomic grade. J Clin Oncol. 2007
- The 76-gene signature defines high-risk patients that benefit from adjuvant tamoxifen therapy. Breast Cancer Res Treat. 2009
- Genomic index of sensitivity to endocrine therapy for breast cancer. J Clin Oncol. 2010
- Gene expression profiling in breast cancer: understanding the molecular basis of histologic grade to improve prognosis. J Natl Cancer Inst. 2006
TCGA數(shù)據(jù)庫驗證
最后還在306 TCGA breast tumors for which expression (Exp), copy number (CNV) and methylation (Meth) measurements 數(shù)據(jù)里面進行驗證,預測為 resistant, intermediate or sensitive 的分組务傲。
多組學探索乳腺癌耐藥
文章是:Differentiation-state plasticity is a targetable resistance mechanism in basal-like breast cancer 發(fā)表在: Nature Communications (2018) 主要揭示基底樣乳腺癌耐藥性產生新機制
癌癥中的腫瘤內異質性(intratumoral heterogeneity)源于基因組不穩(wěn)定性和表觀基因組可塑性凉当,并且與癌癥對細胞毒性治療和靶向治療的抵抗性存在關聯(lián)。
在一項新的研究中售葡,來自美國俄勒岡健康與科學大學的研究人員證實由分化狀態(tài)標志物表達定義的細胞狀態(tài)異質性在三陰性乳腺癌亞型和基底樣乳腺癌亞型中是高度存在的看杭,而且在利用一系列途徑靶向性的治療化合物進行治療期間會出現(xiàn)標志物表達發(fā)生變化的藥物耐受性持久性(drug tolerant persister, DTP)細胞群體。
轉錄組測序數(shù)據(jù),All RNAseq FASTQ and RPKM.txt files can be found on the GEO Omnibus under accession number GSE82032.
約70G數(shù)據(jù):https://www.ncbi.nlm.nih.gov/sra?term=SRP075882
全外顯子測序數(shù)據(jù)在:https://www.ncbi.nlm.nih.gov/sra/SRP125560
低深度的WGS數(shù)據(jù)是:https://www.ncbi.nlm.nih.gov/sra/SRP144106
其重要參考文獻是:Modeling precision treatment of breast cancer
(文章轉自jimmy的2018年閱讀文獻筆記)
生信基礎知識大全系列:生信基礎知識100講
史上最強的生信自學環(huán)境準備課來啦P铩楼雹! 7次改版,11節(jié)課程尖阔,14K的講稿贮缅,30個夜晚打磨,100頁PPT的課程诺祸。
如果需要組裝自己的服務器携悯;代辦生物信息學服務器
如果需要幫忙下載海外數(shù)據(jù)(GEO/TCGA/GTEx等等),點我筷笨?
如果需要線下輔導及培訓憔鬼,看招學徒
如果需要個人電腦:個人計算機推薦
如果需要置辦生物信息學書籍,看:生信人必備書單
如果需要實習崗位:實習職位發(fā)布
如果需要售后:點我