前面給大家介紹過
在上面這篇文章里面我們直接根據(jù)樣本類型來分成了兩類跨蟹,即tumor和normal构蹬。
但更多的時候亡电,我們其實想研究這些基因的表達(dá)跟臨床特征的關(guān)系,如組織病理分期stage I, stage II, stage III, stage IV篱昔,TNM分期徙邻,T0, T1, T2, T3, T4劣砍,N0, N1, N2, N3(?腫瘤TNM分期)等等妹田。這個就跟前面講的不太一樣了,這些臨床特征都大于兩類撩银,那么今天我們就來看看如何根據(jù)臨床特征對樣本進(jìn)行分組繪制boxplot给涕,并顯示p值。
我們首先來捋一捋思路
1.從TCGA數(shù)據(jù)庫下載想要研究腫瘤的表達(dá)譜數(shù)據(jù)和臨床數(shù)據(jù)额获,這里以CHOL(膽管癌為例)
具體可以參考
?如何從TCGA數(shù)據(jù)庫下載RNAseq數(shù)據(jù)以及臨床信息(一)
?如何從TCGA數(shù)據(jù)庫下載miRNA數(shù)據(jù)(二)
2.合并得到表達(dá)譜矩陣够庙,并進(jìn)行歸一化
具體可以參考
3.搜集m6A甲基化相關(guān)的基因,根據(jù)需要做基因的ID轉(zhuǎn)換
這里我已經(jīng)幫大家從一些相關(guān)的研究中搜集了m6A甲基化相關(guān)的16個基因抄邀,當(dāng)然大家也可以根據(jù)自己的需要增耘眨,刪相關(guān)基因。我們講的主要是方法境肾,代碼都是一樣的跑剔难,多幾個基因少幾個基因都無所謂胆屿。甚至你還可以換成其他的任何基因列表都是可以的。
"METTL3","METTL14","METTL16","WTAP","VIRMA","RBM15","ZC3H13","YTHDF1","YTHDF2","YTHDF3","YTHDC1","YTHDC2","HNRNPA2B1","HNRNPC","FTO","ALKBH5"
這里需要注意的是TCGA中g(shù)ene的ID一般是ensembl gene ID偶宫,而我們從paper中搜集的gene一般是gene名字非迹,所以這里就需要做一個gene ID轉(zhuǎn)換。這個我在前面也講過
4.提取m6A基因相關(guān)的表達(dá)矩陣
這個其實就是R里面最常見的數(shù)據(jù)框取下標(biāo)操作了纯趋。這里所有分析都是基于R來做的憎兽,所以了解一些R的基礎(chǔ)知識還是很有必要的。
具體可以參考
m6A基因相關(guān)的表達(dá)矩陣如下
5.添加樣本的類型信息吵冒,如腫瘤纯命,癌旁正常對照
前面也用視頻給大家詳細(xì)介紹過如何從TCGA數(shù)據(jù)下載臨床信息
?如何從TCGA數(shù)據(jù)庫下載RNAseq數(shù)據(jù)以及臨床信息(一)
6.下載并處理臨床信息
前面我們也給大家講解過
也分享過如果處理多分組的臨床信息
這里我們將組織病理分期分成三組之后跟m6a基因的表達(dá)值合并起來
7.對數(shù)據(jù)格式進(jìn)行轉(zhuǎn)換
8.根據(jù)分組繪制boxplot
9.計算p值
在m6a甲基化相關(guān)基因boxplot并顯示p值一文中桦锄,我們是根據(jù)樣本類型來分類的扎附,只有兩類蔫耽,所以我們可以做t檢驗來獲取p值结耀。本文中我們將樣本根據(jù)組織病理分期分成了三類(當(dāng)然四類也可以),stage I匙铡,stage II和stage III/IV图甜。所以這里就不能再使用t檢驗來獲取p值了,而應(yīng)該使用aov方差檢驗來獲取p值鳖眼。
10.將計算得到的p值轉(zhuǎn)換成對應(yīng)的*黑毅,添加到boxplot上
可以參考?【R語言】P值轉(zhuǎn)換成***將p值轉(zhuǎn)換成相應(yīng)的*
對TCGA數(shù)據(jù)庫還不了解的小伙伴,我們也有相關(guān)的視頻課程詳細(xì)介紹TCGA數(shù)據(jù)庫挖掘
?TCGA數(shù)據(jù)庫介紹及數(shù)據(jù)挖掘
參考資料:
?如何從TCGA數(shù)據(jù)庫下載RNAseq數(shù)據(jù)以及臨床信息(一)
?如何從TCGA數(shù)據(jù)庫下載miRNA數(shù)據(jù)(二)
?【R語言】臨床特征分組钦讳,多分類轉(zhuǎn)換成二分類
完整代碼參考