TCGA數(shù)據(jù)庫(kù)在2022年4月初進(jìn)行更新之后垮刹,小編第一時(shí)間給大家展示了TCGA數(shù)據(jù)庫(kù)的變化屹逛,用圖文的方式詳細(xì)介紹了新版TCGA數(shù)據(jù)庫(kù)RNAseq數(shù)據(jù)下載方法父能。
? TCGA數(shù)據(jù)庫(kù)悄咪咪更新了—RNAseq沒(méi)有HTSeq-Counts了
小編也針對(duì)新版TCGA數(shù)據(jù)庫(kù)格式饥伊,為各位小伙伴提供了兩種合并新版TCGA中RNAseq表達(dá)譜數(shù)據(jù)的方法
?R代碼合并新版TCGA數(shù)據(jù)庫(kù)RNAseq表達(dá)譜數(shù)據(jù)
? 零代碼合并新版TCGA數(shù)據(jù)庫(kù)RNAseq表達(dá)譜數(shù)據(jù)
有小伙伴反饋犯祠,合并得到的矩陣?yán)锩嬷挥衑nsembl gene ID紊浩,沒(méi)有基因名字南窗,不方便后續(xù)數(shù)據(jù)分析。
其實(shí)小編前面也給大家介紹過(guò)? 【R語(yǔ)言】基因ID轉(zhuǎn)換郎楼,所以將ensembl gene ID轉(zhuǎn)換成gene symbol也是分分鐘的事情万伤。
今天小編要給大家介紹一個(gè)更簡(jiǎn)單的方法。其實(shí)新版TCGA數(shù)據(jù)庫(kù)中的RNAseq數(shù)據(jù)是自帶gene symbol的呜袁。仔細(xì)看敌买,就在ensembl gene ID的旁邊。驚不驚喜阶界,意不意外虹钮!
所以小編又雙叒叕更新了合并新版TCGA中RNAseq表達(dá)矩陣的R代碼聋庵。在合并的函數(shù)中添加了一個(gè)參數(shù),symbol芙粱,并且默認(rèn)設(shè)置為TRUE祭玉。也就是說(shuō),這個(gè)函數(shù)在合并RNAseq表達(dá)矩陣的時(shí)候除了提取ensembl gene ID以后春畔,也會(huì)提取相應(yīng)的gene名字脱货。
merge_TCGA <- function(metadata, path, data.type, mRNA_expr_type="STAR", symbol=T)
運(yùn)行起來(lái)也很方便
RNA_STAR_Counts=merge_TCGA(metadata=metaMatrix.RNA,
path="RNAseq",
data.type="RNAseq",
mRNA_expr_type="STAR",
symbol = T
)
會(huì)得到下面的矩陣。注意:這里的gene名字是有重復(fù)的律姨,不可以作為行名振峻。
當(dāng)然如果你不想要基因名字也是可以的,將symbol設(shè)置成 F即可择份。
RNA_STAR_Counts=merge_TCGA(metadata=metaMatrix.RNA,
path="RNAseq",
data.type="RNAseq",
mRNA_expr_type="STAR",
symbol = F
)
更新后的完整R代碼+注釋扣孟,下載地址參考???