????最近在學習處理芯片數(shù)據(jù)皿淋,遇到一個問題就是芯片數(shù)據(jù)和基因ID之間的對應問題横朋。不然感覺自己做出的東西沒有辦法分析寂祥。
? ? 先來看一下芯片探針與基因直接的關系:
·探針組與基因關系:芯片數(shù)據(jù)得到的表達矩陣吵取,實際上是以探針組為單位俭缓,而不是直接以基因為單位刑赶,每一行對應一個探針組的表達量捏浊。后期的分析都是先得到探針組的結果,然后根據(jù)注釋的ID映射才對應到基因撞叨。一般是一個基因同時對應多個探針組金踪。通常會把同一個基因?qū)?b>探針組表達量求均值,然后找最大的那個探針組作為代表谒所,讓它與該基因一一對應热康。【1】
? ? 一般來說劣领,RNA-seq可以發(fā)現(xiàn)新的基因姐军,而芯片是對已知基因的分析。所以我發(fā)現(xiàn)有些我想要的基因在我芯片注釋文件中找不到尖淘,所以芯片數(shù)據(jù)還是尋找新做的會比較好奕锌。
? ? 在NCBI上找到自己的數(shù)據(jù)的GPL或者stof文件,里面有相應的注釋信息村生。
我的代碼(大部分參考別人):【2】
ff <- "GSE36272_family.soft.gz"
nn <- grep("^[^#!^]", readLines(ff))[1] - 1
pfinfo <- read.table(ff, sep = "\t", quote = "", header = TRUE, skip = nn, fill = TRUE)
colnames(pfinfo)
pfinfo<-pfinfo[,c(1,11,12)]
pfinfo
del <- grep("AFFX",rownames(pfinfo))
pfinfo <- pfinfo[-del,]
write.csv(pfinfo,"pfinfo-2.csv",sep=",")
可惜我的找到芯片數(shù)據(jù)有點老惊暴,好多我想分析的基因都沒有,sad~
參考:
【1】http://www.reibang.com/p/3800af7ddd04
【2】https://blog.csdn.net/u014801157/article/details/66974577
之后會不定時的寫自己之前大創(chuàng)的基因家族分析和現(xiàn)在做的芯片分析~? 堅持學習俺锰摇辽话!