GEO數(shù)據(jù)挖掘看老大嗶哩嗶哩
看了三遍了烤礁,隨著理解讼积,后續(xù)還要更新這篇記錄肥照,現(xiàn)在還太不全,有些還沒跟上勤众,代碼隨著理解要往上填...
0.GEO數(shù)據(jù)挖掘視頻課程之序言
使用R語言完成表達(dá)芯片處理全流程視頻上線
R來完成表達(dá)芯片分析全流程
生信技能樹論壇-研究熱點(diǎn)板塊介紹-芯片處理
老大github
1.通用文獻(xiàn)閱讀及規(guī)律
installation of necessary packages, downloading of cel files, describing the experiment, loading and normalizing data, quality controls, probe set filtering, finding differentially expressed probe sets, and finally annotating those probe sets to gene symbols.
轉(zhuǎn)錄本和基因有對(duì)應(yīng)關(guān)系建峭,一個(gè)基因可對(duì)應(yīng)多個(gè)轉(zhuǎn)錄本(探針),原因有可變剪切:
可變剪切differential splicing决摧,也叫做選擇性剪切alternative splicing, 指的是在mRNA前體到成熟mRNA的過程當(dāng)中亿蒸,不同的剪切方式使得同一個(gè)基因可以產(chǎn)生多個(gè)不同的成熟mRNA, 最終產(chǎn)生不同的蛋白質(zhì),示意圖如下
根據(jù)文章中給出的GSE號(hào)掌桩,去GEO網(wǎng)址边锁,在鏈接后更改GSE號(hào),獲得表達(dá)矩陣波岛,芯片數(shù)據(jù)一般都用LIMMA包茅坛,illuminaHI-seq測序芯片出現(xiàn)
背景知識(shí):
p值<0.01,|log2FoldChange|>2找差異基因
2.了解GEO數(shù)據(jù)庫
1.文獻(xiàn)中的共性:找到數(shù)據(jù)集则拷,下載數(shù)據(jù)贡蓖,進(jìn)行差異分析,GSEA及其他數(shù)據(jù)庫的注釋煌茬。
2.找到探針對(duì)應(yīng)的基因名
3.每一個(gè)數(shù)據(jù)集(GSE)有很多sample(GSM)
芯片基礎(chǔ)知識(shí)
4.一個(gè)GSE可以有多高平臺(tái)(GPL)
3.數(shù)據(jù)下載的3種方式
找到數(shù)據(jù)集后斥铺,數(shù)據(jù)下載方式(3種),目的得到表達(dá)矩陣
1.直接下載raw data坛善,但不推薦大家用晾蜘,原始數(shù)據(jù)
2.下載表達(dá)矩陣 series matrix file(s),下載后可讀到R里面
a=read.table('GSE42872_series_matrix.txt.gz')
> class(a)
[1] "data.frame"
> str(gset)
3.在R里面讀取GSE號(hào).
gset <- getGEO("GSE42589")
加載GEO包
library(GEOquery)
gset <- getGEO('GSE42872',destdir=".",AnnotGPL = F,getGPL = F) #為了
getGEO讀進(jìn)來就是一個(gè)對(duì)象
文件只有兩種:文本和非文本
分割分本:”空格“分割:read.tab
? ”逗號(hào)“分割:read.csv
新版的affymetrix對(duì)應(yīng)oligo包
illumina相關(guān)芯片對(duì)應(yīng)lumiR.batch
4.ID轉(zhuǎn)化技巧大全
class眠屎、str這樣的函數(shù)多打剔交,對(duì)象可以用str看一下
http://www.bio-info-trainee.com/1399.html
http://www.bio-info-trainee.com/3415.html
> str(gset)
List of 1# 是list
> gset[[1]]
library(hgu95av2.db)
ids=toTable(hgu95av2SYMBOL)
length(unique(ids$symbol))
tail(sort(table(ids$symbol)))
table(sort(table(ids$symbol)))
plot(table(sort(table(ids$symbol))))
5.了解你的表達(dá)矩陣
pData:得到每個(gè)樣本的描述信息,下載的是對(duì)象就用pData來找
Group list:三個(gè)ctr改衩,三個(gè)sample
6.差異分析
exprSet #表達(dá)矩陣
dim(exprSet)#查看多少個(gè)基因和樣本
group_list #分組信息
7.火山圖及熱圖制作及美化
gene=head(nrDEG岖常,10000)
log2 fold change達(dá)到一定閾值才認(rèn)為差異顯著
火山圖
plot(nrDEG$logFC,-log10(nrDEG$P.Value))
差異分析得到的結(jié)果注釋一文就夠
看包的說明書
vignette('clusterProfiler')
8.KEGG-GO等數(shù)據(jù)庫的注釋及GSEA分析
9.收尾的幾點(diǎn)建議
10.批量生存分析代碼大放送
生信人的20個(gè)R語言習(xí)題http://www.bio-info-trainee.com/3409.html
生信人的20個(gè)R語言習(xí)題答案http://www.bio-info-trainee.com/3415.html