寫在前面:本文為微信公眾號(hào):生信星球的數(shù)據(jù)挖掘線上班的隨堂筆記忿墅,感謝小潔老師的付出!
GEO
- 1.熱圖:數(shù)值是數(shù)值型矩陣/數(shù)據(jù)框
- 2.箱線圖:輸入數(shù)據(jù)是一個(gè)數(shù)值型向量(數(shù)據(jù))和一個(gè)有重復(fù)值的字符串向量(分組)
- 差異分析:
- p值:越小差異越顯著
- P值越小磷蛹,-log10(P value)越大,差異越顯著
-
logFC:實(shí)驗(yàn)組/對(duì)照組表達(dá)量差異倍數(shù)的log值溪烤。
logFC>0味咳,基因表達(dá)量上調(diào)
logFC<0,基因表達(dá)量下調(diào) - 上下調(diào)基因需要結(jié)合P值
- 上調(diào)基因需要結(jié)合兩個(gè)標(biāo)準(zhǔn)——p和logFC氛什,比如:logFC>1,P<0.01
- 3. 火山圖——橫坐標(biāo)logFC莺葫,縱坐標(biāo)-log10(P Value)
- 4. 主成分分析——利用降維思想聚類(綜合指標(biāo))——PCA
GEO分析——利用基因表達(dá)量數(shù)據(jù)的差異分析和富集分析來(lái)解釋生物學(xué)現(xiàn)象。
有差異的樣本》差異基因》代謝通路/功能注釋》解釋差異的原理
GEO網(wǎng)頁(yè)
- platform:用戶測(cè)序平臺(tái)(GPL)
- sample:樣本數(shù)據(jù)(GSM)
- series:一個(gè)完整的研究枪眉,包括對(duì)研究/數(shù)據(jù)的描述及總結(jié)分析捺檬。(GSE)
基因表達(dá)芯片
- 通過(guò)探針表達(dá)量反應(yīng)基因表達(dá)量
- 表達(dá)矩陣:行名為探針名,列名為樣本編號(hào)(需要樣本信息)
分析思路
查找GSE編號(hào)→下載數(shù)據(jù)(表達(dá)矩陣/臨床信息-分組信息)→檢查數(shù)據(jù)(分組之間是否有差異贸铜,參考PCA)→limma差異分析及可視化(P值/logFC→火山圖熱圖)→富集分析KEGG/GO
DAVID不行堡纬,要用clusterprofeller
下載數(shù)據(jù)
- 數(shù)據(jù)格式:GSExxxxx_series_matrix.txt.gz
檢查數(shù)據(jù)完整性
- GEOquery::getGEO#::表示顯式的指令
- 將數(shù)據(jù)下載到工作目錄
- 以對(duì)象的形式讀入R
LIMMA包
- 本質(zhì)上只是R包和函數(shù)
- 準(zhǔn)備好需要輸入的數(shù)據(jù),寫對(duì)參數(shù)
- 幫助文檔
- limma包用于芯片差異分析
- 轉(zhuǎn)錄組要用專門的包包:limma(voom)蒿秦、edgeR烤镐、Deseq2
芯片注釋:探針與基因的對(duì)應(yīng)關(guān)系
- 注釋來(lái)源:GEO中GPL頁(yè)面的表格(soft文件)
- Biocductor的注釋包
- 官網(wǎng)下載
- 自主注釋
- 一個(gè)探針對(duì)應(yīng)多個(gè)探針(非特異性探針)→直接刪除
- 多個(gè)探針對(duì)應(yīng)同一個(gè)基因:去重復(fù)行
deg[!duplicated(deg$symbol),]