GEO數(shù)據(jù)庫(kù)常用分析工具
- GEO DataSets提供的分析工具
- GEO2R
GEO DataSets提供的分析工具
在GEO DataSets的詳情界面有一個(gè)Data Analysis Tools板塊,在這里由一些實(shí)用的分析工具
Find genes
- Find gene name or symbol:查找該DataSet中某一基因的Profile
- Find genes that are up/down for this condition(s):將數(shù)據(jù)按照特定的標(biāo)準(zhǔn)分組,在該DataSet中查找在這種分組條件下組間存在差異表達(dá)的基因的Profile
Compare 2 sets of samples
用于獲取在選定的兩組樣本之間差異表達(dá)的基因
- 選擇檢驗(yàn)方法和顯著性水平
- 對(duì)數(shù)據(jù)進(jìn)行分組
- 進(jìn)行比較
選擇檢驗(yàn)方法和顯著性水平
可選擇的檢驗(yàn)方法有
- Two-tailed t-test (A vs B):雙尾t檢驗(yàn)
- Ont-tailed t-test (A > B):?jiǎn)挝瞭檢驗(yàn)
- Ont-tailed t-test (A < B):?jiǎn)挝瞭檢驗(yàn)
- Value means difference:不知道是啥
- Rank means difference:不知道是啥盒至,大概是秩和之類的東西吧
可選擇的顯著性水平有
- 0.100
- 0.050
- 0.010
對(duì)數(shù)據(jù)進(jìn)行分組
我們需要將數(shù)據(jù)分成兩組塞蹭,點(diǎn)擊Select which Samples to put in Group A and Group B
面板中共有兩個(gè)樣本名稱的列表雀久,每一列代表一個(gè)組中的樣本隐圾,點(diǎn)擊樣本名稱就可以選中相應(yīng)的樣本
進(jìn)行比較
點(diǎn)擊Query Group A vs. B即可進(jìn)行比較
Cluster heatmaps
用于生成聚類分析的熱圖,聚類分析的方法有以下幾種
- Hierarchical
- Partitional (K-means/K-medians)
- By location on chromosome
Hierarchical
方法
可修改的參數(shù)有Distance和Linkage偎快,點(diǎn)擊Display即可進(jìn)行聚類分析
Distance可設(shè)置為
- Uncentered Correlation
- Pearson Correlation
- Euclidean
Linkage可設(shè)置為
- Average/UPGMA
- Single
- Complete
結(jié)果
- 分析完成后會(huì)顯示一張熱圖禽笑,點(diǎn)擊熱圖入录,會(huì)顯示一個(gè)選擇范圍,可以調(diào)整選區(qū)的高度佳镜,選中感興趣的基因
- 點(diǎn)擊Stack up或雙擊選區(qū)即可顯示選中的基因詳細(xì)的信息和表達(dá)情況
- 點(diǎn)擊Download可以下載選中的基因的表達(dá)數(shù)據(jù)
- 點(diǎn)擊Plot values可以顯示選中的基因的表達(dá)量的可視化結(jié)果僚稿,結(jié)果頁面中提供了三個(gè)按鈕
- Download displayed data:下載途中的基因數(shù)據(jù),效果與之前的Donwload按鈕一直
- Show heat map region:跳轉(zhuǎn)到熱圖界面蟀伸,效果與之前的Stack up按鈕一致
- View profiles in Entrez:檢索圖中基因的Profiles
Partitional (K-means/K-medians)
方法
- 在Color Options中可以選擇高表達(dá)的基因和低表達(dá)的基因用什么顏色表示
- 在Clustering Options中可以選擇聚類分析的選項(xiàng)蚀同,可修改的選項(xiàng)有Distance、K-method和Clusters, k
- Distance
- Uncentered Correlation
- Pearson Correlation
- Euclidean
- K-method
- Mean
- Median
- Clusters, k:2-15
- Distance
- 點(diǎn)擊Display即可進(jìn)行聚類分析
結(jié)果
分析結(jié)束后根據(jù)Clusters, k設(shè)定的數(shù)量將基因分成若干組啊掏,每組生成一張熱圖蠢络,點(diǎn)擊熱圖即可顯示熱圖中基因詳細(xì)的信息和表達(dá)情況
點(diǎn)擊熱圖,同樣會(huì)出現(xiàn)一個(gè)選區(qū)迟蜜,在這里同樣可以使用Download刹孔、Plot values、View in Entrez娜睛、Stack up等功能
By location on chromosome
選擇這一選項(xiàng)后GEO會(huì)按照基因所在的染色體對(duì)DataSet中的基因進(jìn)行分類髓霞,并顯示熱圖
點(diǎn)擊熱圖,同樣會(huì)出現(xiàn)一個(gè)選區(qū)微姊,在這里同樣可以使用Download酸茴、Plot values分预、View in Entrez兢交、Stack up等功能
Experiment design and value distribution
用于質(zhì)量控制,判斷數(shù)據(jù)是否經(jīng)過歸一化
GEO BLAST
網(wǎng)址:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_SPEC=GeoBlast&PAGE_TYPE=BlastSearch
GEO2R
GEO2R(GEO to R)是GEO數(shù)據(jù)庫(kù)自帶的數(shù)據(jù)分析工具笼痹。GEO2R可以通過可視化的方式對(duì)基因表達(dá)譜進(jìn)行統(tǒng)計(jì)學(xué)分析配喳,在操作上非常方便酪穿,但是,某些數(shù)據(jù)集不提供GEO2R功能晴裹,且當(dāng)樣本數(shù)目較大時(shí)被济,手動(dòng)選取樣本也比較不便。此外涧团,GEO2R的進(jìn)行分析時(shí)單次分析的運(yùn)算時(shí)間被限制在10分鐘以內(nèi)只磷,因此如果樣本數(shù)量很大,有可能無法完成分析泌绣。下面對(duì)GEO2R的基本操作進(jìn)行介紹钮追,關(guān)于GEO2R的更多信息請(qǐng)參考官方文檔https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html
操作步驟
- 在DataSet的Reference Series中找到對(duì)應(yīng)的Series或直接搜索Series,在對(duì)應(yīng)的頁面中即可找到Analyze with GEO2R按鈕
- 在靠近頁面底端的位置阿迈,可以找到
Analyze with GEO2R
按鈕元媚,點(diǎn)擊即可打開GEO2R操作界面 - 頁面加載完成后,可以看到一張記錄了所有樣本信息的表格苗沧。這里需要我們手動(dòng)對(duì)樣本進(jìn)行分組刊棕。點(diǎn)擊
Define groups
,輸入組名之后按Enter
即可建立一個(gè)新分組待逞。由于不同的數(shù)據(jù)集的實(shí)驗(yàn)設(shè)計(jì)有所不同甥角,分組應(yīng)該根據(jù)實(shí)際情況靈活進(jìn)行。 - 選中表格中的樣本识樱,點(diǎn)擊組名蜈膨,即可將選中的樣本加入這一組中。
- 完成分組后牺荠,在GEO2R選項(xiàng)卡中點(diǎn)擊Analyze即可對(duì)數(shù)據(jù)進(jìn)行分析
- 分析完成后翁巍,網(wǎng)頁下方會(huì)顯示分析結(jié)果。Visualization板塊中顯示了不同格式的圖形可視化結(jié)果休雌,包括常見的火山圖灶壶、維恩圖等。Top differentially expressed genes板塊中則列出了表達(dá)差異具有統(tǒng)計(jì)學(xué)意義的基因杈曲,點(diǎn)擊Download full table即可將這張表下載下來驰凛。
字段
點(diǎn)擊Select columns可以增加或減少結(jié)果表格中的字段。字段可分為數(shù)據(jù)(Data columns)和注釋(Annotation columns)兩類担扑。注釋字段與數(shù)據(jù)集的注釋文件有關(guān)恰响,不同的數(shù)據(jù)集可選的字段可能有所不同。
數(shù)據(jù)部分各字段的含義見下表
字段 | 含義 |
---|---|
Adj P-value | 調(diào)整P值 |
P-value | P值 |
t-statistic | t值(檢驗(yàn)統(tǒng)計(jì)量) |
B-value | Log odds |
logFC | Log fold change(差異倍數(shù)的對(duì)數(shù))涌献,正數(shù)代表上調(diào)胚宦,負(fù)數(shù)代表下調(diào) |
F-statisti | F值(檢驗(yàn)統(tǒng)計(jì)量) |
選項(xiàng)
在Option選項(xiàng)卡中我們可以指定在進(jìn)行差異分析時(shí)的統(tǒng)計(jì)學(xué)方法以及圖表的參數(shù)。
- Apply adjustment to the P-values:計(jì)算調(diào)整P值的方法,默認(rèn)為Benjamini & Hochberg false discovery rate
- Apply log transformation to the data:GEO2R會(huì)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行檢測(cè)枢劝,如果有必要井联,GEO2R就會(huì)自動(dòng)將數(shù)據(jù)取對(duì)數(shù)。這個(gè)選項(xiàng)可以強(qiáng)制GEO2R進(jìn)行或不進(jìn)行對(duì)數(shù)轉(zhuǎn)換您旁,默認(rèn)為自動(dòng)檢測(cè)烙常。Limma包(進(jìn)行差異分析時(shí)使用的R包)需要使用經(jīng)過對(duì)數(shù)轉(zhuǎn)換的數(shù)據(jù),但是原始數(shù)據(jù)是否已經(jīng)經(jīng)過對(duì)數(shù)轉(zhuǎn)換是不確定的鹤盒,因此如果原始數(shù)據(jù)未經(jīng)對(duì)數(shù)轉(zhuǎn)換蚕脏,就需要對(duì)其取對(duì)數(shù),否則結(jié)果就會(huì)出錯(cuò)(比如原本有差異的數(shù)據(jù)做不出差異)侦锯。
- Apply limma precision weights (vooma):使用vomma函數(shù)估計(jì)均值-方差關(guān)系蝗锥,并用它來計(jì)算適當(dāng)?shù)挠^測(cè)水平權(quán)重
- Force normalization:對(duì)表達(dá)數(shù)據(jù)使用quantile normalization
-
Category of Platform annotation to display on results:GEO2R會(huì)對(duì)數(shù)據(jù)進(jìn)行注釋。原始的數(shù)據(jù)一般只包括探針名稱率触、樣本名稱终议、表達(dá)數(shù)據(jù)等信息,而經(jīng)過注釋的數(shù)據(jù)會(huì)顯示包括探針對(duì)應(yīng)的基因名稱在內(nèi)的多種有用的信息葱蝗。注釋信息的來源有兩種:
- Submitter supplied:由實(shí)驗(yàn)者提交的注釋信息穴张,其樣式和內(nèi)容可能有較大的差異,而且可能沒有及時(shí)更新
- NCBI generated:有NCBI自動(dòng)生成并定期更新的注釋信息两曼、
-
Plot displays:這組選項(xiàng)主要控制圖表的生成
- Significance level cut-off:默認(rèn)情況下皂甘,GEO2R認(rèn)為當(dāng)P小于0.05時(shí)差異是顯著的(在火山圖等圖表中這些有顯著差異的基因會(huì)用特殊的顏色標(biāo)注),如果有特殊需要悼凑,這個(gè)標(biāo)準(zhǔn)可以在這里修改偿枕。
- Volcano and MA plot contrasts:火山圖、維恩圖等圖表只能用于兩個(gè)數(shù)據(jù)組之間的比較户辫,因此如果定義了多個(gè)數(shù)據(jù)組的話渐夸,GEO2R會(huì)對(duì)這些數(shù)據(jù)組進(jìn)行兩兩組合,每個(gè)組合生成一張圖表渔欢。但是這個(gè)組合的上限是五組墓塌,因此如果定義了很多數(shù)據(jù)組,可以在這里選擇要生成圖表的數(shù)據(jù)組合奥额。
剖面圖
在Profile graph選項(xiàng)卡中輸入探針的名稱苫幢,可以顯示該探針檢測(cè)的不同樣本的表達(dá)情況
點(diǎn)擊View data for GPL...可以查看平臺(tái)文件(平臺(tái)文件通常會(huì)記錄探針和基因的對(duì)應(yīng)情況)
R腳本
在R script選項(xiàng)卡中可以看到GEO2R使用的R語言腳本。