GEO數(shù)據(jù)庫全稱GENE EXPRESSION OMNIBUS锅知,是由美國國立生物技術(shù)信息中心NCBI創(chuàng)建并維護的基因表達數(shù)據(jù)庫厕九。它創(chuàng)建于2000年,收錄了世界各國研究機構(gòu)提交的高通量基因表達數(shù)據(jù)藻丢,也就是說只要是目前已經(jīng)發(fā)表的論文犁跪,論文中涉及到的基因表達檢測的數(shù)據(jù)都可以通過這個數(shù)據(jù)庫中找到。關(guān)鍵是這個數(shù)據(jù)是免費的法希!
NCBI Gene Expression Omnibus(GEO)作為各種高通量實驗數(shù)據(jù)的公共存儲庫枷餐。這些數(shù)據(jù)包括基于單通道和雙通道微陣列的實驗,檢測mRNA苫亦,基因組DNA和蛋白質(zhì)豐度毛肋,以及非陣列技術(shù),如基因表達系列分析(SAGE)著觉,質(zhì)譜蛋白質(zhì)組學(xué)數(shù)據(jù)和高通量測序數(shù)據(jù)村生。
在GEO最基本的組織層面,有四種基本實體類型饼丘。前三個(樣本趁桃,平臺和系列)由用戶提供; 第四,數(shù)據(jù)集由GEO工作人員根據(jù)用戶提交的數(shù)據(jù)進行編譯和策劃。
檢索
網(wǎng)址:https://www.ncbi.nlm.nih.gov/geo/
或者通過NCBI首頁卫病,All Databases下拉框中選擇GEO DataSets油啤,輸入關(guān)鍵詞即可搜索。
這里以檢索胃癌(stomach cancer )的數(shù)據(jù)為例蟀苛。
1
1益咬、Entry type有四種:Datasets,Series帜平,Samples幽告,Platforms。這也是GEO主要的四類數(shù)據(jù)裆甩。
1.1 GEO Dataset (GDS):GDS是人工整理好的關(guān)于某個類別的GSM的集合
1.2 GEO Series (GSE):GSE是一個實驗項目中的所有樣本的芯片實驗數(shù)據(jù)集合
1.3 GEO Sample (GSM):GSM是單個樣本的實驗數(shù)據(jù)
1.4 GEO Platform (GPL):GPL是芯片的平臺冗锁,如Affmetrix, Aglent等
一篇文章可以有一個或者多個GSE數(shù)據(jù)集,一個GSE里面可以有一個或者多個GSM樣本嗤栓。多個研究的GSM樣本可以根據(jù)研究目的整合為一個GDS冻河,不過GDS本身用的很少。而每個數(shù)據(jù)集都有著自己對應(yīng)的芯片平臺茉帅,就是GPL叨叙。一個GSM可以有多個GSE,每個GSM都會對應(yīng)其測序平臺GPL堪澎,GDS一般不接觸擂错,我們通常接觸的都是GSE系列的數(shù)據(jù)。
平臺:
平臺記錄描述陣列上的元件列表(例如全封,cDNA马昙,寡核苷酸探針組,ORF刹悴,抗體)或可在該實驗中檢測和定量的元件列表(例如行楞,SAGE標(biāo)簽,肽)土匀。每個平臺記錄都分配有唯一且穩(wěn)定的GEO登錄號(GPLxxx)子房。平臺可以引用多個提交者提交的許多樣本。
樣品:
樣品記錄描述了處理單個樣品的條件就轧,它經(jīng)歷的操作以及從中得到的每個元素的豐度測量证杭。每個樣品記錄都分配有唯一且穩(wěn)定的GEO登錄號(GSMxxx)。Sample實體必須僅引用一個Platform妒御,可以包含在多個Series中解愤。
系列
系列記錄定義了一組被認(rèn)為是組的一部分的相關(guān)樣本,樣本如何相關(guān)乎莉,以及它們是否以及如何排序送讲。A系列提供了整個實驗的焦點和描述奸笤。系列記錄還可能包含描述提取數(shù)據(jù),摘要結(jié)論或分析的表格哼鬓。每個系列記錄都分配有唯一且穩(wěn)定的GEO登記號(GSExxx)监右。
數(shù)據(jù)集
GEO DataSet(GDSxxx)是GEO樣本數(shù)據(jù)的精選集合。GDS記錄代表了一系列具有生物學(xué)和統(tǒng)計學(xué)意義的GEO樣本异希,構(gòu)成了GEO數(shù)據(jù)顯示和分析工具套件的基礎(chǔ)健盒。GDS中的樣本指的是同一個平臺,也就是說称簿,它們共享一組共同的探測元素扣癣。假設(shè)GDS中每個樣本的值測量值以等效方式計算,即背景處理和標(biāo)準(zhǔn)化等考慮因素在整個數(shù)據(jù)集中是一致的予跌。通過GDS子集提供反映實驗設(shè)計的信息搏色。
記住大小關(guān)系:一個GDS可以有多個GSM善茎,一個GSM可以有多個GSE券册,至于GPL,一般不接觸垂涯,我們通常接觸的都是GSE系列(一個GSE里面有多個GSM)的數(shù)據(jù)烁焙。
2
點擊Customize ...可以添加指定的物種,也可以直接點擊9處進行篩選耕赘,一般不是人就是鼠骄蝇,通常是選擇人。
3
通過研究類型進行篩選操骡,比如二代測序轉(zhuǎn)錄組數(shù)據(jù)九火、chipseq、芯片數(shù)據(jù)的甲基化册招,單核苷酸突變等進行篩選岔激。
4
Author是根據(jù)作者進行篩選,一般用不到是掰。
5
屬性名稱虑鼎,表示數(shù)據(jù)來自于組織還是特定的細(xì)胞類型。
6
Publication dates是指初版日期键痛。點擊Custom range...可以進行篩選時間炫彩。
7
設(shè)置每頁顯示搜多結(jié)果的個數(shù)
8
選擇排序方式
9
篩選組織來源
10
選擇相應(yīng)的數(shù)據(jù)庫,展示搜索細(xì)節(jié)
搜索結(jié)果
GDS編號檢索結(jié)果頁面杉允,以GDS402為例
GSE編號檢索結(jié)果頁面
一般我們想要下載的處理好的數(shù)據(jù)都在supplementary file存放。
GSM編號檢索頁面
因為我們在supplementary file下載的是處理好的數(shù)據(jù),然后用于下游的分析。所以拿到數(shù)據(jù)后最關(guān)心的是這個數(shù)據(jù)是怎么處理的低飒。點擊Samples中的GSM3822269拌喉,便可查看單個樣本的數(shù)據(jù)處理過程残家。
在紅色框中诺擅,可以得知: 使用Illumina HiSeq 2000測序儀進行測序,下級得到FASTQ文件抒钱,然后使用BWA-Bowtie-Cufflinks進行比對、定量诅蝶,比對時候選擇的是hg19參考基因組筐眷。最后我們在supplementary file中下載得到是FPKM值的表達矩陣武翎。得到這些信息后,下游的很多分析才能科學(xué)的進行。
測序平臺
世界上主流的芯片制造商有4家额各,分別是Affymetrix需频,Agilent,Nimblegen以及Illumina昭殉。每家都會針對不同物種苞七、不同測序類型推出不同的芯片,甚至不同時期推出的不同版本芯片的探針也不一樣這就會出現(xiàn)各種各樣的探針信息挪丢。但是我們研究主要關(guān)注點是gene symbol蹂风。因此對于芯片數(shù)據(jù),我們要重點關(guān)注的信息是測序平臺乾蓬,以GPL7202為例
點擊download full table下載惠啄,該文件主要是用于探針id轉(zhuǎn)化。
指定檢索
可以通過庫瀏覽器 (repository browser )從庫中選擇要下載的文件夾內(nèi)容下載任内。點擊紅色框進入repository browser撵渡。
進入的頁面后我們可以看見,數(shù)據(jù)類型死嗦,平臺趋距,樣本和物種的選項,我們可以通過其進行檢索越除。
比如我們尋找chipseq數(shù)據(jù)节腐,就選擇數(shù)據(jù)類型中Genome binding/occupancy profiling by high throughput sequencing
尋找EZH2相關(guān)的chipseq
篩選人源EZH2相關(guān)的chipseq(點紅色框)
下載原始數(shù)據(jù)
在supplementary file中有時候作者并沒有給出處理后的數(shù)據(jù),或者給出的數(shù)據(jù)不全摘盆,我們只能下載原始的fastq數(shù)據(jù)進行比對翼雀、定量拿到表達矩陣。fastq文件一般會存放在SRA數(shù)據(jù)庫中骡澈,我們可以通過GEO數(shù)據(jù)庫去SRA中下載原始文件锅纺。
進入SRA數(shù)據(jù)庫中
選擇需要下載的樣本
在data access中下載,建議用迅雷下載肋殴,比較穩(wěn)定
在線分析工具
我們再看看GDS號檢索的結(jié)果頁面
網(wǎng)址:https://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS402
Find gene工具
該工具用于直接查找該數(shù)據(jù)集中該基因的表達譜數(shù)據(jù)囤锉。
往下拉我們會找到一個Brca1的一個表達譜數(shù)據(jù)集坦弟。
點擊右側(cè)的圖進入詳細(xì)頁面,該頁面具有該基因在各個樣本中的表達信息官地,并且樣本的分組信息也有酿傍。
可以看到檢索到了79個基因赤炒。
我們點擊第一個基因,同樣可以看到該基因的詳細(xì)信息亏较。
Compare 2 sets of samples工具
step1:選擇比較方式和顯著性水平
step2:選擇A和B兩樣本組
step3:比較A樣本和B樣本
我們點擊Step2: Select which Samples to put in Group A and Group B會彈出一個窗口莺褒,讓我們自己進行分組。我們可以看見A組合B組的GSM號是一樣的雪情,需要將他分在哪一組就在哪一組點擊一下就行遵岩。背景變?yōu)樯罨疑捅硎颈贿x中,這里將GSM9920-GSM9925定位A組巡通,其余定位B組尘执。點擊OK.
點擊OK后我們會看見Step2下面會出現(xiàn)分組的樣本編號。
點擊Query Group A vs. B我們就會獲得5608個表達差異的基因宴凉。
Cluster heatmaps工具
Cluster heatmaps聚類分析圖包含三種聚類算法
1.層級聚類方法:(Single-Link:最近距離游盲、Complete-Link:最遠(yuǎn)距離跟狱、Average-Link:平均距離)
2.分散性聚類方法:
K- Medioids算法(特點:用類中的某個點來代表該聚類:優(yōu)點:能處理任意類型的屬性胜卤;對異常數(shù)據(jù)不敏感)
K-Means算法(特點:聚類中心用各類別中所有數(shù)據(jù)的平均值表示:優(yōu)點:應(yīng)用最為廣泛祖能;收斂速度快:能擴展以用于大規(guī)模的數(shù)據(jù)集;缺點:傾向于識別凸形分布叉讥、大小相近窘行、密度相近的聚類:中心選擇和噪聲聚類對結(jié)果影響大)
3.按基因處于染色體上位置來聚類
點擊Display,或獲取一個聚類的熱圖图仓,鼠標(biāo)放在熱圖上誰有一個紅色的虛線框,可以通過上下拖動邊框調(diào)整選擇的區(qū)域大小但绕【却蓿可以點擊DOWNLOAD 下載數(shù)據(jù)。
點擊Stack up 可以將所選擇的區(qū)域放大捏顺,能夠看見基因名稱六孵。
點擊Plot value可以看見探針在樣本中的曲線圖。
此外Cluster heatmaps工具中還有一個(K-means/K-medians)的聚類幅骄。
通過設(shè)置高低表達的顏色劫窒,設(shè)置聚類個數(shù)(cluster,2-15)拆座,這里選擇4主巍,點擊Display
而對于By location on chromosome冠息,是將基因定位于染色體上進行分析。
Experiment design and value distribution工具
這就是每個樣本中所有基因表達值的一個匯總孕索,這是歸一化后的箱線圖逛艰,看起來質(zhì)量不錯。
GEO2R
GEO2R是一個交互式web工具搞旭,它允許用戶比較GEO系列中的兩組或兩組以上的樣本散怖,以便識別在不同實驗條件下表達不同的基因。結(jié)果顯示為按重要性排序的基因表肄渗。
GEO2R使用Bioconductor項目中的GEOquery和limma R包對原始提交者提供的處理過的數(shù)據(jù)表執(zhí)行比較镇眷。
與GEO的其他數(shù)據(jù)集分析工具不同,GEO2R不依賴于精心設(shè)計的數(shù)據(jù)集翎嫡,而是直接查詢原始的系列矩陣數(shù)據(jù)文件欠动。這使得及時分析更多的地理數(shù)據(jù)成為可能。然而钝的,重要的是要認(rèn)識到翁垂,無論數(shù)據(jù)類型和質(zhì)量如何,這個工具幾乎可以訪問和分析任何GEO系列硝桩。
點擊Analyze with GEO2R進入頁面可以看見所有樣本的信息列表
通過Define groups將樣本進行分組,輸入相應(yīng)的組名
點擊組A,會彈出一個對話框碗脊,讓你選擇要歸入A組的樣本啼肩,點擊相應(yīng)的樣本即可(按住Crtl多選)
點擊analyze
結(jié)果在瀏覽器中顯示為按p值排列的前250個基因的表。p值最小的基因最顯著衙伶。單擊一行顯示該基因的基因表達譜圖祈坠。圖中的每個紅條表示從原始提交者提供的樣例記錄的value列中提取的表達式度量。
使用Select columns特性修改表中包含哪些數(shù)據(jù)和注釋列矢劲。有關(guān)數(shù)據(jù)列含義的信息在Summary statistics部分中提供赦拘。在Options選項卡中編輯測試參數(shù),然后回到GEO2R選項卡并單擊Recalculate來應(yīng)用編輯芬沉。
-
要查看超過前250個結(jié)果躺同,或者如果想保存結(jié)果,可以使用save all results按鈕下載完整的結(jié)果表丸逸。下載的文件以制表符分隔蹋艺,適合在Excel等電子表格應(yīng)用程序中打開。
Options
- Apply adjustment to the P-values
Limma包提供了幾個p值調(diào)整選項黄刚。這些調(diào)整捎谨,也稱為多次測試糾正,試圖糾正錯誤陽性結(jié)果的發(fā)生。默認(rèn)選擇Benjamini & Hochberg錯誤發(fā)現(xiàn)率方法涛救,因為它是對微陣列數(shù)據(jù)最常用的調(diào)整畏邢,并在發(fā)現(xiàn)統(tǒng)計上重要的基因和限制假陽性之間提供了良好的平衡。
- Apply log transformation to the data
GEO數(shù)據(jù)庫接受各種數(shù)據(jù)值類型州叠,包括logged和未logged的數(shù)據(jù)棵红。Limma包需要使用logged數(shù)據(jù)為了解決這個問題,GEO2R有一個自動檢測特性咧栗,它檢查所選樣本的值逆甜,并自動執(zhí)行l(wèi)og2轉(zhuǎn)換≈掳澹可選擇是否自動轉(zhuǎn)換交煞。
- Category of Platform annotation to display on results
選擇要在結(jié)果上顯示的注釋類別≌寤颍基因注釋來自于相應(yīng)的平臺記錄素征。有兩種注釋類型:
NCBI生成的注釋可用于許多記錄。這些注釋是通過從平臺中提取穩(wěn)定的序列識別信息萝挤,定期查詢Entrez基因和UniGene數(shù)據(jù)庫御毅,生成一致的、最新的注釋而得到的怜珍。默認(rèn)情況下選擇基因符號和基因標(biāo)題注釋端蛆。NCBI生成的注釋的其他類別包括GO術(shù)語和染色體位置信息。
提交者提供的注釋可用于所有記錄酥泛。這些表示提交者提供的原始平臺注釋今豆。請注意,提交者提供的注釋在樣式和內(nèi)容上有很多多樣性柔袁,而且自提交時起可能就沒有更新過呆躲。
Profile graph
通過從平臺記錄的ID列輸入相應(yīng)的標(biāo)識符來查看特定的基因表達譜圖。此功能不執(zhí)行任何計算;它只是在樣本間顯示基因的表達值捶索。要使此功能正常工作插掂,不需要定義示例組。R script
此選項卡打印用于執(zhí)行計算的R腳本腥例。這些信息可以保存下來燥筷,作為計算結(jié)果的參考。參考:https://zhuanlan.zhihu.com/p/72484266
公眾號:Bioinformation