2021-06-24 GEO數(shù)據(jù)庫

GEO數(shù)據(jù)庫全稱GENE EXPRESSION OMNIBUS锅知,是由美國國立生物技術(shù)信息中心NCBI創(chuàng)建并維護的基因表達數(shù)據(jù)庫厕九。它創(chuàng)建于2000年,收錄了世界各國研究機構(gòu)提交的高通量基因表達數(shù)據(jù)藻丢,也就是說只要是目前已經(jīng)發(fā)表的論文犁跪,論文中涉及到的基因表達檢測的數(shù)據(jù)都可以通過這個數(shù)據(jù)庫中找到。關(guān)鍵是這個數(shù)據(jù)是免費的法希!

NCBI Gene Expression Omnibus(GEO)作為各種高通量實驗數(shù)據(jù)的公共存儲庫枷餐。這些數(shù)據(jù)包括基于單通道和雙通道微陣列的實驗,檢測mRNA苫亦,基因組DNA和蛋白質(zhì)豐度毛肋,以及非陣列技術(shù),如基因表達系列分析(SAGE)著觉,質(zhì)譜蛋白質(zhì)組學(xué)數(shù)據(jù)和高通量測序數(shù)據(jù)村生。

在GEO最基本的組織層面,有四種基本實體類型饼丘。前三個(樣本趁桃,平臺和系列)由用戶提供; 第四,數(shù)據(jù)集由GEO工作人員根據(jù)用戶提交的數(shù)據(jù)進行編譯和策劃。

檢索

網(wǎng)址:https://www.ncbi.nlm.nih.gov/geo/


或者通過NCBI首頁卫病,All Databases下拉框中選擇GEO DataSets油啤,輸入關(guān)鍵詞即可搜索。

這里以檢索胃癌(stomach cancer )的數(shù)據(jù)為例蟀苛。

1

1益咬、Entry type有四種:Datasets,Series帜平,Samples幽告,Platforms。這也是GEO主要的四類數(shù)據(jù)裆甩。
1.1 GEO Dataset (GDS):GDS是人工整理好的關(guān)于某個類別的GSM的集合
1.2 GEO Series (GSE):GSE是一個實驗項目中的所有樣本的芯片實驗數(shù)據(jù)集合
1.3 GEO Sample (GSM):GSM是單個樣本的實驗數(shù)據(jù)
1.4 GEO Platform (GPL):GPL是芯片的平臺冗锁,如Affmetrix, Aglent等
一篇文章可以有一個或者多個GSE數(shù)據(jù)集,一個GSE里面可以有一個或者多個GSM樣本嗤栓。多個研究的GSM樣本可以根據(jù)研究目的整合為一個GDS冻河,不過GDS本身用的很少。而每個數(shù)據(jù)集都有著自己對應(yīng)的芯片平臺茉帅,就是GPL叨叙。一個GSM可以有多個GSE,每個GSM都會對應(yīng)其測序平臺GPL堪澎,GDS一般不接觸擂错,我們通常接觸的都是GSE系列的數(shù)據(jù)。

平臺:
平臺記錄描述陣列上的元件列表(例如全封,cDNA马昙,寡核苷酸探針組,ORF刹悴,抗體)或可在該實驗中檢測和定量的元件列表(例如行楞,SAGE標(biāo)簽,肽)土匀。每個平臺記錄都分配有唯一且穩(wěn)定的GEO登錄號(GPLxxx)子房。平臺可以引用多個提交者提交的許多樣本。
樣品:
樣品記錄描述了處理單個樣品的條件就轧,它經(jīng)歷的操作以及從中得到的每個元素的豐度測量证杭。每個樣品記錄都分配有唯一且穩(wěn)定的GEO登錄號(GSMxxx)。Sample實體必須僅引用一個Platform妒御,可以包含在多個Series中解愤。
系列
系列記錄定義了一組被認(rèn)為是組的一部分的相關(guān)樣本,樣本如何相關(guān)乎莉,以及它們是否以及如何排序送讲。A系列提供了整個實驗的焦點和描述奸笤。系列記錄還可能包含描述提取數(shù)據(jù),摘要結(jié)論或分析的表格哼鬓。每個系列記錄都分配有唯一且穩(wěn)定的GEO登記號(GSExxx)监右。
數(shù)據(jù)集
GEO DataSet(GDSxxx)是GEO樣本數(shù)據(jù)的精選集合。GDS記錄代表了一系列具有生物學(xué)和統(tǒng)計學(xué)意義的GEO樣本异希,構(gòu)成了GEO數(shù)據(jù)顯示和分析工具套件的基礎(chǔ)健盒。GDS中的樣本指的是同一個平臺,也就是說称簿,它們共享一組共同的探測元素扣癣。假設(shè)GDS中每個樣本的值測量值以等效方式計算,即背景處理和標(biāo)準(zhǔn)化等考慮因素在整個數(shù)據(jù)集中是一致的予跌。通過GDS子集提供反映實驗設(shè)計的信息搏色。
記住大小關(guān)系:一個GDS可以有多個GSM善茎,一個GSM可以有多個GSE券册,至于GPL,一般不接觸垂涯,我們通常接觸的都是GSE系列(一個GSE里面有多個GSM)的數(shù)據(jù)烁焙。

2
點擊Customize ...可以添加指定的物種,也可以直接點擊9處進行篩選耕赘,一般不是人就是鼠骄蝇,通常是選擇人。

3
通過研究類型進行篩選操骡,比如二代測序轉(zhuǎn)錄組數(shù)據(jù)九火、chipseq、芯片數(shù)據(jù)的甲基化册招,單核苷酸突變等進行篩選岔激。

4
Author是根據(jù)作者進行篩選,一般用不到是掰。

5
屬性名稱虑鼎,表示數(shù)據(jù)來自于組織還是特定的細(xì)胞類型。

6
Publication dates是指初版日期键痛。點擊Custom range...可以進行篩選時間炫彩。

7
設(shè)置每頁顯示搜多結(jié)果的個數(shù)

8
選擇排序方式

9
篩選組織來源

10
選擇相應(yīng)的數(shù)據(jù)庫,展示搜索細(xì)節(jié)

搜索結(jié)果

GDS編號檢索結(jié)果頁面杉允,以GDS402為例

GSE編號檢索結(jié)果頁面



一般我們想要下載的處理好的數(shù)據(jù)都在supplementary file存放。

GSM編號檢索頁面
因為我們在supplementary file下載的是處理好的數(shù)據(jù),然后用于下游的分析。所以拿到數(shù)據(jù)后最關(guān)心的是這個數(shù)據(jù)是怎么處理的低飒。點擊Samples中的GSM3822269拌喉,便可查看單個樣本的數(shù)據(jù)處理過程残家。



在紅色框中诺擅,可以得知: 使用Illumina HiSeq 2000測序儀進行測序,下級得到FASTQ文件抒钱,然后使用BWA-Bowtie-Cufflinks進行比對、定量诅蝶,比對時候選擇的是hg19參考基因組筐眷。最后我們在supplementary file中下載得到是FPKM值的表達矩陣武翎。得到這些信息后,下游的很多分析才能科學(xué)的進行。

測序平臺

世界上主流的芯片制造商有4家额各,分別是Affymetrix需频,Agilent,Nimblegen以及Illumina昭殉。每家都會針對不同物種苞七、不同測序類型推出不同的芯片,甚至不同時期推出的不同版本芯片的探針也不一樣這就會出現(xiàn)各種各樣的探針信息挪丢。但是我們研究主要關(guān)注點是gene symbol蹂风。因此對于芯片數(shù)據(jù),我們要重點關(guān)注的信息是測序平臺乾蓬,以GPL7202為例


點擊download full table下載惠啄,該文件主要是用于探針id轉(zhuǎn)化。

指定檢索

可以通過庫瀏覽器 (repository browser )從庫中選擇要下載的文件夾內(nèi)容下載任内。點擊紅色框進入repository browser撵渡。



進入的頁面后我們可以看見,數(shù)據(jù)類型死嗦,平臺趋距,樣本和物種的選項,我們可以通過其進行檢索越除。
比如我們尋找chipseq數(shù)據(jù)节腐,就選擇數(shù)據(jù)類型中Genome binding/occupancy profiling by high throughput sequencing




尋找EZH2相關(guān)的chipseq

篩選人源EZH2相關(guān)的chipseq(點紅色框)


下載原始數(shù)據(jù)

在supplementary file中有時候作者并沒有給出處理后的數(shù)據(jù),或者給出的數(shù)據(jù)不全摘盆,我們只能下載原始的fastq數(shù)據(jù)進行比對翼雀、定量拿到表達矩陣。fastq文件一般會存放在SRA數(shù)據(jù)庫中骡澈,我們可以通過GEO數(shù)據(jù)庫去SRA中下載原始文件锅纺。


進入SRA數(shù)據(jù)庫中



選擇需要下載的樣本



在data access中下載,建議用迅雷下載肋殴,比較穩(wěn)定

在線分析工具

我們再看看GDS號檢索的結(jié)果頁面
網(wǎng)址:https://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS402

Find gene工具

該工具用于直接查找該數(shù)據(jù)集中該基因的表達譜數(shù)據(jù)囤锉。

我們以檢索brca1基因為例
進入一個新的界面

往下拉我們會找到一個Brca1的一個表達譜數(shù)據(jù)集坦弟。

點擊右側(cè)的圖進入詳細(xì)頁面,該頁面具有該基因在各個樣本中的表達信息官地,并且樣本的分組信息也有酿傍。
Find genes that are up/down for this condition(s)可以根據(jù)選擇的實驗篩選條件來找到一序列隨該篩選條件有較明顯表達差異的基因表達譜。假設(shè)我們要檢索和疾病分期有關(guān)的上調(diào)或下調(diào)的基因驱入。

可以看到檢索到了79個基因赤炒。

我們點擊第一個基因,同樣可以看到該基因的詳細(xì)信息亏较。

Compare 2 sets of samples工具

step1:選擇比較方式和顯著性水平
step2:選擇A和B兩樣本組
step3:比較A樣本和B樣本

我們點擊Step2: Select which Samples to put in Group A and Group B會彈出一個窗口莺褒,讓我們自己進行分組。我們可以看見A組合B組的GSM號是一樣的雪情,需要將他分在哪一組就在哪一組點擊一下就行遵岩。背景變?yōu)樯罨疑捅硎颈贿x中,這里將GSM9920-GSM9925定位A組巡通,其余定位B組尘执。點擊OK.


點擊OK后我們會看見Step2下面會出現(xiàn)分組的樣本編號。

點擊Query Group A vs. B我們就會獲得5608個表達差異的基因宴凉。

Cluster heatmaps工具

Cluster heatmaps聚類分析圖包含三種聚類算法
1.層級聚類方法:(Single-Link:最近距離游盲、Complete-Link:最遠(yuǎn)距離跟狱、Average-Link:平均距離)
2.分散性聚類方法:
K- Medioids算法(特點:用類中的某個點來代表該聚類:優(yōu)點:能處理任意類型的屬性胜卤;對異常數(shù)據(jù)不敏感)
K-Means算法(特點:聚類中心用各類別中所有數(shù)據(jù)的平均值表示:優(yōu)點:應(yīng)用最為廣泛祖能;收斂速度快:能擴展以用于大規(guī)模的數(shù)據(jù)集;缺點:傾向于識別凸形分布叉讥、大小相近窘行、密度相近的聚類:中心選擇和噪聲聚類對結(jié)果影響大)
3.按基因處于染色體上位置來聚類


點擊Display,或獲取一個聚類的熱圖图仓,鼠標(biāo)放在熱圖上誰有一個紅色的虛線框,可以通過上下拖動邊框調(diào)整選擇的區(qū)域大小但绕【却蓿可以點擊DOWNLOAD 下載數(shù)據(jù)。

點擊Stack up 可以將所選擇的區(qū)域放大捏顺,能夠看見基因名稱六孵。

點擊Plot value可以看見探針在樣本中的曲線圖。

此外Cluster heatmaps工具中還有一個(K-means/K-medians)的聚類幅骄。

通過設(shè)置高低表達的顏色劫窒,設(shè)置聚類個數(shù)(cluster,2-15)拆座,這里選擇4主巍,點擊Display



而對于By location on chromosome冠息,是將基因定位于染色體上進行分析。


Experiment design and value distribution工具


這就是每個樣本中所有基因表達值的一個匯總孕索,這是歸一化后的箱線圖逛艰,看起來質(zhì)量不錯。


GEO2R

  • GEO2R是一個交互式web工具搞旭,它允許用戶比較GEO系列中的兩組或兩組以上的樣本散怖,以便識別在不同實驗條件下表達不同的基因。結(jié)果顯示為按重要性排序的基因表肄渗。

  • GEO2R使用Bioconductor項目中的GEOquery和limma R包對原始提交者提供的處理過的數(shù)據(jù)表執(zhí)行比較镇眷。

  • 與GEO的其他數(shù)據(jù)集分析工具不同,GEO2R不依賴于精心設(shè)計的數(shù)據(jù)集翎嫡,而是直接查詢原始的系列矩陣數(shù)據(jù)文件欠动。這使得及時分析更多的地理數(shù)據(jù)成為可能。然而钝的,重要的是要認(rèn)識到翁垂,無論數(shù)據(jù)類型和質(zhì)量如何,這個工具幾乎可以訪問和分析任何GEO系列硝桩。

在GSE檢索結(jié)果頁面就可以看到這個工具沿猜,這里以GSE49382為例

點擊Analyze with GEO2R進入頁面可以看見所有樣本的信息列表

通過Define groups將樣本進行分組,輸入相應(yīng)的組名

點擊組A,會彈出一個對話框碗脊,讓你選擇要歸入A組的樣本啼肩,點擊相應(yīng)的樣本即可(按住Crtl多選)

點擊analyze
  • 結(jié)果在瀏覽器中顯示為按p值排列的前250個基因的表。p值最小的基因最顯著衙伶。單擊一行顯示該基因的基因表達譜圖祈坠。圖中的每個紅條表示從原始提交者提供的樣例記錄的value列中提取的表達式度量。
    使用Select columns特性修改表中包含哪些數(shù)據(jù)和注釋列矢劲。有關(guān)數(shù)據(jù)列含義的信息在Summary statistics部分中提供赦拘。

  • 在Options選項卡中編輯測試參數(shù),然后回到GEO2R選項卡并單擊Recalculate來應(yīng)用編輯芬沉。

  • 要查看超過前250個結(jié)果躺同,或者如果想保存結(jié)果,可以使用save all results按鈕下載完整的結(jié)果表丸逸。下載的文件以制表符分隔蹋艺,適合在Excel等電子表格應(yīng)用程序中打開。


Options

  • Apply adjustment to the P-values

Limma包提供了幾個p值調(diào)整選項黄刚。這些調(diào)整捎谨,也稱為多次測試糾正,試圖糾正錯誤陽性結(jié)果的發(fā)生。默認(rèn)選擇Benjamini & Hochberg錯誤發(fā)現(xiàn)率方法涛救,因為它是對微陣列數(shù)據(jù)最常用的調(diào)整畏邢,并在發(fā)現(xiàn)統(tǒng)計上重要的基因和限制假陽性之間提供了良好的平衡。

  • Apply log transformation to the data

GEO數(shù)據(jù)庫接受各種數(shù)據(jù)值類型州叠,包括logged和未logged的數(shù)據(jù)棵红。Limma包需要使用logged數(shù)據(jù)為了解決這個問題,GEO2R有一個自動檢測特性咧栗,它檢查所選樣本的值逆甜,并自動執(zhí)行l(wèi)og2轉(zhuǎn)換≈掳澹可選擇是否自動轉(zhuǎn)換交煞。

  • Category of Platform annotation to display on results

選擇要在結(jié)果上顯示的注釋類別≌寤颍基因注釋來自于相應(yīng)的平臺記錄素征。有兩種注釋類型:
NCBI生成的注釋可用于許多記錄。這些注釋是通過從平臺中提取穩(wěn)定的序列識別信息萝挤,定期查詢Entrez基因和UniGene數(shù)據(jù)庫御毅,生成一致的、最新的注釋而得到的怜珍。默認(rèn)情況下選擇基因符號和基因標(biāo)題注釋端蛆。NCBI生成的注釋的其他類別包括GO術(shù)語和染色體位置信息。
提交者提供的注釋可用于所有記錄酥泛。這些表示提交者提供的原始平臺注釋今豆。請注意,提交者提供的注釋在樣式和內(nèi)容上有很多多樣性柔袁,而且自提交時起可能就沒有更新過呆躲。

Profile graph

通過從平臺記錄的ID列輸入相應(yīng)的標(biāo)識符來查看特定的基因表達譜圖。此功能不執(zhí)行任何計算;它只是在樣本間顯示基因的表達值捶索。要使此功能正常工作插掂,不需要定義示例組。

R script

此選項卡打印用于執(zhí)行計算的R腳本腥例。這些信息可以保存下來燥筷,作為計算結(jié)果的參考。

參考:https://zhuanlan.zhihu.com/p/72484266
公眾號:Bioinformation

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末院崇,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子袍祖,更是在濱河造成了極大的恐慌底瓣,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異捐凭,居然都是意外死亡拨扶,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門茁肠,熙熙樓的掌柜王于貴愁眉苦臉地迎上來患民,“玉大人,你說我怎么就攤上這事垦梆∑ゲ” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵托猩,是天一觀的道長印蓖。 經(jīng)常有香客問我,道長京腥,這世上最難降的妖魔是什么赦肃? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮公浪,結(jié)果婚禮上他宛,老公的妹妹穿的比我還像新娘。我一直安慰自己欠气,他們只是感情好厅各,可當(dāng)我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著晃琳,像睡著了一般讯检。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上卫旱,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天人灼,我揣著相機與錄音,去河邊找鬼顾翼。 笑死投放,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的适贸。 我是一名探鬼主播灸芳,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼拜姿!你這毒婦竟也來了烙样?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤蕊肥,失蹤者是張志新(化名)和其女友劉穎谒获,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡批狱,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年裸准,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片赔硫。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡炒俱,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出爪膊,到底是詐尸還是另有隱情权悟,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布惊完,位于F島的核電站僵芹,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏小槐。R本人自食惡果不足惜拇派,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望凿跳。 院中可真熱鬧件豌,春花似錦、人聲如沸控嗜。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽疆栏。三九已至曾掂,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間壁顶,已是汗流浹背珠洗。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留若专,地道東北人许蓖。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像调衰,于是被迫代替她去往敵國和親膊爪。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容