3.2 GEO數(shù)據(jù)庫(kù)常用分析工具

GEO數(shù)據(jù)庫(kù)常用分析工具

  • GEO DataSets提供的分析工具
  • GEO2R

GEO DataSets提供的分析工具

在GEO DataSets的詳情界面有一個(gè)Data Analysis Tools板塊,在這里由一些實(shí)用的分析工具

GEO DataSets詳情界面

Find genes

  • Find gene name or symbol:查找該DataSet中某一基因的Profile
  • Find genes that are up/down for this condition(s):將數(shù)據(jù)按照特定的標(biāo)準(zhǔn)分組,在該DataSet中查找在這種分組條件下組間存在差異表達(dá)的基因的Profile

Compare 2 sets of samples

用于獲取在選定的兩組樣本之間差異表達(dá)的基因

  1. 選擇檢驗(yàn)方法和顯著性水平
  2. 對(duì)數(shù)據(jù)進(jìn)行分組
  3. 進(jìn)行比較

選擇檢驗(yàn)方法和顯著性水平

可選擇的檢驗(yàn)方法有

  • Two-tailed t-test (A vs B):雙尾t檢驗(yàn)
  • Ont-tailed t-test (A > B):?jiǎn)挝瞭檢驗(yàn)
  • Ont-tailed t-test (A < B):?jiǎn)挝瞭檢驗(yàn)
  • Value means difference:不知道是啥
  • Rank means difference:不知道是啥盒至,大概是秩和之類的東西吧

可選擇的顯著性水平有

  • 0.100
  • 0.050
  • 0.010

對(duì)數(shù)據(jù)進(jìn)行分組

我們需要將數(shù)據(jù)分成兩組塞蹭,點(diǎn)擊Select which Samples to put in Group A and Group B

選擇面板

面板中共有兩個(gè)樣本名稱的列表雀久,每一列代表一個(gè)組中的樣本隐圾,點(diǎn)擊樣本名稱就可以選中相應(yīng)的樣本

進(jìn)行比較

點(diǎn)擊Query Group A vs. B即可進(jìn)行比較

Cluster heatmaps

用于生成聚類分析的熱圖,聚類分析的方法有以下幾種

  • Hierarchical
  • Partitional (K-means/K-medians)
  • By location on chromosome

Hierarchical

方法

可修改的參數(shù)有Distance和Linkage偎快,點(diǎn)擊Display即可進(jìn)行聚類分析
Distance可設(shè)置為

  • Uncentered Correlation
  • Pearson Correlation
  • Euclidean

Linkage可設(shè)置為

  • Average/UPGMA
  • Single
  • Complete
結(jié)果
  • 分析完成后會(huì)顯示一張熱圖禽笑,點(diǎn)擊熱圖入录,會(huì)顯示一個(gè)選擇范圍,可以調(diào)整選區(qū)的高度佳镜,選中感興趣的基因
  • 點(diǎn)擊Stack up或雙擊選區(qū)即可顯示選中的基因詳細(xì)的信息和表達(dá)情況
  • 點(diǎn)擊Download可以下載選中的基因的表達(dá)數(shù)據(jù)
  • 點(diǎn)擊Plot values可以顯示選中的基因的表達(dá)量的可視化結(jié)果僚稿,結(jié)果頁面中提供了三個(gè)按鈕
    • Download displayed data:下載途中的基因數(shù)據(jù),效果與之前的Donwload按鈕一直
    • Show heat map region:跳轉(zhuǎn)到熱圖界面蟀伸,效果與之前的Stack up按鈕一致
    • View profiles in Entrez:檢索圖中基因的Profiles
結(jié)果熱圖

Partitional (K-means/K-medians)

方法
  1. 在Color Options中可以選擇高表達(dá)的基因和低表達(dá)的基因用什么顏色表示
  2. 在Clustering Options中可以選擇聚類分析的選項(xiàng)蚀同,可修改的選項(xiàng)有Distance、K-method和Clusters, k
    • Distance
      • Uncentered Correlation
      • Pearson Correlation
      • Euclidean
    • K-method
      • Mean
      • Median
    • Clusters, k:2-15
  3. 點(diǎn)擊Display即可進(jìn)行聚類分析
結(jié)果

分析結(jié)束后根據(jù)Clusters, k設(shè)定的數(shù)量將基因分成若干組啊掏,每組生成一張熱圖蠢络,點(diǎn)擊熱圖即可顯示熱圖中基因詳細(xì)的信息和表達(dá)情況

聚類分析結(jié)果

點(diǎn)擊熱圖,同樣會(huì)出現(xiàn)一個(gè)選區(qū)迟蜜,在這里同樣可以使用Download刹孔、Plot values、View in Entrez娜睛、Stack up等功能

結(jié)果熱圖

By location on chromosome

選擇這一選項(xiàng)后GEO會(huì)按照基因所在的染色體對(duì)DataSet中的基因進(jìn)行分類髓霞,并顯示熱圖
點(diǎn)擊熱圖,同樣會(huì)出現(xiàn)一個(gè)選區(qū)微姊,在這里同樣可以使用Download酸茴、Plot values分预、View in Entrez兢交、Stack up等功能

按染色體位置分類結(jié)果

Experiment design and value distribution

用于質(zhì)量控制,判斷數(shù)據(jù)是否經(jīng)過歸一化

GEO BLAST

網(wǎng)址:https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&BLAST_SPEC=GeoBlast&PAGE_TYPE=BlastSearch

GEO2R

GEO2R(GEO to R)是GEO數(shù)據(jù)庫(kù)自帶的數(shù)據(jù)分析工具笼痹。GEO2R可以通過可視化的方式對(duì)基因表達(dá)譜進(jìn)行統(tǒng)計(jì)學(xué)分析配喳,在操作上非常方便酪穿,但是,某些數(shù)據(jù)集不提供GEO2R功能晴裹,且當(dāng)樣本數(shù)目較大時(shí)被济,手動(dòng)選取樣本也比較不便。此外涧团,GEO2R的進(jìn)行分析時(shí)單次分析的運(yùn)算時(shí)間被限制在10分鐘以內(nèi)只磷,因此如果樣本數(shù)量很大,有可能無法完成分析泌绣。下面對(duì)GEO2R的基本操作進(jìn)行介紹钮追,關(guān)于GEO2R的更多信息請(qǐng)參考官方文檔https://www.ncbi.nlm.nih.gov/geo/info/geo2r.html

操作步驟

  1. 在DataSet的Reference Series中找到對(duì)應(yīng)的Series或直接搜索Series,在對(duì)應(yīng)的頁面中即可找到Analyze with GEO2R按鈕
  2. 在靠近頁面底端的位置阿迈,可以找到Analyze with GEO2R按鈕元媚,點(diǎn)擊即可打開GEO2R操作界面
  3. 頁面加載完成后,可以看到一張記錄了所有樣本信息的表格苗沧。這里需要我們手動(dòng)對(duì)樣本進(jìn)行分組刊棕。點(diǎn)擊Define groups,輸入組名之后按Enter即可建立一個(gè)新分組待逞。由于不同的數(shù)據(jù)集的實(shí)驗(yàn)設(shè)計(jì)有所不同甥角,分組應(yīng)該根據(jù)實(shí)際情況靈活進(jìn)行。
  4. 選中表格中的樣本识樱,點(diǎn)擊組名蜈膨,即可將選中的樣本加入這一組中。
  5. 完成分組后牺荠,在GEO2R選項(xiàng)卡中點(diǎn)擊Analyze即可對(duì)數(shù)據(jù)進(jìn)行分析
  6. 分析完成后翁巍,網(wǎng)頁下方會(huì)顯示分析結(jié)果。Visualization板塊中顯示了不同格式的圖形可視化結(jié)果休雌,包括常見的火山圖灶壶、維恩圖等。Top differentially expressed genes板塊中則列出了表達(dá)差異具有統(tǒng)計(jì)學(xué)意義的基因杈曲,點(diǎn)擊Download full table即可將這張表下載下來驰凛。

字段

點(diǎn)擊Select columns可以增加或減少結(jié)果表格中的字段。字段可分為數(shù)據(jù)(Data columns)和注釋(Annotation columns)兩類担扑。注釋字段與數(shù)據(jù)集的注釋文件有關(guān)恰响,不同的數(shù)據(jù)集可選的字段可能有所不同。
數(shù)據(jù)部分各字段的含義見下表

字段 含義
Adj P-value 調(diào)整P值
P-value P值
t-statistic t值(檢驗(yàn)統(tǒng)計(jì)量)
B-value Log odds
logFC Log fold change(差異倍數(shù)的對(duì)數(shù))涌献,正數(shù)代表上調(diào)胚宦,負(fù)數(shù)代表下調(diào)
F-statisti F值(檢驗(yàn)統(tǒng)計(jì)量)

選項(xiàng)

在Option選項(xiàng)卡中我們可以指定在進(jìn)行差異分析時(shí)的統(tǒng)計(jì)學(xué)方法以及圖表的參數(shù)。

  • Apply adjustment to the P-values:計(jì)算調(diào)整P值的方法,默認(rèn)為Benjamini & Hochberg false discovery rate
  • Apply log transformation to the data:GEO2R會(huì)對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行檢測(cè)枢劝,如果有必要井联,GEO2R就會(huì)自動(dòng)將數(shù)據(jù)取對(duì)數(shù)。這個(gè)選項(xiàng)可以強(qiáng)制GEO2R進(jìn)行或不進(jìn)行對(duì)數(shù)轉(zhuǎn)換您旁,默認(rèn)為自動(dòng)檢測(cè)烙常。Limma包(進(jìn)行差異分析時(shí)使用的R包)需要使用經(jīng)過對(duì)數(shù)轉(zhuǎn)換的數(shù)據(jù),但是原始數(shù)據(jù)是否已經(jīng)經(jīng)過對(duì)數(shù)轉(zhuǎn)換是不確定的鹤盒,因此如果原始數(shù)據(jù)未經(jīng)對(duì)數(shù)轉(zhuǎn)換蚕脏,就需要對(duì)其取對(duì)數(shù),否則結(jié)果就會(huì)出錯(cuò)(比如原本有差異的數(shù)據(jù)做不出差異)侦锯。
  • Apply limma precision weights (vooma):使用vomma函數(shù)估計(jì)均值-方差關(guān)系蝗锥,并用它來計(jì)算適當(dāng)?shù)挠^測(cè)水平權(quán)重
  • Force normalization:對(duì)表達(dá)數(shù)據(jù)使用quantile normalization
  • Category of Platform annotation to display on results:GEO2R會(huì)對(duì)數(shù)據(jù)進(jìn)行注釋。原始的數(shù)據(jù)一般只包括探針名稱率触、樣本名稱终议、表達(dá)數(shù)據(jù)等信息,而經(jīng)過注釋的數(shù)據(jù)會(huì)顯示包括探針對(duì)應(yīng)的基因名稱在內(nèi)的多種有用的信息葱蝗。注釋信息的來源有兩種:
    • Submitter supplied:由實(shí)驗(yàn)者提交的注釋信息穴张,其樣式和內(nèi)容可能有較大的差異,而且可能沒有及時(shí)更新
    • NCBI generated:有NCBI自動(dòng)生成并定期更新的注釋信息两曼、
  • Plot displays:這組選項(xiàng)主要控制圖表的生成
    • Significance level cut-off:默認(rèn)情況下皂甘,GEO2R認(rèn)為當(dāng)P小于0.05時(shí)差異是顯著的(在火山圖等圖表中這些有顯著差異的基因會(huì)用特殊的顏色標(biāo)注),如果有特殊需要悼凑,這個(gè)標(biāo)準(zhǔn)可以在這里修改偿枕。
    • Volcano and MA plot contrasts:火山圖、維恩圖等圖表只能用于兩個(gè)數(shù)據(jù)組之間的比較户辫,因此如果定義了多個(gè)數(shù)據(jù)組的話渐夸,GEO2R會(huì)對(duì)這些數(shù)據(jù)組進(jìn)行兩兩組合,每個(gè)組合生成一張圖表渔欢。但是這個(gè)組合的上限是五組墓塌,因此如果定義了很多數(shù)據(jù)組,可以在這里選擇要生成圖表的數(shù)據(jù)組合奥额。

剖面圖

在Profile graph選項(xiàng)卡中輸入探針的名稱苫幢,可以顯示該探針檢測(cè)的不同樣本的表達(dá)情況
點(diǎn)擊View data for GPL...可以查看平臺(tái)文件(平臺(tái)文件通常會(huì)記錄探針和基因的對(duì)應(yīng)情況)

R腳本

在R script選項(xiàng)卡中可以看到GEO2R使用的R語言腳本。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末垫挨,一起剝皮案震驚了整個(gè)濱河市韩肝,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌九榔,老刑警劉巖哀峻,帶你破解...
    沈念sama閱讀 218,682評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件涡相,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡谜诫,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門攻旦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喻旷,“玉大人,你說我怎么就攤上這事牢屋∏以ぃ” “怎么了?”我有些...
    開封第一講書人閱讀 165,083評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵烙无,是天一觀的道長(zhǎng)锋谐。 經(jīng)常有香客問我,道長(zhǎng)截酷,這世上最難降的妖魔是什么涮拗? 我笑而不...
    開封第一講書人閱讀 58,763評(píng)論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮迂苛,結(jié)果婚禮上三热,老公的妹妹穿的比我還像新娘。我一直安慰自己三幻,他們只是感情好就漾,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,785評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著念搬,像睡著了一般抑堡。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上朗徊,一...
    開封第一講書人閱讀 51,624評(píng)論 1 305
  • 那天首妖,我揣著相機(jī)與錄音,去河邊找鬼爷恳。 笑死悯搔,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的舌仍。 我是一名探鬼主播妒貌,決...
    沈念sama閱讀 40,358評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼铸豁!你這毒婦竟也來了灌曙?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,261評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤节芥,失蹤者是張志新(化名)和其女友劉穎在刺,沒想到半個(gè)月后逆害,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡蚣驼,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年魄幕,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片颖杏。...
    茶點(diǎn)故事閱讀 40,030評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡纯陨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出留储,到底是詐尸還是另有隱情翼抠,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評(píng)論 5 346
  • 正文 年R本政府宣布获讳,位于F島的核電站阴颖,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏丐膝。R本人自食惡果不足惜量愧,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,360評(píng)論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望帅矗。 院中可真熱鬧侠畔,春花似錦、人聲如沸损晤。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽尤勋。三九已至喘落,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間最冰,已是汗流浹背瘦棋。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評(píng)論 1 270
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留暖哨,地道東北人赌朋。 一個(gè)月前我還...
    沈念sama閱讀 48,237評(píng)論 3 371
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像篇裁,于是被迫代替她去往敵國(guó)和親沛慢。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,976評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容