GEO數(shù)據(jù)庫學(xué)習總結(jié)(一)數(shù)據(jù)下載

非常感謝jimmy大神與生信技能樹一直以來的無私分享,自己學(xué)習的同時也伴隨著記錄诈乒,如有錯誤的,歡迎大家指正~~~~

1.數(shù)據(jù)下載


Ⅰ、R代碼直接下載數(shù)據(jù)

建議以Rdata形式保存數(shù)據(jù)喂饥,以防網(wǎng)絡(luò)狗的時候消约,用不了的時候(-_-|)员帮,害.....

rm(list = ls())#清空控制臺
options(stringsAsFactors = F)#關(guān)掉選擇更新R包的函數(shù)
#https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE42872
library(GEOquery)
eSet <- getGEO("GSE42872", #下載的GSE編號或粮,根據(jù)需求更換
               destdir = '.', 
               getGPL = F)
save(eSet,file = 'GSE19826_eSet.Rdata')
<關(guān)于參數(shù)>
  1. destdir 設(shè)置當前目錄
  2. getGPLAnnotGPL都設(shè)置TRUE捞高,可以下載和獲得平臺的注釋文件
    但是如果只要表達矩陣,沒有其他需求 getGPL = F硝岗,可以提高下載速度
  3. GEO Platform (GPL) 平臺(測序平臺/芯片平臺)——可以提供注釋文件
    GEO Sample (GSM) 樣本
    GEO Series (GSE)系列
    GEO Dataset (GDS) 數(shù)據(jù)集
  • 一個GSE里面可以有一個或者多個GSM樣本
  • 多個研究的GSM樣本可以根據(jù)研究目的整合為一個GDS氢哮。

Ⅱ、網(wǎng)站下載數(shù)據(jù)及R讀取

GSE的.gz讀取——可直接讀取表達矩陣exp

exp = read.table('GSE42872_series_matrix.txt.gz',
             sep='\t',quote = "",fill = T,
             comment.char="!",header=T)
#也可以解壓后,直接讀取txt文件
exp =read.table('GSE42872_series_matrix.txt',
             sep='\t',quote = "",fill = T,
             comment.char="!",header=T)
  • 關(guān)于參數(shù)
    comment.char="!" ——不讀取文件中“胀溺!”后的內(nèi)容
    header=T——列名

GPL的soft文件讀取

##注意 函數(shù) getGEO
GPL6244=getGEO(filename = 'GSE42872_family.soft')

GPL文件也可以直接代碼下載

library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".") 
GPL6244=Table( GPL6244)#得到我們想要的信息及格式
  • 注意 函數(shù) getGEO()基于R包GEOquery

2.提取表達矩陣exp(基于方法Ⅰ的R代碼)

exp <- exprs(eSet[[1]])
#若表達矩陣表達量整體過大,對矩陣進行 log2仓坞,為了防止log無意義---exp加1
exp = log2(exp+1)#該步驟可省略背零,若表達量不需要log2
#log0無意義

3.獲取臨床信息(主要要用于ID轉(zhuǎn)換和生存分析)

  • 基于方法Ⅰ的R代碼
pdata <- pData(eSet[[1]])

有時候臨床信息很多无埃,當有一列的每一行是完全一樣徙瓶,一般來說沒有什么意義嫉称,反而會影響我們的閱讀倍啥,可以適當縮小其范圍

pdata <- pData(eSet[[1]])
pdata <- pdata[,apply(pdata, 2, function(x){
  length(unique(x))>1})]  #縮小范圍
dim(pd1)
apply(pdata,table)
  • 基于方法Ⅱ的R代碼
library(GEOquery)
GPL6244<- getGEO('GPL6244', destdir=".") 
GPL6244=Table( GPL6244)#得到我們想要的信息及格式

歡迎大家多多騷擾~~~~~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末澎埠,一起剝皮案震驚了整個濱河市始藕,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌伍派,老刑警劉巖江耀,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件诉植,死亡現(xiàn)場離奇詭異祥国,居然都是意外死亡,警方通過查閱死者的電腦和手機舌稀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來壁查,“玉大人觉至,你說我怎么就攤上這事∮镉” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵席怪,是天一觀的道長应闯。 經(jīng)常有香客問我挂捻,道長,這世上最難降的妖魔是什么细层? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任惜辑,我火速辦了婚禮,結(jié)果婚禮上盛撑,老公的妹妹穿的比我還像新娘。我一直安慰自己捧搞,他們只是感情好抵卫,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布胎撇。 她就那樣靜靜地躺著介粘,像睡著了一般晚树。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上爵憎,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天慨亲,我揣著相機與錄音,去河邊找鬼刑棵。 笑死,一個胖子當著我的面吹牛愚铡,可吹牛的內(nèi)容都是我干的蛉签。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼碍舍,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了乒验?” 一聲冷哼從身側(cè)響起愚隧,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎狂塘,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體鳄厌,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡荞胡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年了嚎,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片歪泳。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡萝勤,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出敌卓,到底是詐尸還是另有隱情,我是刑警寧澤伶氢,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布趟径,位于F島的核電站癣防,受9級特大地震影響蜗巧,放射性物質(zhì)發(fā)生泄漏蕾盯。R本人自食惡果不足惜幕屹,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一级遭、第九天 我趴在偏房一處隱蔽的房頂上張望香嗓。 院中可真熱鬧装畅,春花似錦、人聲如沸掠兄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蚂夕。三九已至迅诬,卻和暖如春婿牍,著一層夾襖步出監(jiān)牢的瞬間侈贷,已是汗流浹背等脂。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留上遥,地道東北人搏屑。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像粉楚,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子模软,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345