從 EBI ArrayExpress 獲取芯片數(shù)據(jù)

要說(shuō)尋找公共芯片測(cè)序數(shù)據(jù)大家都知道上 GEO 查找派歌,其實(shí) EBI 也有個(gè)叫 ArrayExpress 的網(wǎng)站(網(wǎng)址ArrayExpress < EMBL-EBI)托管了大量的芯片數(shù)據(jù)鸥咖。同時(shí)還提供了同名 ArrayExpress R包在 Bioconductor 上衅鹿,像 GEOquery 下載和整理來(lái)自 GEO 的芯片數(shù)據(jù)一樣铅乡,下載和整理 ArrayExpress 上數(shù)據(jù)延柠。

這篇教程用 E-MTAB-1940 數(shù)據(jù)集為例展示 ArrayExpress 數(shù)據(jù)操作過(guò)程爬橡,具體的代碼解釋看注釋忘闻。

安裝R包并導(dǎo)入

# 安裝 ArrayExpress 包
BiocManager::install("ArrayExpress")

# 導(dǎo)入R包
library(ArrayExpress, quietly=TRUE)
library(tidyverse, quietly=TRUE)
library(affy, quietly=TRUE)

一鍵獲取數(shù)據(jù)使用 ArrayExpress 函數(shù)。

# 一定要記得指定路徑path, save參數(shù)表示運(yùn)行結(jié)束后是否保留下載文件
eset <- ArrayExpress(accession="E-MTAB-1940", path=".", save=TRUE)

從我自身體驗(yàn)感覺(jué)這方式不好酿炸,下載速度太慢了瘫絮。所以我自己去網(wǎng)站找到對(duì)應(yīng)數(shù)據(jù)集,使用瀏覽器或者復(fù)制鏈接后在服務(wù)器用 wget 下載好填硕。

使用 getAE 函數(shù)來(lái)下載數(shù)據(jù)麦萤,也可以用來(lái)讀取手動(dòng)下載好的本地?cái)?shù)據(jù)。用 local=TRUE 表示讀取本地下載好數(shù)據(jù)扁眯, sourcedir 是本地存儲(chǔ)位置频鉴。

# 如果是下載數(shù)據(jù),使用 type 參數(shù)控制下載哪些
#  默認(rèn) full 下載所有數(shù)據(jù)
# raw 下載原始數(shù)據(jù)
# processed 下載處理好數(shù)據(jù)
> ae <- getAE(accession="E-MTAB-1940", path=".", type="raw", local=TRUE, sourcedir=".")
Unpacking data files
Warning message:
In getAE(accession = "E-MTAB-1940", path = ".", type = "raw", local = TRUE,  :
  No processed data files found in directory .

> str(ae)
List of 8
 $ path            : chr "."
 $ rawFiles        : chr [1:86] "FR_196_U133_2.CEL" "FR_327_U133_2.CEL" "FRI_328GRI_b_U133_2.CEL" "FR_329_U133_2.CEL" ...
 $ rawArchive      : chr [1:6] "E-MTAB-1940.raw.1.zip" "E-MTAB-1940.raw.2.zip" "E-MTAB-1940.raw.3.zip" "E-MTAB-1940.raw.4.zip" ...
 $ processedFiles  : NULL
 $ processedArchive: chr(0) 
 $ sdrf            : chr "E-MTAB-1940.sdrf.txt"
 $ idf             : chr "E-MTAB-1940.idf.txt"
 $ adf             : chr "A-AFFY-44.adf.txt"

下載后用 ae2bioc 函數(shù)讀取數(shù)據(jù)恋拍,用 methods 查看可用的方法。

> expr <- ae2bioc(ae)
> class(expr)
[1] "ExpressionFeatureSet"
attr(,"package")
[1] "oligoClasses"
> methods(class="ExpressionFeatureSet")
 [1] [                 [[                [[<-              $                
 [5] $<-               abstract          annotation        annotation<-     
 [9] assayData         assayData<-       backgroundCorrect bg               
[13] bg<-              bgSequence        boxplot           channel          
[17] channelNames      channelNames<-    classVersion      classVersion<-   
[21] coerce            combine           db                description      
[25] description<-     dim               dimnames          dimnames<-       
[29] dims              experimentData    experimentData<-  exprs            
[33] exprs<-           fData             fData<-           featureData      
[37] featureData<-     featureNames      featureNames<-    fvarLabels       
[41] fvarLabels<-      fvarMetadata      fvarMetadata<-    genomeBuild      
[45] geometry          getPlatformDesign getX              getY             
[49] hist              image             initialize        intensity        
[53] isCurrent         isVersioned       kind              manufacturer     
[57] MAplot            mm                mm<-              mmindex          
[61] mmSequence        normalize         notes             notes<-          
[65] paCalls           pData             pData<-           phenoData        
[69] phenoData<-       pm                pm<-              pmChr            
[73] pmindex           pmPosition        pmSequence        preproc          
[77] preproc<-         probeNames        probesetNames     protocolData     
[81] protocolData<-    pubMedIds         pubMedIds<-       rma              
[85] runDate           sampleNames       sampleNames<-     selectChannels   
[89] show              storageMode       storageMode<-     updateObject     
[93] updateObjectTo    varLabels         varLabels<-       varMetadata      
[97] varMetadata<-

rma 進(jìn)行 RMA normalize得到ExpressionSet對(duì)象藕甩。

> rmae <- rma(expr)
Background correcting
Normalizing
Calculating Expression

像處理GEO芯片數(shù)據(jù)的 GEOquery 一樣用 exprs 函數(shù)取得表達(dá)矩陣, pData 取得其他實(shí)驗(yàn)信息施敢。

> probe_expr <- exprs(rmae) %>% as_tibble(rownames="probe_id")
> head(probe_expr, n=2)
# A tibble: 2 x 87
  probe_id FR_196_U133_2.C… FR_327_U133_2.C… FRI_328GRI_b_U1… FR_329_U133_2.C…
  <chr>               <dbl>            <dbl>            <dbl>            <dbl>
1 1007_s_…             9.99            10.3             10.4              9.92
2 1053_at              5.65             6.33             6.22             5.76
# … with 82 more variables: FR_46_U133_2.CEL <dbl>, FRI_47BEN_U133_2.CEL <dbl>,
# 省略后續(xù)輸出

pdata <- pData(rmae) %>% as_tibble()

芯片可能以后用得會(huì)越來(lái)越少,但是如果有人經(jīng)常進(jìn)行這些數(shù)據(jù)挖掘的狭莱,可以更深入去學(xué)習(xí)僵娃,想要的建議把 affy 包的文檔讀一遍。像剛剛用到 rma 就是來(lái)自于 affy 包腋妙。


歡迎關(guān)注我的微信公眾號(hào) Hello BioInfo

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末默怨,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子骤素,更是在濱河造成了極大的恐慌匙睹,老刑警劉巖愚屁,帶你破解...
    沈念sama閱讀 217,826評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異痕檬,居然都是意外死亡霎槐,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)梦谜,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)丘跌,“玉大人,你說(shuō)我怎么就攤上這事唁桩”帐鳎” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 164,234評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵荒澡,是天一觀的道長(zhǎng)报辱。 經(jīng)常有香客問(wèn)我,道長(zhǎng)仰猖,這世上最難降的妖魔是什么捏肢? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,562評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮饥侵,結(jié)果婚禮上鸵赫,老公的妹妹穿的比我還像新娘。我一直安慰自己躏升,他們只是感情好辩棒,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,611評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著膨疏,像睡著了一般一睁。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上佃却,一...
    開(kāi)封第一講書(shū)人閱讀 51,482評(píng)論 1 302
  • 那天者吁,我揣著相機(jī)與錄音,去河邊找鬼饲帅。 笑死复凳,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的灶泵。 我是一名探鬼主播育八,決...
    沈念sama閱讀 40,271評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼赦邻!你這毒婦竟也來(lái)了髓棋?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,166評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎按声,沒(méi)想到半個(gè)月后膳犹,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,608評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡儒喊,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,814評(píng)論 3 336
  • 正文 我和宋清朗相戀三年镣奋,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怀愧。...
    茶點(diǎn)故事閱讀 39,926評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡侨颈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出芯义,到底是詐尸還是另有隱情哈垢,我是刑警寧澤,帶...
    沈念sama閱讀 35,644評(píng)論 5 346
  • 正文 年R本政府宣布扛拨,位于F島的核電站耘分,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏绑警。R本人自食惡果不足惜求泰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,249評(píng)論 3 329
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望计盒。 院中可真熱鬧渴频,春花似錦、人聲如沸北启。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,866評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)咕村。三九已至场钉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間懈涛,已是汗流浹背逛万。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,991評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留批钠,地道東北人宇植。 一個(gè)月前我還...
    沈念sama閱讀 48,063評(píng)論 3 370
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像价匠,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子呛每,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,871評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容