從 EBI ArrayExpress 獲取芯片數(shù)據(jù)

要說(shuō)尋找公共芯片測(cè)序數(shù)據(jù)大家都知道上 GEO 查找派歌，其實(shí) EBI 也有個(gè)叫 ArrayExpress 的網(wǎng)站(網(wǎng)址ArrayExpress < EMBL-EBI)托管了大量的芯片數(shù)據(jù)鸥咖。同時(shí)還提供了同名 ArrayExpress R包在 Bioconductor 上衅鹿，像 GEOquery 下載和整理來(lái)自 GEO 的芯片數(shù)據(jù)一樣铅乡，下載和整理 ArrayExpress 上數(shù)據(jù)延柠。

這篇教程用 E-MTAB-1940 數(shù)據(jù)集為例展示 ArrayExpress 數(shù)據(jù)操作過(guò)程爬橡，具體的代碼解釋看注釋忘闻。

安裝R包并導(dǎo)入

# 安裝 ArrayExpress 包
BiocManager::install("ArrayExpress")

# 導(dǎo)入R包
library(ArrayExpress, quietly=TRUE)
library(tidyverse, quietly=TRUE)
library(affy, quietly=TRUE)

一鍵獲取數(shù)據(jù)使用 ArrayExpress 函數(shù)。

# 一定要記得指定路徑path, save參數(shù)表示運(yùn)行結(jié)束后是否保留下載文件
eset <- ArrayExpress(accession="E-MTAB-1940", path=".", save=TRUE)

從我自身體驗(yàn)感覺(jué)這方式不好酿炸，下載速度太慢了瘫絮。所以我自己去網(wǎng)站找到對(duì)應(yīng)數(shù)據(jù)集，使用瀏覽器或者復(fù)制鏈接后在服務(wù)器用 wget 下載好填硕。

使用 getAE 函數(shù)來(lái)下載數(shù)據(jù)麦萤，也可以用來(lái)讀取手動(dòng)下載好的本地?cái)?shù)據(jù)。用 local=TRUE 表示讀取本地下載好數(shù)據(jù)扁眯， sourcedir 是本地存儲(chǔ)位置频鉴。

# 如果是下載數(shù)據(jù)，使用 type 參數(shù)控制下載哪些
#  默認(rèn) full 下載所有數(shù)據(jù)
# raw 下載原始數(shù)據(jù)
# processed 下載處理好數(shù)據(jù)
> ae <- getAE(accession="E-MTAB-1940", path=".", type="raw", local=TRUE, sourcedir=".")
Unpacking data files
Warning message:
In getAE(accession = "E-MTAB-1940", path = ".", type = "raw", local = TRUE,  :
  No processed data files found in directory .

> str(ae)
List of 8
 $ path            : chr "."
 $ rawFiles        : chr [1:86] "FR_196_U133_2.CEL" "FR_327_U133_2.CEL" "FRI_328GRI_b_U133_2.CEL" "FR_329_U133_2.CEL" ...
 $ rawArchive      : chr [1:6] "E-MTAB-1940.raw.1.zip" "E-MTAB-1940.raw.2.zip" "E-MTAB-1940.raw.3.zip" "E-MTAB-1940.raw.4.zip" ...
 $ processedFiles  : NULL
 $ processedArchive: chr(0) 
 $ sdrf            : chr "E-MTAB-1940.sdrf.txt"
 $ idf             : chr "E-MTAB-1940.idf.txt"
 $ adf             : chr "A-AFFY-44.adf.txt"

下載后用 ae2bioc 函數(shù)讀取數(shù)據(jù)恋拍，用 methods 查看可用的方法。

> expr <- ae2bioc(ae)
> class(expr)
[1] "ExpressionFeatureSet"
attr(,"package")
[1] "oligoClasses"
> methods(class="ExpressionFeatureSet")
 [1] [                 [[                [[<-              $                
 [5] $<-               abstract          annotation        annotation<-     
 [9] assayData         assayData<-       backgroundCorrect bg               
[13] bg<-              bgSequence        boxplot           channel          
[17] channelNames      channelNames<-    classVersion      classVersion<-   
[21] coerce            combine           db                description      
[25] description<-     dim               dimnames          dimnames<-       
[29] dims              experimentData    experimentData<-  exprs            
[33] exprs<-           fData             fData<-           featureData      
[37] featureData<-     featureNames      featureNames<-    fvarLabels       
[41] fvarLabels<-      fvarMetadata      fvarMetadata<-    genomeBuild      
[45] geometry          getPlatformDesign getX              getY             
[49] hist              image             initialize        intensity        
[53] isCurrent         isVersioned       kind              manufacturer     
[57] MAplot            mm                mm<-              mmindex          
[61] mmSequence        normalize         notes             notes<-          
[65] paCalls           pData             pData<-           phenoData        
[69] phenoData<-       pm                pm<-              pmChr            
[73] pmindex           pmPosition        pmSequence        preproc          
[77] preproc<-         probeNames        probesetNames     protocolData     
[81] protocolData<-    pubMedIds         pubMedIds<-       rma              
[85] runDate           sampleNames       sampleNames<-     selectChannels   
[89] show              storageMode       storageMode<-     updateObject     
[93] updateObjectTo    varLabels         varLabels<-       varMetadata      
[97] varMetadata<-

用 rma 進(jìn)行 RMA normalize得到ExpressionSet對(duì)象藕甩。

> rmae <- rma(expr)
Background correcting
Normalizing
Calculating Expression

像處理GEO芯片數(shù)據(jù)的 GEOquery 一樣用 exprs 函數(shù)取得表達(dá)矩陣, pData 取得其他實(shí)驗(yàn)信息施敢。

> probe_expr <- exprs(rmae) %>% as_tibble(rownames="probe_id")
> head(probe_expr, n=2)
# A tibble: 2 x 87
  probe_id FR_196_U133_2.C… FR_327_U133_2.C… FRI_328GRI_b_U1… FR_329_U133_2.C…
  <chr>               <dbl>            <dbl>            <dbl>            <dbl>
1 1007_s_…             9.99            10.3             10.4              9.92
2 1053_at              5.65             6.33             6.22             5.76
# … with 82 more variables: FR_46_U133_2.CEL <dbl>, FRI_47BEN_U133_2.CEL <dbl>,
# 省略后續(xù)輸出

pdata <- pData(rmae) %>% as_tibble()

芯片可能以后用得會(huì)越來(lái)越少，但是如果有人經(jīng)常進(jìn)行這些數(shù)據(jù)挖掘的狭莱，可以更深入去學(xué)習(xí)僵娃，想要的建議把 affy 包的文檔讀一遍。像剛剛用到 rma 就是來(lái)自于 affy 包腋妙。

歡迎關(guān)注我的微信公眾號(hào) Hello BioInfo

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末默怨，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子骤素，更是在濱河造成了極大的恐慌匙睹，老刑警劉巖愚屁，帶你破解...
沈念sama閱讀 217,826評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異痕檬，居然都是意外死亡霎槐，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,968評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)梦谜，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)丘跌，“玉大人，你說(shuō)我怎么就攤上這事唁桩”帐鳎” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 164,234評(píng)論 0贊 354
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵荒澡，是天一觀的道長(zhǎng)报辱。經(jīng)常有香客問(wèn)我，道長(zhǎng)仰猖，這世上最難降的妖魔是什么捏肢？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,562評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮饥侵，結(jié)果婚禮上鸵赫，老公的妹妹穿的比我還像新娘。我一直安慰自己躏升，他們只是感情好辩棒，可當(dāng)我...
茶點(diǎn)故事閱讀 67,611評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著膨疏，像睡著了一般一睁。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上佃却，一...
開(kāi)封第一講書(shū)人閱讀 51,482評(píng)論 1贊 302
城市分裂傳說(shuō)
那天者吁，我揣著相機(jī)與錄音，去河邊找鬼饲帅。笑死复凳，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的灶泵。我是一名探鬼主播育八，決...
沈念sama閱讀 40,271評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼赦邻！你這毒婦竟也來(lái)了髓棋？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書(shū)人閱讀 39,166評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎按声，沒(méi)想到半個(gè)月后膳犹，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,608評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡儒喊，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,814評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年镣奋，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片怀愧。...
茶點(diǎn)故事閱讀 39,926評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡侨颈，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出芯义，到底是詐尸還是另有隱情哈垢，我是刑警寧澤，帶...
沈念sama閱讀 35,644評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布扛拨，位于F島的核電站耘分，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏绑警。R本人自食惡果不足惜求泰，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,249評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望计盒。院中可真熱鬧渴频，春花似錦、人聲如沸北启。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,866評(píng)論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)咕村。三九已至场钉，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間懈涛，已是汗流浹背逛万。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,991評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留批钠，地道東北人宇植。一個(gè)月前我還...
沈念sama閱讀 48,063評(píng)論 3贊 370
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像价匠，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子呛每，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,871評(píng)論 2贊 354

從 EBI ArrayExpress 獲取芯片數(shù)據(jù)

推薦閱讀更多精彩內(nèi)容