GTEx數(shù)據(jù)庫

GTEx項(xiàng)目對(duì)來自人體多個(gè)組合和器官的樣本,同時(shí)進(jìn)行了轉(zhuǎn)錄組測序和基因分型分析休涤,構(gòu)建了一個(gè)組織特異性的基因表達(dá)和調(diào)控的數(shù)據(jù)庫:Genotype-Tissue Expression (GTEx)

1. 背景知識(shí)

一期

2015年句葵,GTEx發(fā)布了第一個(gè)階段性成果风皿,一次性在Science雜志上發(fā)表三篇研究成果盏浇,該成果還被選為封面文章。GTEx的研究從175名死者身上采集到了1641個(gè)尸檢樣本蚀瘸,這些樣本來自54個(gè)不同的身體部位狡蝶,對(duì)幾乎所有轉(zhuǎn)錄基因的基因表達(dá)模式進(jìn)行了觀察,從而夠確定基因組中影響基因表達(dá)的特定區(qū)域贮勃。另外兩篇文章之一從人所有組織中的基因表達(dá)譜進(jìn)行了描述贪惹,證明了組織特異性的某些基因往往決定了組織特異性基因的表達(dá)調(diào)控;另一篇解釋了截短的蛋白變異體如何影響組織中的基因表達(dá)寂嘉。

二期

在2017年奏瞬,一次性在nature發(fā)表4篇研究成果,GTEx研究聯(lián)盟的研究收集并研究了來自449名生前健康的人類捐獻(xiàn)者的7000多份尸檢樣本泉孩,涵蓋44個(gè)組織(42種不同的組織類型)硼端,包括31個(gè)實(shí)體器官組織、10個(gè)腦分區(qū)寓搬、全血珍昨、兩個(gè)來自捐獻(xiàn)者血液和皮膚的細(xì)胞系,作者利用這些樣本研究基因表達(dá)在不同組織和個(gè)體中有何差異句喷。題為“Landscape of X chromosome inactivation across human tissues”和“Dynamic landscape and regulation of RNA editing in mammals”的論文镣典,采用GTEx數(shù)據(jù)探討了與基因表達(dá)相關(guān)聯(lián)的基因變異如何能夠調(diào)節(jié)RNA編輯和X染色體失活現(xiàn)象。

對(duì)于所有的樣本唾琼,主要進(jìn)行了以下三種分析
    1. RNA seq

通過illumina Truseq試劑盒構(gòu)建polyA+文庫骆撇,采用Hiseq 2000/2500進(jìn)行測序,對(duì)于下機(jī)數(shù)據(jù)父叙,采用STAR進(jìn)行比對(duì),參照選擇的是gencode V19版本的gtf文件肴裙,進(jìn)行了以下3個(gè)level的定量
gene-level:采用RNAseQC軟件趾唱,對(duì)基因的raw count和TPM兩種方式進(jìn)行定量
exon-level:對(duì)exon的raw count進(jìn)行定量
transcript-level:采用RSEM進(jìn)行轉(zhuǎn)錄本水平的定量

    1. genotype

通過WGS對(duì)樣本進(jìn)行分型, 采用的是GATK germline variants calling的流程,步驟如下
bwa-mem alignment
picard markduplicate
BQSR
indel realign
haplotypeCaller

    1. eQTL

通過FastQTL軟件進(jìn)行cis-eQTL分析蜻懦,將基因型和基因表達(dá)量進(jìn)行關(guān)聯(lián)甜癞。
通過官網(wǎng)可以查看基因表達(dá)量和eQTL分析的結(jié)果,以TP53為例宛乃,每個(gè)基因給出了以下3個(gè)層級(jí)的表達(dá)量
Isoform Expression
Exon Expression
Junction Expression

2. 數(shù)據(jù)庫內(nèi)容介紹和數(shù)據(jù)下載

通常是直接去 https://gtexportal.org/ 找到可以下載(在)的數(shù)據(jù)集悠咱,如下:

現(xiàn)在已經(jīng)更新到v8了,v9是單細(xì)胞的數(shù)據(jù)

其中征炼,對(duì)我們來說最重要的就是 表達(dá)矩陣析既, 可以下載圖中 gene read counts 這個(gè)496M的文件,表達(dá)矩陣?yán)锩娴臉颖綢D肯定是數(shù)據(jù)庫組織者自定義的谆奥,所以我們還需要找到樣本ID的注釋信息眼坏。

3. 數(shù)據(jù)分析

3.1 讀入矩陣
GTEx<-read.table("GTEx_Analysis_2017-06-05_v8_RNASeQCv1.1.9_gene_reads.gct", skip = 2, header = TRUE, sep = "\t")
save(GTEx,file = 'GTEx.Rdata')

GTEx[1:4,1:4] ##行是基因 列是樣本
#                Name Description GTEX.1117F.0226.SM.5GZZ7 GTEX.1117F.0426.SM.5EGHI
# 1 ENSG00000223972.5     DDX11L1                        0                        0
# 2 ENSG00000227232.5      WASH7P                      187                      109
# 3 ENSG00000278267.1   MIR6859-1                        0                        0
# 4 ENSG00000243485.5 MIR1302-2HG                        1                        0
colnames(GTEx)
3.2 讀入注釋信息

SAMPLE:樣本名,和GTEx矩陣的列對(duì)應(yīng)
SMTS: Tissue Type, area from which the tissue sample was taken.
SMTSD: Tissue Type, more specific detail of tissue type

a=read.table('GTEx_Analysis_v8_Annotations_SampleAttributesDS.txt',
             header = T,sep = '\t',quote = '')
table(a$SMTS)
3.3 提取感興趣的組織進(jìn)行分析

以心臟為例

heart_gtex=GTEx[,gsub('[.]','-',colnames(GTEx)) %in% a[a$SMTS=='Heart',1]]
rownames(heart_gtex)=GTEx[,1]
dat=heart_gtex

就是把屬于Heart這個(gè)組織的樣本名挑選出來酸些,在上面的表達(dá)矩陣?yán)锩嫒∽蛹纯伞?/p>

值得注意的是這個(gè)時(shí)候的表達(dá)矩陣基因名不是symbol宰译,需要進(jìn)行ID轉(zhuǎn)換

ids=GTEx[,1:2]
head(ids)
colnames(ids)=c('probe_id','symbol')
dat=dat[ids$probe_id,]
dat[1:4,1:4] 
ids$median=apply(dat,1,median)
ids=ids[order(ids$symbol,ids$median,decreasing = T),]
ids=ids[!duplicated(ids$symbol),]
dat=dat[ids$probe_id,]
rownames(dat)=ids$symbol
dat[1:4,1:4] 
heart_gtex=dat
save(heart_gtex,file = 'heart_gtex_counts.Rdata')

這樣就得到了正常的心臟組織樣本表達(dá)矩陣檐蚜,可以進(jìn)行的分析。

4. 不同組織的基因表達(dá)分析

比較心沿侈、肺闯第、血中S100A8的表達(dá)

organ_gtex=GTEx[,gsub('[.]','-',colnames(GTEx)) %in% a[a$SMTS %in% c('Heart','Blood','Lung'),1]]
rownames(organ_gtex)=GTEx[,1]
dat=organ_gtex

ids=GTEx[,1:2]
head(ids)
colnames(ids)=c('probe_id','symbol')
dat=dat[ids$probe_id,]
dat[1:4,1:4] 
ids$median=apply(dat,1,median)
ids=ids[order(ids$symbol,ids$median,decreasing = T),]
ids=ids[!duplicated(ids$symbol),]
dat=dat[ids$probe_id,]
rownames(dat)=ids$symbol
dat[1:4,1:4] 
organ_gtex=dat
#save(organ_gtex,file = 'organ_gtex_counts.Rdata')

b=a[a$SMTS %in% c('Heart','Blood','Bone Marrow','Lung'),c(1,6)]
c <- b[b$SAMPID %in% gsub('[.]','-',colnames(dat)),]
colnames(dat) <- gsub('[.]','-',colnames(dat))

dat <- t(dat)
dat <- as.data.frame(dat)
dat$group <- c$SMTS

library(dplyr)
d <- group_by(dat,group)
summarise(d,median=median(S100A8),n=n())
## A tibble: 3 x 3
#   group median     n
#   <chr>  <dbl> <int>
# 1 Blood 52504    929
# 2 Heart   730    861
# 3 Lung  10942.   578

參考

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載,如需轉(zhuǎn)載請(qǐng)通過簡信或評(píng)論聯(lián)系作者缀拭。
  • 序言:七十年代末咳短,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子智厌,更是在濱河造成了極大的恐慌诲泌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件铣鹏,死亡現(xiàn)場離奇詭異敷扫,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)诚卸,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門葵第,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人合溺,你說我怎么就攤上這事卒密。” “怎么了棠赛?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵哮奇,是天一觀的道長。 經(jīng)常有香客問我睛约,道長鼎俘,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任辩涝,我火速辦了婚禮贸伐,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘怔揩。我一直安慰自己捉邢,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布商膊。 她就那樣靜靜地躺著伏伐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪晕拆。 梳的紋絲不亂的頭發(fā)上秘案,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音,去河邊找鬼阱高。 笑死赚导,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的赤惊。 我是一名探鬼主播吼旧,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼未舟!你這毒婦竟也來了圈暗?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤裕膀,失蹤者是張志新(化名)和其女友劉穎员串,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體昼扛,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡寸齐,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了抄谐。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片渺鹦。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖蛹含,靈堂內(nèi)的尸體忽然破棺而出毅厚,到底是詐尸還是另有隱情,我是刑警寧澤浦箱,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布吸耿,位于F島的核電站,受9級(jí)特大地震影響酷窥,放射性物質(zhì)發(fā)生泄漏珍语。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一竖幔、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧是偷,春花似錦拳氢、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至刺啦,卻和暖如春留特,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工蜕青, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留苟蹈,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓右核,卻偏偏與公主長得像慧脱,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子贺喝,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容