【生物學(xué)家用R做圖】Lesson_2:數(shù)據(jù)輸入與數(shù)據(jù)下載

課程作者是美國Cold Spring Harbor 研究所的Maria Nattestad。這個(gè)課程適合初學(xué)bioinformatics 和 computational biology的同學(xué)纱意。R編程語言非常適合數(shù)據(jù)分析,統(tǒng)計(jì)和科學(xué)制圖态兴。這個(gè)課程本打算是付費(fèi)課程辫樱,后來作者改成免費(fèi)資源簇宽,但是歡迎打賞,我這里是記筆記學(xué)習(xí)婆跑,如果有人覺得打賞過來我會(huì)轉(zhuǎn)捐給原作者此熬,屆時(shí)會(huì)把轉(zhuǎn)錢信息公開。
課程里提到的DATA/腳本下載滑进。鏈接:http://pan.baidu.com/s/1bpaZ9Rx 密碼:c439如果有Youtube看不到的請留言給我發(fā)你其他鏈接摹迷,清晰度沒有Youtube好。
課程內(nèi)容(往期內(nèi)容)
Lesson 1: A quick start guide — From data to plot with a few magic words


課程內(nèi)容(本次課程)

Lesson 2: Importing and downloading data — From Excel, text files, or publicly available data, this lesson covers how to get all of it into R and addresses a number of common problems with data formatting issues.

# ==========================================================
#
#      Lesson 2 -- Importing and downloading data
#      ?   Importing data from Excel
#      ?   Downloading from UCSC
#      ?   Downloading from ENSEMBL
#      ?   Downloading from ENCODE
#
# ==========================================================

# Getting data from Excel
# Get the excel file from this paper: "Gene expression profiling of breast cell lines identifies potential new basal markers". Supplementary table 1
# Go into excel and save it as "Tab Delimited Text (.txt)"

filename <- "Lesson-02/micro_array_results_table1.txt"

my_data <- read.csv(filename, sep="\t", header=TRUE)
head(my_data)

# Where to find publicly available big data
# UCSC -- RefSeq genes from table browser
# Ensembl -- Mouse regulatory features MultiCell
# ENCODE -- HMM: wgEncodeBroadHmmGm12878HMM.bed

genes <- read.csv("Lesson-02/RefSeq_Genes.dms", sep="\t", header=TRUE)
head(genes)
dim(genes)

regulatory_features <- read.csv("Lesson-02/homo_sapiens.GRCh38.Fetal_Muscle_Leg.Regulatory_Build.regulatory_activity.20161111.gff", sep="\t", header=FALSE)
head(regulatory_features)
dim(regulatory_features)



chromHMM <- read.csv("Lesson-02/wgEncodeBroadHmmGm12878HMM.bed", sep="\t", header=FALSE)
head(chromHMM)
dim(chromHMM)

最后補(bǔ)充一下郊供,各個(gè)基因組的版本對應(yīng)關(guān)系峡碉,找了些,感覺生信菜鳥團(tuán)的比較好驮审,如下:

首先是NCBI對應(yīng)UCSC鲫寄,對應(yīng)ENSEMBL數(shù)據(jù)庫:

  • GRCh36 (hg18): ENSEMBL release_52.
  • GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
  • GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
    可以看到ENSEMBL的版本特別復(fù)雜<础!地来!很容易搞混戳玫!
    但是UCSC的版本就簡單了,就hg18,19,38, 常用的是hg19未斑,但是我推薦大家都轉(zhuǎn)為hg38
    看起來NCBI也是很簡單咕宿,就GRCh36,37,38,但是里面水也很深蜡秽!
    Feb 13 2014 00:00 Directory April_14_2003
    Apr 06 2006 00:00 Directory BUILD.33
    Apr 06 2006 00:00 Directory BUILD.34.1
    Apr 06 2006 00:00 Directory BUILD.34.2
    Apr 06 2006 00:00 Directory BUILD.34.3
    Apr 06 2006 00:00 Directory BUILD.35.1
    Aug 03 2009 00:00 Directory BUILD.36.1
    Aug 03 2009 00:00 Directory BUILD.36.2
    Sep 04 2012 00:00 Directory BUILD.36.3
    Jun 30 2011 00:00 Directory BUILD.37.1
    Sep 07 2011 00:00 Directory BUILD.37.2
    Dec 12 2012 00:00 Directory BUILD.37.3

可以看到府阀,有37.1, 37.2, 37.3 等等芽突,不過這種版本一般指的是注釋在更新试浙,基因組序列一般不會(huì)更新!D觥田巴!
反正你記住hg19基因組大小是3G,壓縮后八九百兆即可P印R疾浮!

如果要下載GTF注釋文件艘刚,基因組版本尤為重要9芟!昔脯!

對NCBI:ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版(hg38)
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本

對于ensembl:
ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz
變幻中間的release就可以拿到所有版本信息:ftp://ftp.ensembl.org/pub/
對于UCSC啄糙,那就有點(diǎn)麻煩了:
需要選擇一系列參數(shù):
http://genome.ucsc.edu/cgi-bin/hgTables

  1. Navigate to http://genome.ucsc.edu/cgi-bin/hgTables

  2. Select the following options:clade: Mammalgenome: Humanassembly: Feb. 2009 (GRCh37/hg19)group: Genes and Gene Predictionstrack: UCSC Genestable: knownGeneregion: Select "genome" for the entire genome.output format: GTF - gene transfer formatoutput file: enter a file name to save your results to a file, or leave blank to display results in the browser

  3. Click 'get output'.

現(xiàn)在重點(diǎn)來了笛臣,搞清楚版本關(guān)系了云稚,就要下載呀!
UCSC里面下載非常方便沈堡,只需要根據(jù)基因組簡稱來拼接url即可:
http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell腳本指定下載的染色體號:

for i in $(seq 1 22) X Y M;
do echo $i;
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz; 
## 這里也可以用NCBI的:ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前綴
done
gunzip *.gz
for i in $(seq 1 22) X Y M;
do cat chr${i}.fa >> hg19.fasta;
done
rm -fr chr*.fasta
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末静陈,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子诞丽,更是在濱河造成了極大的恐慌鲸拥,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,013評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件僧免,死亡現(xiàn)場離奇詭異刑赶,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)懂衩,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,205評論 2 382
  • 文/潘曉璐 我一進(jìn)店門撞叨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來金踪,“玉大人,你說我怎么就攤上這事牵敷『恚” “怎么了?”我有些...
    開封第一講書人閱讀 152,370評論 0 342
  • 文/不壞的土叔 我叫張陵枷餐,是天一觀的道長靶瘸。 經(jīng)常有香客問我,道長毛肋,這世上最難降的妖魔是什么怨咪? 我笑而不...
    開封第一講書人閱讀 55,168評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮村生,結(jié)果婚禮上惊暴,老公的妹妹穿的比我還像新娘。我一直安慰自己趁桃,他們只是感情好辽话,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,153評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著卫病,像睡著了一般油啤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上蟀苛,一...
    開封第一講書人閱讀 48,954評論 1 283
  • 那天益咬,我揣著相機(jī)與錄音,去河邊找鬼帜平。 笑死幽告,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的裆甩。 我是一名探鬼主播冗锁,決...
    沈念sama閱讀 38,271評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼嗤栓!你這毒婦竟也來了冻河?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,916評論 0 259
  • 序言:老撾萬榮一對情侶失蹤茉帅,失蹤者是張志新(化名)和其女友劉穎叨叙,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堪澎,經(jīng)...
    沈念sama閱讀 43,382評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡擂错,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,877評論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了樱蛤。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钮呀。...
    茶點(diǎn)故事閱讀 37,989評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡桃犬,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出行楞,到底是詐尸還是另有隱情攒暇,我是刑警寧澤,帶...
    沈念sama閱讀 33,624評論 4 322
  • 正文 年R本政府宣布子房,位于F島的核電站形用,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏证杭。R本人自食惡果不足惜田度,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,209評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望解愤。 院中可真熱鬧镇饺,春花似錦、人聲如沸送讲。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,199評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽哼鬓。三九已至监右,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間异希,已是汗流浹背健盒。 一陣腳步聲響...
    開封第一講書人閱讀 31,418評論 1 260
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留称簿,地道東北人扣癣。 一個(gè)月前我還...
    沈念sama閱讀 45,401評論 2 352
  • 正文 我出身青樓,卻偏偏與公主長得像憨降,于是被迫代替她去往敵國和親父虑。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,700評論 2 345

推薦閱讀更多精彩內(nèi)容