【生物學(xué)家用R做圖】Lesson_2:數(shù)據(jù)輸入與數(shù)據(jù)下載

課程作者是美國Cold Spring Harbor 研究所的Maria Nattestad。這個(gè)課程適合初學(xué)bioinformatics 和 computational biology的同學(xué)纱意。R編程語言非常適合數(shù)據(jù)分析，統(tǒng)計(jì)和科學(xué)制圖态兴。這個(gè)課程本打算是付費(fèi)課程辫樱，后來作者改成免費(fèi)資源簇宽，但是歡迎打賞，我這里是記筆記學(xué)習(xí)婆跑，如果有人覺得打賞過來我會(huì)轉(zhuǎn)捐給原作者此熬，屆時(shí)會(huì)把轉(zhuǎn)錢信息公開。
課程里提到的DATA/腳本下載滑进。鏈接:http://pan.baidu.com/s/1bpaZ9Rx 密碼:c439如果有Youtube看不到的請留言給我發(fā)你其他鏈接摹迷，清晰度沒有Youtube好。
課程內(nèi)容(往期內(nèi)容)
Lesson 1: A quick start guide — From data to plot with a few magic words

課程內(nèi)容（本次課程）

Lesson 2: Importing and downloading data — From Excel, text files, or publicly available data, this lesson covers how to get all of it into R and addresses a number of common problems with data formatting issues.

# ==========================================================
#
#      Lesson 2 -- Importing and downloading data
#      ?   Importing data from Excel
#      ?   Downloading from UCSC
#      ?   Downloading from ENSEMBL
#      ?   Downloading from ENCODE
#
# ==========================================================

# Getting data from Excel
# Get the excel file from this paper: "Gene expression profiling of breast cell lines identifies potential new basal markers". Supplementary table 1
# Go into excel and save it as "Tab Delimited Text (.txt)"

filename <- "Lesson-02/micro_array_results_table1.txt"

my_data <- read.csv(filename, sep="\t", header=TRUE)
head(my_data)

# Where to find publicly available big data
# UCSC -- RefSeq genes from table browser
# Ensembl -- Mouse regulatory features MultiCell
# ENCODE -- HMM: wgEncodeBroadHmmGm12878HMM.bed

genes <- read.csv("Lesson-02/RefSeq_Genes.dms", sep="\t", header=TRUE)
head(genes)
dim(genes)

regulatory_features <- read.csv("Lesson-02/homo_sapiens.GRCh38.Fetal_Muscle_Leg.Regulatory_Build.regulatory_activity.20161111.gff", sep="\t", header=FALSE)
head(regulatory_features)
dim(regulatory_features)



chromHMM <- read.csv("Lesson-02/wgEncodeBroadHmmGm12878HMM.bed", sep="\t", header=FALSE)
head(chromHMM)
dim(chromHMM)

最后補(bǔ)充一下郊供，各個(gè)基因組的版本對應(yīng)關(guān)系峡碉，找了些，感覺生信菜鳥團(tuán)的比較好驮审，如下：

首先是NCBI對應(yīng)UCSC鲫寄，對應(yīng)ENSEMBL數(shù)據(jù)庫：

GRCh36 (hg18): ENSEMBL release_52.
GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.
GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.
可以看到ENSEMBL的版本特別復(fù)雜＜础！地来！很容易搞混戳玫！
但是UCSC的版本就簡單了，就hg18,19,38, 常用的是hg19未斑，但是我推薦大家都轉(zhuǎn)為hg38
看起來NCBI也是很簡單咕宿，就GRCh36,37,38，但是里面水也很深蜡秽！
Feb 13 2014 00:00 Directory April_14_2003
Apr 06 2006 00:00 Directory BUILD.33
Apr 06 2006 00:00 Directory BUILD.34.1
Apr 06 2006 00:00 Directory BUILD.34.2
Apr 06 2006 00:00 Directory BUILD.34.3
Apr 06 2006 00:00 Directory BUILD.35.1
Aug 03 2009 00:00 Directory BUILD.36.1
Aug 03 2009 00:00 Directory BUILD.36.2
Sep 04 2012 00:00 Directory BUILD.36.3
Jun 30 2011 00:00 Directory BUILD.37.1
Sep 07 2011 00:00 Directory BUILD.37.2
Dec 12 2012 00:00 Directory BUILD.37.3

可以看到府阀，有37.1, 37.2， 37.3 等等芽突，不過這種版本一般指的是注釋在更新试浙，基因組序列一般不會(huì)更新！Ｄ觥田巴！
反正你記住hg19基因組大小是3G，壓縮后八九百兆即可Ｐ印Ｒ疾浮！

如果要下載GTF注釋文件艘刚，基因組版本尤為重要９芟！昔脯！

對NCBI：ftp://ftp.ncbi.nih.gov/genomes/H_sapiens/GFF/ ##最新版（hg38）
ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ ## 其它版本

對于ensembl：
ftp://ftp.ensembl.org/pub/release-75/gtf/homo_sapiens/Homo_sapiens.GRCh37.75.gtf.gz
變幻中間的release就可以拿到所有版本信息：ftp://ftp.ensembl.org/pub/
對于UCSC啄糙，那就有點(diǎn)麻煩了：
需要選擇一系列參數(shù)：
http://genome.ucsc.edu/cgi-bin/hgTables

Navigate to http://genome.ucsc.edu/cgi-bin/hgTables
Select the following options:clade: Mammalgenome: Humanassembly: Feb. 2009 (GRCh37/hg19)group: Genes and Gene Predictionstrack: UCSC Genestable: knownGeneregion: Select "genome" for the entire genome.output format: GTF - gene transfer formatoutput file: enter a file name to save your results to a file, or leave blank to display results in the browser
Click 'get output'.

現(xiàn)在重點(diǎn)來了笛臣，搞清楚版本關(guān)系了云稚，就要下載呀！
UCSC里面下載非常方便沈堡，只需要根據(jù)基因組簡稱來拼接url即可：
http://hgdownload.cse.ucsc.edu/goldenPath/mm10/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/mm9/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz
http://hgdownload.cse.ucsc.edu/goldenPath/hg38/bigZips/chromFa.tar.gz

或者用shell腳本指定下載的染色體號：

for i in $(seq 1 22) X Y M;
do echo $i;
wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/chromosomes/chr${i}.fa.gz; 
## 這里也可以用NCBI的：ftp://ftp.ncbi.nih.gov/genomes/M_musculus/ARCHIVE/MGSCv3_Release3/Assembled_Chromosomes/chr前綴
done
gunzip *.gz
for i in $(seq 1 22) X Y M;
do cat chr${i}.fa >> hg19.fasta;
done
rm -fr chr*.fasta

最后編輯于：2017.12.11 03:33:23

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末静陈，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子诞丽，更是在濱河造成了極大的恐慌鲸拥，老刑警劉巖，帶你破解...
沈念sama閱讀 206,013評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件僧免，死亡現(xiàn)場離奇詭異刑赶，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)懂衩，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,205評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門撞叨，熙熙樓的掌柜王于貴愁眉苦臉地迎上來金踪，“玉大人，你說我怎么就攤上這事牵敷『恚” “怎么了？”我有些...
開封第一講書人閱讀 152,370評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵枷餐，是天一觀的道長靶瘸。經(jīng)常有香客問我，道長毛肋，這世上最難降的妖魔是什么怨咪？我笑而不...
開封第一講書人閱讀 55,168評論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮村生，結(jié)果婚禮上惊暴，老公的妹妹穿的比我還像新娘。我一直安慰自己趁桃，他們只是感情好辽话，可當(dāng)我...
茶點(diǎn)故事閱讀 64,153評論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著卫病，像睡著了一般油啤。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上蟀苛，一...
開封第一講書人閱讀 48,954評論 1贊 283
城市分裂傳說
那天益咬，我揣著相機(jī)與錄音，去河邊找鬼帜平。笑死幽告，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的裆甩。我是一名探鬼主播冗锁，決...
沈念sama閱讀 38,271評論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼嗤栓！你這毒婦竟也來了冻河？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 36,916評論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤茉帅，失蹤者是張志新（化名）和其女友劉穎叨叙，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體堪澎，經(jīng)...
沈念sama閱讀 43,382評論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡擂错，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,877評論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了樱蛤。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片钮呀。...
茶點(diǎn)故事閱讀 37,989評論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡桃犬，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出行楞，到底是詐尸還是另有隱情攒暇，我是刑警寧澤，帶...
沈念sama閱讀 33,624評論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布子房，位于F島的核電站形用，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏证杭。R本人自食惡果不足惜田度，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,209評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望解愤。院中可真熱鬧镇饺，春花似錦、人聲如沸送讲。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,199評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽哼鬓。三九已至监右，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間异希，已是汗流浹背健盒。一陣腳步聲響...
開封第一講書人閱讀 31,418評論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留称簿，地道東北人扣癣。一個(gè)月前我還...
沈念sama閱讀 45,401評論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長得像憨降，于是被迫代替她去往敵國和親父虑。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,700評論 2贊 345

【生物學(xué)家用R做圖】Lesson_2:數(shù)據(jù)輸入與數(shù)據(jù)下載

最后補(bǔ)充一下郊供，各個(gè)基因組的版本對應(yīng)關(guān)系峡碉，找了些，感覺生信菜鳥團(tuán)的比較好驮审，如下：

推薦閱讀更多精彩內(nèi)容