端午安康
今天轉(zhuǎn)錄學(xué)習(xí)第三天,開始進(jìn)入實(shí)戰(zhàn)的第一步----數(shù)據(jù)查找和下載
今天要被自己蠢哭了举反,自己挖坑自己跳懊直,還給自己埋了2個(gè)多小時(shí),真的不夸張火鼻,要被自己氣死了室囊!
走起!?鳌融撞!
數(shù)據(jù)從哪里來?
如果我們想利用已發(fā)表的數(shù)據(jù)進(jìn)行分析和數(shù)據(jù)挖掘粗蔚,首先第一步要找到和你做的方向相關(guān)的文獻(xiàn),然后在文獻(xiàn)中尋找其公開數(shù)據(jù)的Accession ID致扯;
實(shí)戰(zhàn)文獻(xiàn)為:RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells醒陆。
一般Accession ID會(huì)寫在每篇文章的材料方法中刨摩,請(qǐng)仔細(xì)查找,關(guān)于GEO數(shù)據(jù)庫(kù)罢浇,其數(shù)據(jù)存放分為四種類型:GSE,GSM胞锰,GPL嗅榕,GDS
-GSE:將整個(gè)項(xiàng)目的一系列樣本和平臺(tái)關(guān)聯(lián)起來,比如GSE17708(都是GSE+數(shù)字)
GSE=GPL+GSM
-GSM:對(duì)應(yīng)一個(gè)樣本的數(shù)據(jù)帽蝶,只能對(duì)應(yīng)一個(gè)平臺(tái)嘲碱,表示每個(gè)樣本操作環(huán)境
-GPL:平臺(tái)信息恕稠,包含微陣列或測(cè)序平臺(tái)簡(jiǎn)要描述(GPL+數(shù)字)
-GDS:同一個(gè)平臺(tái)的數(shù)據(jù)集
關(guān)于數(shù)據(jù)庫(kù)詳細(xì)的內(nèi)容請(qǐng)參考小澤優(yōu)秀作品:生物數(shù)據(jù)庫(kù)ID料祠,讓我深入了解你
GEO數(shù)據(jù)庫(kù)官網(wǎng):官網(wǎng) GEO官網(wǎng)
輸入GSExxxxx后如下圖妆绞,同時(shí)該頁(yè)面的網(wǎng)址也可以作為快速查找GSExxxxx的快捷頁(yè)面括饶,只需要修改后面的數(shù)字為你目標(biāo)數(shù)字即可
此頁(yè)面有實(shí)驗(yàn)材料技羔,方法等一些列關(guān)于實(shí)驗(yàn)組分的內(nèi)容棍厂,可以幫你快速了解這篇文章數(shù)據(jù)結(jié)構(gòu)牺弹。接下來我們將頁(yè)面下拉张漂,如下圖
對(duì)于這篇文章的GSE ID如下圖憔狞,基于以上步驟通過這篇GSE_ID最終可以得到SRPxxxxx
停!
說明:不是所有的文章都是以asscession GSExxxxx在文章中呈現(xiàn)簇抵,
如這篇: RNA-Seq Transcriptome Profiling of Upland Cotton (Gossypium hirsutum L.) Root Tissue under Water-Deficit Stress
搞什么事情和之前說的不一樣,那么我們就將這個(gè)號(hào)輸入到NCBI中最終也將得到SRPxxxxx典蜕,與其說我們?cè)谀硞€(gè)文章中找GSExxxxx或是什么其他的ID郑临,倒不如我們找一句描述內(nèi)容:Read count data was deposited或The RNA-seq data is available at the這一類表示數(shù)據(jù)已公開的ID就ok啦典奉。另外公你!更說白了,我們最終就是要找SRPxxxxx。
-SRA:Short Read Archive
它的內(nèi)容主要包括了原始數(shù)據(jù)、實(shí)驗(yàn)項(xiàng)目益兄、實(shí)驗(yàn)設(shè)計(jì)邦鲫、測(cè)序平臺(tái)古今、樣本數(shù)據(jù)等信息,同時(shí)具有一定的結(jié)構(gòu):
第一級(jí):課題Studies:用SRP表示實(shí)驗(yàn)項(xiàng)目抵碟,一般一個(gè)study會(huì)包括多個(gè)experiments适滓;
第二級(jí):樣本Samples: 用SRS表示生物原材料的信息罚屋,每一個(gè)樣本都有自己的屬性鱼鸠;
第三級(jí):實(shí)驗(yàn)Experiments: 用SRX表示數(shù)據(jù)是怎么產(chǎn)生的,包括特定樣本的測(cè)序文庫(kù)信息;
第四級(jí):數(shù)據(jù)Run:用SRR表示利用某種測(cè)序手段得到的原始數(shù)據(jù)。
找到SRPxxxxx后我們點(diǎn)擊進(jìn)去渤愁,這里存儲(chǔ)了整個(gè)研究項(xiàng)目的各種信息,可以看到用的什么測(cè)序儀,多少run,數(shù)據(jù)量多少。為了更進(jìn)一步去了解每個(gè)特定的SRR信息念祭,我們要把它們導(dǎo)出(按箭頭提示操作):啥是run祝钢,我理解的就是Samples數(shù)灾常,這篇文章ck組+處理組+生物學(xué)重復(fù)共有16個(gè)樣本
隨后如下圖:
該圖里面呈現(xiàn)了PRJNA_ID,Illumina HiSeq 2000慷荔,CDS跛梗,PAIRED斤儿,Tissue在刺,SRA跃闹,數(shù)據(jù)大小等信息,并且展現(xiàn)了16 Runs磷雇,那這16 Runs都是什么呢偿警,請(qǐng)回上面快速查找頁(yè)面查看。
除了第一篇文章呈現(xiàn)的結(jié)果外唯笙,還包含了上面所說的SRP螟蒸,SRA盒使,SRA,SRX信息七嫌。
好啦少办,要開始下載數(shù)據(jù)啦,選擇你要分析的組下載嘍37财枉疼!
點(diǎn)擊Accession List后下載成為txt文件皮假,但這里建議:
Windows推薦notepad++:https://notepad-plus-plus.org/
mac推薦sublime:https://www.sublimetext.com/
太好啦!數(shù)據(jù)下好了骂维,走咱去linux下玩去
-創(chuàng)建項(xiàng)目目錄
前面已經(jīng)建立好rnaseq項(xiàng)目目錄
mkdir -p $HOME/rnaseq/{raw,clean,ref,qc,align,count,script}
-將下載SRRxxxx復(fù)制粘貼到linux中惹资,使用cat命令
cat >ssr.ids
SRR1039521
SRR1039520
SRR1039517
SRR1039516
SRR1039513
SRR1039512
SRR1039509
SRR1039508
###新一行 Ctrl+c
###建立好后看看一樣不
cat ssr.ids
-開始下載數(shù)據(jù)
使用conda,使用方法請(qǐng)回看學(xué)習(xí)小組Day3筆記--善良土豆
conda config --remove-key channels # 可以選擇性忽略
conda config --add channels r
conda config --add channels conda-forge
conda config --add channels bioconda
然后創(chuàng)建一個(gè)專屬rnaseq的分析環(huán)境航闺,然后安裝工具包sra-tools褪测,使用這個(gè)工具包中的prefetch軟件下載數(shù)據(jù),最后激活環(huán)境潦刃,查看prefetch軟件是否安裝成功
conda create -n rnaseq python=2 sra-tools -y
# 創(chuàng)建好后激活
conda activate rnaseq ####如果激活失敗侮措,請(qǐng)用source activate rnaseq
# 測(cè)試一下prefetch是否可以使用
prefetch --help#出幫助文檔即可,出來就是成功
prefetch直接加上上面下好的SRR號(hào)就可以直接下載數(shù)據(jù)嘍乖杠!
但是這種方法下載速度咋那么慢呢分扎,那咱就想辦法讓它提速!
請(qǐng)繼續(xù)學(xué)習(xí)小澤又一優(yōu)秀作品來吧胧洒,加速你的下載
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安裝
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目錄下看看是不是存在了.aspera文件夾畏吓,有的話表示安裝成功
cd && ls -a
# 將aspera軟件加入環(huán)境變量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后檢查ascp是不是能用了
ascp --help
ascp安裝成功后卫漫,prefetch就會(huì)默認(rèn)將下載方式從https轉(zhuǎn)移到fasp菲饼,說明開啟加速模式
我們可以這樣一步一步的下完每一個(gè)數(shù)據(jù),但是這樣好麻煩列赎,那么我們繼續(xù)提升便捷方法宏悦,循環(huán)
cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
while循環(huán),標(biāo)準(zhǔn)寫法就是while read ...;do ...;done
如果我們擔(dān)心中間出現(xiàn)一次服務(wù)器掉線包吝,下載就會(huì)中斷肛根。為了避免這種情況導(dǎo)致的數(shù)據(jù)不完整,我們可以將任務(wù)放到后臺(tái)漏策,方法如下:
一是:使用nohup 加上面的那一行命令派哲,然后結(jié)尾加一個(gè)&
nohup cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done &
二是:直接運(yùn)行那一行命令,然后先手動(dòng)ctrl + z 將任務(wù)掛起掺喻,然后輸入bg 1 芭届,即運(yùn)行剛剛掛起的程序
cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
Ctrl + z
bg 1
哦储矩,對(duì)了,差點(diǎn)忘記褂乍,小澤推薦文獻(xiàn)下載網(wǎng)站:
https://sci-hub.tw/10.1371/journal.pone.0099625持隧,其實(shí)這個(gè)網(wǎng)站之前有關(guān)注過,我只是在有的資源下不下來的時(shí)候才會(huì)用它解決逃片,很不錯(cuò)B挪Α!
今天先到這吧褥实,我還有數(shù)據(jù)沒下下來呢呀狼,明早要早起去下數(shù)據(jù),今天的坑就在于覺得自己行了损离,echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc加粗記住你了哥艇,搞錯(cuò)了,當(dāng)發(fā)現(xiàn)問題時(shí)僻澎,先自己研究一下貌踏,實(shí)在研究不明白,全部重頭來窟勃,就會(huì)找到問題祖乳!晚安,導(dǎo)圖也明天弄