閑言碎語(yǔ)
從今天開(kāi)始轉(zhuǎn)錄組學(xué)習(xí)進(jìn)入正題啦。
要重現(xiàn)的文章是
雖然不是做植物的慕蔚,但是大體上都是相通的嘛盖腿。
數(shù)據(jù)存放在NCBI的GEO數(shù)據(jù)庫(kù)乞娄,現(xiàn)在鋪天蓋地的都是關(guān)于GEO數(shù)據(jù)庫(kù)挖掘的教程,比如我樹(shù)就有GEO的教程,其他平臺(tái)就更多了鱼的,不勝枚舉。但是我好像似乎很少接觸這個(gè)數(shù)據(jù)庫(kù)(幾乎沒(méi)有)痘煤,NCBI用的比較多的就是SRA數(shù)據(jù)庫(kù)凑阶,有的時(shí)候用Taxonomy查一查物種分類(lèi)信息,年輕的時(shí)候(本科二年級(jí))還用過(guò)EST數(shù)據(jù)庫(kù)(現(xiàn)在都已經(jīng)被NCBI的別的數(shù)據(jù)庫(kù)吞并掉了衷快。官網(wǎng)顯示:The Nucleotide database will include EST and GSS sequences in early 2019. )宙橱。生信這一行要學(xué)的東西很多,會(huì)的越多就會(huì)發(fā)現(xiàn)不會(huì)的越多,沒(méi)法以有限的生命去探索無(wú)限的生信的师郑,選擇自己感興趣的方向就好了环葵。
下面提供一個(gè)豆豆寫(xiě)的介紹各種數(shù)據(jù)庫(kù)的文章,寫(xiě)得可好了宝冕,值得推薦:
??點(diǎn)??我??看??G??E??O??數(shù)??據(jù)??庫(kù)??介??紹??
皮完了開(kāi)始正題张遭。
根據(jù)文章介紹,數(shù)據(jù)存放在了GEO數(shù)據(jù)庫(kù)的編號(hào)是GSE52778.
傳送門(mén):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778
這里講個(gè)小技巧:觀察一下上面這個(gè)鏈接猬仁,是不是搜的GSE52778在最后面?所以如果你想搜換一個(gè)編號(hào)帝璧,那就把
acc=
后面的編號(hào)替換一下就好了。chrome有一個(gè)很好用的功能湿刽,在右上角的設(shè)置
→管理搜索引擎→其他搜索引擎
的烁,點(diǎn)擊添加,按照下圖的模式填寫(xiě)內(nèi)容:
輸入geo并按一下空格
诈闺,就會(huì)啟動(dòng)使用GEO數(shù)據(jù)庫(kù)搜索
渴庆,這時(shí)候只要把要搜的編號(hào)打進(jìn)去就好了,就能直接跳轉(zhuǎn)到你輸入的編號(hào)的GEO數(shù)據(jù)庫(kù)位置了雅镊。
我們要的原始數(shù)據(jù)呢就放在這里啦:
什么嘛襟雷,原來(lái)又繞回到SRA數(shù)據(jù)庫(kù)去了。
野路子方法
點(diǎn)進(jìn)來(lái)發(fā)現(xiàn)有16個(gè)數(shù)據(jù)仁烹,一般多個(gè)數(shù)據(jù)的序號(hào)都是連著的耸弄,按照我以前的彪悍做法呢,就直接寫(xiě)個(gè)循環(huán)都下載了卓缰,不要的下完了刪掉计呈。比如這里的SRR編號(hào)是SRR1039508 ~ SRR1039523剛好16個(gè)。
腳本如下:
# 直接用wget下載征唬,-c參數(shù)是斷點(diǎn)續(xù)傳捌显,可以在網(wǎng)絡(luò)斷開(kāi)之后第二次從斷開(kāi)的地方繼續(xù)下載,否則會(huì)從頭開(kāi)始下載噢
list={08..23}
for i in $list
do
wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done
# 用axel下載总寒。前提是要先安裝扶歪。我知道ubuntu系統(tǒng)是可以安裝的, 別的系統(tǒng)就不知道了摄闸。安裝需要root權(quán)限善镰,也可以用源碼或者conda安裝.
# sudo apt-get install axel
list={08..23}
for i in $list
do
axel ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done
記得用nohup把腳本掛后臺(tái)下載。比如把這個(gè)腳本命名成dataDown.sh
nohup bash dataDown.sh &
你問(wèn)我ftp后面這一串文件夾是怎么找到的年枕?
無(wú)他媳禁,唯手熟爾。你要是天天到SRA數(shù)據(jù)庫(kù)撈數(shù)據(jù)并且善于觀察和記憶的話你也可以駕輕就熟的画切。
以上兩種方法二選一竣稽。但是這畢竟是野路子,不管是工具還是過(guò)程。而且wget有下載不完全的風(fēng)險(xiǎn)毫别,并且下載速度也不敢恭維娃弓。axel是一個(gè)多線程的下載工具,下載起來(lái)會(huì)比axel快一些岛宦,但是有很多站點(diǎn)是不支持axel下載的台丛。
那正確的方法是什么呢?
正經(jīng)方法
查看GSE的介紹:
一共四組砾肺,每組四個(gè)生物重復(fù)挽霉。這到底用啥處理的?翻譯一下了解一下:
1)沒(méi)有治療;
2)用β2-激動(dòng)劑(即沙丁胺醇变汪,1μM侠坎,18小時(shí))處理;
3)用糖皮質(zhì)激素(即地塞米松(Dex),1μM處理18小時(shí));
4)同時(shí)用β2-激動(dòng)劑和糖皮質(zhì)激素治療
本次學(xué)習(xí)小組用對(duì)照組和Dexamethasone(第三組)進(jìn)行學(xué)習(xí)裙盾。
點(diǎn)擊如圖的位置打開(kāi)一個(gè)新的界面
根據(jù)描述勾選所需的數(shù)據(jù)实胸,點(diǎn)擊accession list按鈕下載
用notepad++打開(kāi)之后是這樣的:
創(chuàng)建工作目錄:
mkdir -p ~/rnaseq/{01raw,02clean,03ref,04qc,05align,06count,07script}
加上編號(hào)比較方便快速cd到想要去的文件夾。
軟件安裝
接下來(lái)用conda安裝所需的軟件
conda的安裝教程可以參考我的這篇:
conda的安裝與使用(2019-5-16更新)
(這篇簡(jiǎn)書(shū)已經(jīng)有四萬(wàn)八千多的閱讀量了……把我自己都嚇到了)
# 創(chuàng)建一個(gè)新的用于rnaseq的環(huán)境番官,并安裝sra-tools
conda create -n rnaseq sra-tools
# 創(chuàng)建好后激活該環(huán)境
conda activate rnaseq
根據(jù)豆豆的這篇文章:來(lái)吧庐完,加速你的下載
get 如何配置aspera來(lái)提高數(shù)據(jù)的下載速度
2021-05-26 update:
也可以用conda來(lái)安裝aspera: conda install -c hcc aspera-cli
mkdir ~/biosoft
cd ~/biosoft
wget -c http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
bash chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
安裝過(guò)程中會(huì)有提示的:
Installing Aspera Connect
Deploying Aspera Connect (/home/xxx/.aspera/connect) for the current user only.
Restart firefox manually to load the Aspera Connect plug-inInstall complete
到家目錄用ll -a
查看是否存在一個(gè).aspera
的隱藏文件
cd ~
ls -a
tree .aspera
內(nèi)容還挺豐富,tree的結(jié)果展示出了很多的文件及文件夾徘熔,就不放了门躯。
把~/.aspera/connect/bin/ascp
加入到環(huán)境變量中,以全局調(diào)用酷师。
再講一個(gè)小技巧讶凉。
在做生信的過(guò)程中難免裝很多很多的軟件,如果每次都把軟件的文件夾加入到$PATH
中會(huì)讓$PATH
變得很亂窒升。那怎么辦呢?
解決辦法是設(shè)定一個(gè)特定的文件夾叫softlink
慕匠,把它加入到~/.bashrc
中饱须,如果所安裝的軟件只有一個(gè)程序的話,在softlink
中創(chuàng)建一個(gè)該程序的軟連接即可全局調(diào)用該軟件啦台谊。
mkdir ~/softlink
echo 'export PATH=~/softlink:$PATH' >> ~/.bashrc
# 或者用vim編輯
cd ~/softlink
ln -s ~/.aspera/connect/bin/ascp .
這種方法只適用于單個(gè)可用程序的情況蓉媳,如果安裝的是一個(gè)文件包,里面有很多的腳本和程序可以用的話锅铅,還是老老實(shí)實(shí)的把整個(gè)文件夾加入到$PATH
中噢酪呻。具體的方法我就不寫(xiě)了,可以去看豆豆的那一篇文章盐须。
下載數(shù)據(jù)
因?yàn)槲矣玫氖莣indows平臺(tái)玩荠,連接服務(wù)器用的是xshell,我可以直接將剛剛下載到本地的
SRR_Acc_List.txt
通過(guò)拖動(dòng),拖到服務(wù)器上阶冈。但是需要用安裝一個(gè)叫lrzsz
的程序
apt-get install lrzsz
剛剛搜了一下闷尿,可以用源碼安裝lrzsz
的。教程在此:Linux下rz/sz安裝及使用方法
正式開(kāi)始下載啦:
cd ~/rnaseq/01raw
# 直接把文件拖進(jìn)終端
echo 'cat SRR_Acc_List.txt | while read i ;do prefetch $i -O `pwd` ;done' > dataDown.sh
time bash dataDown.sh
下完了 看了下時(shí)間
real 7m24.571s
user 0m49.040s
sys 2m22.474s
真香女坑!
下好數(shù)據(jù)啦填具!那么今天的任務(wù)就結(jié)束啦~