生信星球轉(zhuǎn)錄組培訓(xùn)第一期Day3——賣(mài)萌哥

閑言碎語(yǔ)

從今天開(kāi)始轉(zhuǎn)錄組學(xué)習(xí)進(jìn)入正題啦。
要重現(xiàn)的文章是

RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells

雖然不是做植物的慕蔚,但是大體上都是相通的嘛盖腿。
數(shù)據(jù)存放在NCBI的GEO數(shù)據(jù)庫(kù)乞娄,現(xiàn)在鋪天蓋地的都是關(guān)于GEO數(shù)據(jù)庫(kù)挖掘的教程,比如我樹(shù)就有GEO的教程,其他平臺(tái)就更多了鱼的,不勝枚舉。但是我好像似乎很少接觸這個(gè)數(shù)據(jù)庫(kù)(幾乎沒(méi)有)痘煤,NCBI用的比較多的就是SRA數(shù)據(jù)庫(kù)凑阶,有的時(shí)候用Taxonomy查一查物種分類(lèi)信息,年輕的時(shí)候(本科二年級(jí))還用過(guò)EST數(shù)據(jù)庫(kù)(現(xiàn)在都已經(jīng)被NCBI的別的數(shù)據(jù)庫(kù)吞并掉了衷快。官網(wǎng)顯示:The Nucleotide database will include EST and GSS sequences in early 2019. )宙橱。生信這一行要學(xué)的東西很多,會(huì)的越多就會(huì)發(fā)現(xiàn)不會(huì)的越多,沒(méi)法以有限的生命去探索無(wú)限的生信的师郑,選擇自己感興趣的方向就好了环葵。

下面提供一個(gè)豆豆寫(xiě)的介紹各種數(shù)據(jù)庫(kù)的文章,寫(xiě)得可好了宝冕,值得推薦:
??點(diǎn)??我??看??G??E??O??數(shù)??據(jù)??庫(kù)??介??紹??

你也是~


皮完了開(kāi)始正題张遭。

RNA-seq數(shù)據(jù)存放地址

根據(jù)文章介紹,數(shù)據(jù)存放在了GEO數(shù)據(jù)庫(kù)的編號(hào)是GSE52778.
傳送門(mén):https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE52778

這里講個(gè)小技巧:觀察一下上面這個(gè)鏈接猬仁,是不是搜的GSE52778在最后面?所以如果你想搜換一個(gè)編號(hào)帝璧,那就把acc=后面的編號(hào)替換一下就好了。chrome有一個(gè)很好用的功能湿刽,在右上角的 設(shè)置管理搜索引擎其他搜索引擎的烁,點(diǎn)擊添加,按照下圖的模式填寫(xiě)內(nèi)容:

添加搜索引擎

輸入geo并按一下空格诈闺,就會(huì)啟動(dòng)使用GEO數(shù)據(jù)庫(kù)搜索渴庆,這時(shí)候只要把要搜的編號(hào)打進(jìn)去就好了,就能直接跳轉(zhuǎn)到你輸入的編號(hào)的GEO數(shù)據(jù)庫(kù)位置了雅镊。
使用GEO數(shù)據(jù)庫(kù)搜索

我們要的原始數(shù)據(jù)呢就放在這里啦:


到SRA數(shù)據(jù)庫(kù)下載原始數(shù)據(jù)

什么嘛襟雷,原來(lái)又繞回到SRA數(shù)據(jù)庫(kù)去了。


SRA數(shù)據(jù)庫(kù)里有16個(gè)數(shù)據(jù)

野路子方法

點(diǎn)進(jìn)來(lái)發(fā)現(xiàn)有16個(gè)數(shù)據(jù)仁烹,一般多個(gè)數(shù)據(jù)的序號(hào)都是連著的耸弄,按照我以前的彪悍做法呢,就直接寫(xiě)個(gè)循環(huán)都下載了卓缰,不要的下完了刪掉计呈。比如這里的SRR編號(hào)是SRR1039508 ~ SRR1039523剛好16個(gè)。

腳本如下:

# 直接用wget下載征唬,-c參數(shù)是斷點(diǎn)續(xù)傳捌显,可以在網(wǎng)絡(luò)斷開(kāi)之后第二次從斷開(kāi)的地方繼續(xù)下載,否則會(huì)從頭開(kāi)始下載噢
list={08..23}
for i in $list 
do
  wget -c ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

# 用axel下載总寒。前提是要先安裝扶歪。我知道ubuntu系統(tǒng)是可以安裝的, 別的系統(tǒng)就不知道了摄闸。安裝需要root權(quán)限善镰,也可以用源碼或者conda安裝.
# sudo apt-get install axel

list={08..23}
for i in $list 
do
  axel ftp://ftp.ncbi.nlm.nih.gov/sra/sra-instant/reads/ByRun/sra/SRR/SRR103/SRR10395${i}/SRR10395${i}.sra
done

記得用nohup把腳本掛后臺(tái)下載。比如把這個(gè)腳本命名成dataDown.sh

nohup bash dataDown.sh &

你問(wèn)我ftp后面這一串文件夾是怎么找到的年枕?
無(wú)他媳禁,唯手熟爾。你要是天天到SRA數(shù)據(jù)庫(kù)撈數(shù)據(jù)并且善于觀察和記憶的話你也可以駕輕就熟的画切。

以上兩種方法二選一竣稽。但是這畢竟是野路子,不管是工具還是過(guò)程。而且wget有下載不完全的風(fēng)險(xiǎn)毫别,并且下載速度也不敢恭維娃弓。axel是一個(gè)多線程的下載工具,下載起來(lái)會(huì)比axel快一些岛宦,但是有很多站點(diǎn)是不支持axel下載的台丛。

那正確的方法是什么呢?

正經(jīng)方法

查看GSE的介紹:


四組處理

一共四組砾肺,每組四個(gè)生物重復(fù)挽霉。這到底用啥處理的?翻譯一下了解一下:

1)沒(méi)有治療;
2)用β2-激動(dòng)劑(即沙丁胺醇变汪,1μM侠坎,18小時(shí))處理;
3)用糖皮質(zhì)激素(即地塞米松(Dex),1μM處理18小時(shí));
4)同時(shí)用β2-激動(dòng)劑和糖皮質(zhì)激素治療

本次學(xué)習(xí)小組用對(duì)照組和Dexamethasone(第三組)進(jìn)行學(xué)習(xí)裙盾。

image.png

點(diǎn)擊如圖的位置打開(kāi)一個(gè)新的界面
image.png

根據(jù)描述勾選所需的數(shù)據(jù)实胸,點(diǎn)擊accession list按鈕下載
用notepad++打開(kāi)之后是這樣的:


accession list

創(chuàng)建工作目錄:

mkdir -p ~/rnaseq/{01raw,02clean,03ref,04qc,05align,06count,07script}

加上編號(hào)比較方便快速cd到想要去的文件夾。

軟件安裝

接下來(lái)用conda安裝所需的軟件
conda的安裝教程可以參考我的這篇:
conda的安裝與使用(2019-5-16更新)
(這篇簡(jiǎn)書(shū)已經(jīng)有四萬(wàn)八千多的閱讀量了……把我自己都嚇到了)

# 創(chuàng)建一個(gè)新的用于rnaseq的環(huán)境番官,并安裝sra-tools
conda create -n rnaseq sra-tools 
# 創(chuàng)建好后激活該環(huán)境
conda activate rnaseq

根據(jù)豆豆的這篇文章:來(lái)吧庐完,加速你的下載
get 如何配置aspera來(lái)提高數(shù)據(jù)的下載速度

2021-05-26 update: 也可以用conda來(lái)安裝aspera: conda install -c hcc aspera-cli

mkdir ~/biosoft
cd ~/biosoft
wget -c http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar -zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
chmod 777 aspera-connect-3.7.4.147727-linux-64.sh
bash chmod 777 aspera-connect-3.7.4.147727-linux-64.sh

安裝過(guò)程中會(huì)有提示的:

Installing Aspera Connect

Deploying Aspera Connect (/home/xxx/.aspera/connect) for the current user only.
Restart firefox manually to load the Aspera Connect plug-in

Install complete

到家目錄用ll -a查看是否存在一個(gè).aspera的隱藏文件

cd ~
ls -a
tree .aspera

內(nèi)容還挺豐富,tree的結(jié)果展示出了很多的文件及文件夾徘熔,就不放了门躯。
~/.aspera/connect/bin/ascp加入到環(huán)境變量中,以全局調(diào)用酷师。

再講一個(gè)小技巧讶凉。
在做生信的過(guò)程中難免裝很多很多的軟件,如果每次都把軟件的文件夾加入到$PATH中會(huì)讓$PATH變得很亂窒升。那怎么辦呢?
解決辦法是設(shè)定一個(gè)特定的文件夾叫softlink慕匠,把它加入到~/.bashrc中饱须,如果所安裝的軟件只有一個(gè)程序的話,在softlink中創(chuàng)建一個(gè)該程序的軟連接即可全局調(diào)用該軟件啦台谊。

mkdir ~/softlink
echo 'export PATH=~/softlink:$PATH' >> ~/.bashrc
# 或者用vim編輯

cd ~/softlink
ln -s ~/.aspera/connect/bin/ascp .

這種方法只適用于單個(gè)可用程序的情況蓉媳,如果安裝的是一個(gè)文件包,里面有很多的腳本和程序可以用的話锅铅,還是老老實(shí)實(shí)的把整個(gè)文件夾加入到$PATH中噢酪呻。具體的方法我就不寫(xiě)了,可以去看豆豆的那一篇文章盐须。

下載數(shù)據(jù)

因?yàn)槲矣玫氖莣indows平臺(tái)玩荠,連接服務(wù)器用的是xshell,我可以直接將剛剛下載到本地的
SRR_Acc_List.txt通過(guò)拖動(dòng),拖到服務(wù)器上阶冈。但是需要用安裝一個(gè)叫lrzsz的程序

apt-get install lrzsz

剛剛搜了一下闷尿,可以用源碼安裝lrzsz的。教程在此:Linux下rz/sz安裝及使用方法

正式開(kāi)始下載啦:

cd ~/rnaseq/01raw
# 直接把文件拖進(jìn)終端
echo 'cat SRR_Acc_List.txt | while read i ;do prefetch $i -O `pwd` ;done' > dataDown.sh
time bash dataDown.sh

下完了 看了下時(shí)間

real  7m24.571s
user  0m49.040s
sys  2m22.474s

真香女坑!


下載完成

下好數(shù)據(jù)啦填具!那么今天的任務(wù)就結(jié)束啦~

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市匆骗,隨后出現(xiàn)的幾起案子劳景,更是在濱河造成了極大的恐慌,老刑警劉巖碉就,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件盟广,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡铝噩,警方通過(guò)查閱死者的電腦和手機(jī)衡蚂,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)骏庸,“玉大人毛甲,你說(shuō)我怎么就攤上這事【弑唬” “怎么了玻募?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)一姿。 經(jīng)常有香客問(wèn)我七咧,道長(zhǎng),這世上最難降的妖魔是什么叮叹? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任艾栋,我火速辦了婚禮,結(jié)果婚禮上蛉顽,老公的妹妹穿的比我還像新娘蝗砾。我一直安慰自己,他們只是感情好携冤,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布悼粮。 她就那樣靜靜地躺著,像睡著了一般曾棕。 火紅的嫁衣襯著肌膚如雪扣猫。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天翘地,我揣著相機(jī)與錄音申尤,去河邊找鬼癌幕。 笑死,一個(gè)胖子當(dāng)著我的面吹牛瀑凝,可吹牛的內(nèi)容都是我干的序芦。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼粤咪,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼谚中!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起寥枝,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤宪塔,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后囊拜,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體某筐,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年冠跷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了南誊。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡蜜托,死狀恐怖抄囚,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情橄务,我是刑警寧澤幔托,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站蜂挪,受9級(jí)特大地震影響重挑,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜棠涮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一谬哀、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧严肪,春花似錦史煎、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)伦仍。三九已至结窘,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間充蓝,已是汗流浹背隧枫。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工喉磁, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人官脓。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓协怒,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親卑笨。 傳聞我的和親對(duì)象是個(gè)殘疾皇子孕暇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容