生信星球轉(zhuǎn)錄組培訓(xùn)第一期Day3--善良土豆

端午安康

今天轉(zhuǎn)錄學(xué)習(xí)第三天,開始進(jìn)入實(shí)戰(zhàn)的第一步----數(shù)據(jù)查找和下載

今天要被自己蠢哭了举反,自己挖坑自己跳懊直,還給自己埋了2個(gè)多小時(shí),真的不夸張火鼻,要被自己氣死了室囊!

走起!?鳌融撞!

數(shù)據(jù)從哪里來?

如果我們想利用已發(fā)表的數(shù)據(jù)進(jìn)行分析和數(shù)據(jù)挖掘粗蔚,首先第一步要找到和你做的方向相關(guān)的文獻(xiàn),然后在文獻(xiàn)中尋找其公開數(shù)據(jù)的Accession ID致扯;
實(shí)戰(zhàn)文獻(xiàn)為:RNA-Seq Transcriptome Profiling Identifies CRISPLD2 as a Glucocorticoid Responsive Gene that Modulates Cytokine Function in Airway Smooth Muscle Cells醒陆。
一般Accession ID會(huì)寫在每篇文章的材料方法中刨摩,請(qǐng)仔細(xì)查找,關(guān)于GEO數(shù)據(jù)庫(kù)罢浇,其數(shù)據(jù)存放分為四種類型:GSE,GSM胞锰,GPL嗅榕,GDS
-GSE:將整個(gè)項(xiàng)目的一系列樣本和平臺(tái)關(guān)聯(lián)起來,比如GSE17708(都是GSE+數(shù)字)
GSE=GPL+GSM
-GSM:對(duì)應(yīng)一個(gè)樣本的數(shù)據(jù)帽蝶,只能對(duì)應(yīng)一個(gè)平臺(tái)嘲碱,表示每個(gè)樣本操作環(huán)境
-GPL:平臺(tái)信息恕稠,包含微陣列或測(cè)序平臺(tái)簡(jiǎn)要描述(GPL+數(shù)字)
-GDS:同一個(gè)平臺(tái)的數(shù)據(jù)集
關(guān)于數(shù)據(jù)庫(kù)詳細(xì)的內(nèi)容請(qǐng)參考小澤優(yōu)秀作品:生物數(shù)據(jù)庫(kù)ID料祠,讓我深入了解你

GEO數(shù)據(jù)庫(kù)官網(wǎng):官網(wǎng) GEO官網(wǎng)

GEO首頁(yè)

輸入GSExxxxx后如下圖妆绞,同時(shí)該頁(yè)面的網(wǎng)址也可以作為快速查找GSExxxxx的快捷頁(yè)面括饶,只需要修改后面的數(shù)字為你目標(biāo)數(shù)字即可


快速查找:(https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17708)

此頁(yè)面有實(shí)驗(yàn)材料技羔,方法等一些列關(guān)于實(shí)驗(yàn)組分的內(nèi)容棍厂,可以幫你快速了解這篇文章數(shù)據(jù)結(jié)構(gòu)牺弹。接下來我們將頁(yè)面下拉张漂,如下圖


尋找SRA趴梢,得到SRPxxxxx
對(duì)于這篇文章的GSE ID如下圖憔狞,基于以上步驟通過這篇GSE_ID最終可以得到SRPxxxxx
GSE

停!

說明:不是所有的文章都是以asscession GSExxxxx在文章中呈現(xiàn)簇抵,
如這篇: RNA-Seq Transcriptome Profiling of Upland Cotton (Gossypium hirsutum L.) Root Tissue under Water-Deficit Stress

PRJNA

搞什么事情和之前說的不一樣,那么我們就將這個(gè)號(hào)輸入到NCBI中最終也將得到SRPxxxxx典蜕,與其說我們?cè)谀硞€(gè)文章中找GSExxxxx或是什么其他的ID郑临,倒不如我們找一句描述內(nèi)容:Read count data was depositedThe RNA-seq data is available at the這一類表示數(shù)據(jù)已公開的ID就ok啦典奉。另外公你!更說白了,我們最終就是要找SRPxxxxx
-SRA:Short Read Archive
它的內(nèi)容主要包括了原始數(shù)據(jù)、實(shí)驗(yàn)項(xiàng)目益兄、實(shí)驗(yàn)設(shè)計(jì)邦鲫、測(cè)序平臺(tái)古今、樣本數(shù)據(jù)等信息,同時(shí)具有一定的結(jié)構(gòu):
第一級(jí):課題Studies:用SRP表示實(shí)驗(yàn)項(xiàng)目抵碟,一般一個(gè)study會(huì)包括多個(gè)experiments适滓;
第二級(jí):樣本Samples: 用SRS表示生物原材料的信息罚屋,每一個(gè)樣本都有自己的屬性鱼鸠;
第三級(jí):實(shí)驗(yàn)Experiments: 用SRX表示數(shù)據(jù)是怎么產(chǎn)生的,包括特定樣本的測(cè)序文庫(kù)信息;
第四級(jí):數(shù)據(jù)Run:用SRR表示利用某種測(cè)序手段得到的原始數(shù)據(jù)。

找到SRPxxxxx后我們點(diǎn)擊進(jìn)去渤愁,這里存儲(chǔ)了整個(gè)研究項(xiàng)目的各種信息,可以看到用的什么測(cè)序儀,多少run,數(shù)據(jù)量多少。為了更進(jìn)一步去了解每個(gè)特定的SRR信息念祭,我們要把它們導(dǎo)出(按箭頭提示操作):啥是run祝钢,我理解的就是Samples數(shù)灾常,這篇文章ck組+處理組+生物學(xué)重復(fù)共有16個(gè)樣本

1-4操作

隨后如下圖:

第一篇文章呈現(xiàn)結(jié)果
該圖里面呈現(xiàn)了PRJNA_ID,Illumina HiSeq 2000慷荔,CDS跛梗,PAIRED斤儿,Tissue在刺,SRA跃闹,數(shù)據(jù)大小等信息,并且展現(xiàn)了16 Runs磷雇,那這16 Runs都是什么呢偿警,請(qǐng)回上面快速查找頁(yè)面查看。
第二篇文獻(xiàn)呈現(xiàn)結(jié)果
除了第一篇文章呈現(xiàn)的結(jié)果外唯笙,還包含了上面所說的SRP螟蒸,SRA盒使,SRA,SRX信息七嫌。

好啦少办,要開始下載數(shù)據(jù)啦,選擇你要分析的組下載嘍37财枉疼!

Accession List

點(diǎn)擊Accession List后下載成為txt文件皮假,但這里建議:
Windows推薦notepad++:https://notepad-plus-plus.org/
mac推薦sublime:https://www.sublimetext.com/

notepad++

太好啦!數(shù)據(jù)下好了骂维,走咱去linux下玩去

-創(chuàng)建項(xiàng)目目錄

前面已經(jīng)建立好rnaseq項(xiàng)目目錄
mkdir -p $HOME/rnaseq/{raw,clean,ref,qc,align,count,script}

-將下載SRRxxxx復(fù)制粘貼到linux中惹资,使用cat命令

cat >ssr.ids
SRR1039521
SRR1039520
SRR1039517
SRR1039516
SRR1039513
SRR1039512
SRR1039509
SRR1039508
###新一行 Ctrl+c
###建立好后看看一樣不
cat ssr.ids

-開始下載數(shù)據(jù)

使用conda,使用方法請(qǐng)回看學(xué)習(xí)小組Day3筆記--善良土豆

conda config --remove-key channels # 可以選擇性忽略
conda config --add channels r 
conda config --add channels conda-forge 
conda config --add channels bioconda
然后創(chuàng)建一個(gè)專屬rnaseq的分析環(huán)境航闺,然后安裝工具包sra-tools褪测,使用這個(gè)工具包中的prefetch軟件下載數(shù)據(jù),最后激活環(huán)境潦刃,查看prefetch軟件是否安裝成功
conda create -n rnaseq python=2 sra-tools -y
# 創(chuàng)建好后激活
conda activate rnaseq ####如果激活失敗侮措,請(qǐng)用source activate rnaseq
# 測(cè)試一下prefetch是否可以使用
prefetch --help#出幫助文檔即可,出來就是成功
prefetch直接加上上面下好的SRR號(hào)就可以直接下載數(shù)據(jù)嘍乖杠!
但是這種方法下載速度咋那么慢呢分扎,那咱就想辦法讓它提速!
請(qǐng)繼續(xù)學(xué)習(xí)小澤又一優(yōu)秀作品來吧胧洒,加速你的下載
wget http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz
tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz
#安裝
bash aspera-connect-3.7.4.147727-linux-64.sh
# 然后cd到根目錄下看看是不是存在了.aspera文件夾畏吓,有的話表示安裝成功
cd && ls -a
# 將aspera軟件加入環(huán)境變量,并激活
echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc
source ~/.bashrc
# 最后檢查ascp是不是能用了
ascp --help
ascp安裝成功后卫漫,prefetch就會(huì)默認(rèn)將下載方式從https轉(zhuǎn)移到fasp菲饼,說明開啟加速模式
via fasp

我們可以這樣一步一步的下完每一個(gè)數(shù)據(jù),但是這樣好麻煩列赎,那么我們繼續(xù)提升便捷方法宏悦,循環(huán)

cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done

while循環(huán),標(biāo)準(zhǔn)寫法就是while read ...;do ...;done

如果我們擔(dān)心中間出現(xiàn)一次服務(wù)器掉線包吝,下載就會(huì)中斷肛根。為了避免這種情況導(dǎo)致的數(shù)據(jù)不完整,我們可以將任務(wù)放到后臺(tái)漏策,方法如下:

一是:使用nohup 加上面的那一行命令派哲,然后結(jié)尾加一個(gè)&

nohup cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done &amp

二是:直接運(yùn)行那一行命令,然后先手動(dòng)ctrl + z 將任務(wù)掛起掺喻,然后輸入bg 1 芭届,即運(yùn)行剛剛掛起的程序

 cat srr.ids | while read i ;do prefetch $i -O `pwd` ;done
 Ctrl + z
 bg 1

哦储矩,對(duì)了,差點(diǎn)忘記褂乍,小澤推薦文獻(xiàn)下載網(wǎng)站:

https://sci-hub.tw/10.1371/journal.pone.0099625持隧,其實(shí)這個(gè)網(wǎng)站之前有關(guān)注過,我只是在有的資源下不下來的時(shí)候才會(huì)用它解決逃片,很不錯(cuò)B挪Α!

sci_hub

今天先到這吧褥实,我還有數(shù)據(jù)沒下下來呢呀狼,明早要早起去下數(shù)據(jù),今天的坑就在于覺得自己行了损离,echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc加粗記住你了哥艇,搞錯(cuò)了,當(dāng)發(fā)現(xiàn)問題時(shí)僻澎,先自己研究一下貌踏,實(shí)在研究不明白,全部重頭來窟勃,就會(huì)找到問題祖乳!晚安,導(dǎo)圖也明天弄

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末秉氧,一起剝皮案震驚了整個(gè)濱河市眷昆,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌谬运,老刑警劉巖隙赁,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異梆暖,居然都是意外死亡伞访,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門轰驳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來厚掷,“玉大人,你說我怎么就攤上這事级解∶昂冢” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵勤哗,是天一觀的道長(zhǎng)抡爹。 經(jīng)常有香客問我,道長(zhǎng)芒划,這世上最難降的妖魔是什么冬竟? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任欧穴,我火速辦了婚禮,結(jié)果婚禮上泵殴,老公的妹妹穿的比我還像新娘涮帘。我一直安慰自己,他們只是感情好笑诅,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布调缨。 她就那樣靜靜地躺著,像睡著了一般吆你。 火紅的嫁衣襯著肌膚如雪弦叶。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天早处,我揣著相機(jī)與錄音湾蔓,去河邊找鬼瘫析。 笑死砌梆,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的贬循。 我是一名探鬼主播咸包,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼杖虾!你這毒婦竟也來了烂瘫?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤奇适,失蹤者是張志新(化名)和其女友劉穎坟比,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體嚷往,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡葛账,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了皮仁。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片籍琳。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖贷祈,靈堂內(nèi)的尸體忽然破棺而出趋急,到底是詐尸還是另有隱情,我是刑警寧澤势誊,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布呜达,位于F島的核電站,受9級(jí)特大地震影響粟耻,放射性物質(zhì)發(fā)生泄漏查近。R本人自食惡果不足惜漩怎,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望嗦嗡。 院中可真熱鬧勋锤,春花似錦、人聲如沸侥祭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)矮冬。三九已至谈宛,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間胎署,已是汗流浹背吆录。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留琼牧,地道東北人恢筝。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像巨坊,于是被迫代替她去往敵國(guó)和親撬槽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容