利用SRA號(hào)從NCBI下載測(cè)序原始數(shù)據(jù)

生物或醫(yī)學(xué)中涉及高通量測(cè)序的論文,一般會(huì)將原始測(cè)序數(shù)據(jù)上傳到公開(kāi)的數(shù)據(jù)庫(kù)庶艾,上傳方式見(jiàn)測(cè)序文章數(shù)據(jù)上傳找哪里;并在文章末尾標(biāo)明數(shù)據(jù)存儲(chǔ)位置和登錄號(hào),如?The data from this study was deposited in NCBI Sequence Read Archive under accession SRA: SRP114962.况脆。

NCBI的SRA (Sequence Read Archive) 數(shù)據(jù)庫(kù)(http://www.ncbi.nlm.nih.gov/sra/) 是最常用的存儲(chǔ)測(cè)序數(shù)據(jù)的數(shù)據(jù)庫(kù)柒爵。目前SRA數(shù)據(jù)的組織方式分為下面4個(gè)層次:

Studies–研究課題;

Experiments–實(shí)驗(yàn)設(shè)計(jì)彤叉;

Runs–測(cè)序結(jié)果集庶柿;

Samples–樣品信息。

進(jìn)入SRA官網(wǎng):https://www.ncbi.nlm.nih.gov/sra, Search框中輸入SRA編號(hào)(SRP114962)秽浇,獲得如下圖的界面:

點(diǎn)擊第一個(gè)樣品即可查看其詳細(xì)信息浮庐。

當(dāng)樣品比較多時(shí),可以點(diǎn)擊Send results to Run selector(圖中畫(huà)圈的位置)進(jìn)入篩選頁(yè)面柬焕。

從圖中可發(fā)現(xiàn)审残,測(cè)序平臺(tái)是Illumina HiSeq 4000梭域,5748個(gè)Runs,每個(gè)Run的名字搅轿、樣本名病涨、測(cè)序類型(全基因組/外顯子組等)、tissue璧坟、treatment等既穆。

在如此多的Runs中,假設(shè)我們想獲取其中兩個(gè)病人的化療前和化療后的外顯子組測(cè)序數(shù)據(jù)沸柔,觀察其化療前后究竟有哪些基因突變以及突變的頻率怎么樣循衰。數(shù)據(jù)來(lái)自于文章?腫瘤化療無(wú)效是對(duì)預(yù)先存在的突變的選擇還是誘發(fā)新突變,Cell給你答案褐澎。

5748個(gè)Runs会钝,有116Page,怎么找呢工三?

Facets下拉框中先勾選Assay Type迁酸,等待頁(yè)面相應(yīng)后勾選wxs,即全外顯子組數(shù)據(jù)俭正,等待頁(yè)面相應(yīng)奸鬓。

Facets下拉框中勾選Sample name,等待頁(yè)面相應(yīng)后勾選ktn102及ktn102兩個(gè)病人的分別四個(gè)樣本(四種treatment:pre掸读、2cycleschemo串远、operative和blood),如圖儿惫。等待頁(yè)面相應(yīng)澡罚。獲得Run編號(hào)(藍(lán)色框):SRR5908363、SRR5908362…

然后使用NCBI提供的工具SRAToolkit下載肾请。

SRA toolkit?https://trace.ncbi.nlm.nih.gov/Traces/sra/sra.cgi?view=software, 根據(jù)服務(wù)器操作系統(tǒng)類型下載對(duì)應(yīng)的二進(jìn)制編碼包留搔,下載解壓放到環(huán)境變量即可使用。

使用NCBI提供的SRA-toolkit中的工具fastq-dump直接下載SRR文件铛铁,并轉(zhuǎn)換為FASTQ格式隔显,--split-3參數(shù)表示如果是雙端測(cè)序就自動(dòng)拆分,如果是單端不受影響饵逐。--gzip轉(zhuǎn)換fastq為壓縮文件括眠,節(jié)省空間。

下載的數(shù)據(jù)集一般比較大倍权,放入后臺(tái)不中斷下載 (nohup cmd &)哺窄。

nohup fastq-dump -v --split-3 --gzip SRR5908360 &

nohup fastq-dump -v --split-3 --gzip SRR5908361 &

nohup fastq-dump -v --split-3 --gzip SRR5908362 &

nohup fastq-dump -v --split-3 --gzip SRR5908363 &

nohup fastq-dump -v --split-3 --gzip SRR5906250 &

nohup fastq-dump -v --split-3 --gzip SRR5906251 &

nohup fastq-dump -v --split-3 --gzip SRR5906252 &

nohup fastq-dump -v --split-3 --gzip SRR5906253 &

注意:如果數(shù)據(jù)量很大可能需要下載1-2天。數(shù)據(jù)下載完會(huì)在~/ncbi下面存在緩存的sra文件,記得定時(shí)清空萌业。

Summary

按照上述步驟下載完畢后可看到很多個(gè)fastq.gz格式測(cè)序文件坷襟。


2019-03-07更新:Aspera Connect?工具在下載測(cè)序數(shù)據(jù)時(shí)的應(yīng)用

1. 下載Aspera Connect:

wget?http://download.asperasoft.com/download/sw/connect/3.7.4/aspera-connect-3.7.4.147727-linux-64.tar.gz

2. 解壓:

tar zxvf aspera-connect-3.7.4.147727-linux-64.tar.gz

3. 安裝:

bash aspera-connect-3.7.4.147727-linux-64.sh

4. 查看是否有.aspera文件夾

去根目錄?

ls -a?#如果看到.aspera文件夾,代表安裝成功

PS: 在這一步時(shí)生年,我用" cd / " 命令切到根目錄沒(méi)有找到.aspera文件婴程,

于是我cd到用戶目錄,通過(guò)" ll -h" 命令在主用戶目錄下找到抱婉。

5. 永久添加環(huán)境變量

echo 'export PATH=~/.aspera/connect/bin:$PATH' >> ~/.bashrc?source ~/.bashrc

6. 查看幫助文檔档叔,驗(yàn)證是否可以調(diào)用

ascp --help

PS:輸入這個(gè)命令的時(shí)候,系統(tǒng)提示-bash: ascp: command not found蒸绩,于是我進(jìn)行了以下操作:

之后我再使用?.aspera/connect/bin/ascp --help 命令之后就能正常開(kāi)始Aspera Connect的使用了衙四。

開(kāi)啟命令換成如下:~/.aspera/connect/bin/ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads

這樣你的電腦或者服務(wù)器就可以開(kāi)啟神器了

下面是開(kāi)啟命令

ascp -v -i ~/.aspera/connect/etc/asperaweb_id_dsa.openssh -k 1 -T -l200m anonftp@ftp-private.ncbi.nlm.nih.gov:/sra/sra-instant/reads/ByRun/sra/SRR/SRR347/SRR3474721/SRR3474721.sra ~/downloads

上面命令中SRR后面的數(shù)字就是下載文件的代號(hào),大家應(yīng)該能看懂規(guī)律吧患亿。按照????中的Access list就能夠一個(gè)一個(gè)的下載到你要的文件传蹈。

你可以看一下速度,

根據(jù)那個(gè)ascp幫助文檔步藕,你可以去調(diào)整速度惦界,也不能太快了,四不四咙冗。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末沾歪,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子雾消,更是在濱河造成了極大的恐慌灾搏,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件立润,死亡現(xiàn)場(chǎng)離奇詭異狂窑,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)范删,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門蕾域,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拷肌,“玉大人到旦,你說(shuō)我怎么就攤上這事【拊担” “怎么了添忘?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)若锁。 經(jīng)常有香客問(wèn)我搁骑,道長(zhǎng),這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任仲器,我火速辦了婚禮煤率,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘乏冀。我一直安慰自己蝶糯,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布辆沦。 她就那樣靜靜地躺著昼捍,像睡著了一般。 火紅的嫁衣襯著肌膚如雪肢扯。 梳的紋絲不亂的頭發(fā)上妒茬,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音蔚晨,去河邊找鬼乍钻。 笑死,一個(gè)胖子當(dāng)著我的面吹牛蛛株,可吹牛的內(nèi)容都是我干的团赁。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼谨履,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼欢摄!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起笋粟,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤怀挠,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后害捕,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體绿淋,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年尝盼,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了吞滞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡盾沫,死狀恐怖裁赠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情赴精,我是刑警寧澤佩捞,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站蕾哟,受9級(jí)特大地震影響一忱,放射性物質(zhì)發(fā)生泄漏莲蜘。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一帘营、第九天 我趴在偏房一處隱蔽的房頂上張望票渠。 院中可真熱鬧,春花似錦芬迄、人聲如沸庄新。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)择诈。三九已至,卻和暖如春出皇,著一層夾襖步出監(jiān)牢的瞬間羞芍,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工郊艘, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留荷科,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓纱注,卻偏偏與公主長(zhǎng)得像畏浆,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子狞贱,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容