在上一篇數(shù)據(jù)上傳指南中唬血,我們?yōu)榇蠹医榻B了GEO上傳操作指南望蜡,今天小編就來介紹另一種重要的NCBI數(shù)據(jù)庫(kù)SRA,它可用于存儲(chǔ)測(cè)序的原始數(shù)據(jù)拷恨,實(shí)現(xiàn)資源共享脖律。小編將SRA數(shù)據(jù)庫(kù)的提交過程做一個(gè)簡(jiǎn)單概述,希望能為大家提供一點(diǎn)幫助腕侄。
一 SRA數(shù)據(jù)上傳操作方法
1?NCBI 賬號(hào)注冊(cè)
數(shù)據(jù)上傳前需要注冊(cè)一個(gè)NCBI(https://www.ncbi.nlm.nih.gov/)賬號(hào)小泉,創(chuàng)建需要郵件激活。如果已經(jīng)有賬號(hào)冕杠,可以直接點(diǎn)擊登錄微姊。在NCBI的首頁(yè)點(diǎn)Submit,選擇Sequence Read Archive (SRA)分预,點(diǎn)擊GO,點(diǎn)擊New submission兢交。
2 Bioproject 創(chuàng)建
用于描述對(duì)樣本進(jìn)行測(cè)序的研究目的
點(diǎn)擊
填寫submitter詳細(xì)信息:帶“*”號(hào)為必填(姓名、郵箱噪舀、單位魁淳、地址、郵政編碼)与倡,點(diǎn)擊continue界逛。
項(xiàng)目類型基因組/轉(zhuǎn)錄組,外泌體纺座,宏基因組等
研究物種信息
信息釋放時(shí)間節(jié)點(diǎn)息拜,項(xiàng)目的主要概況,研究目的等
如果已經(jīng)創(chuàng)建Biosample净响,則填寫B(tài)ioSample編號(hào)少欺,否則創(chuàng)建BioSample
添加完Biosample 后進(jìn)入Publication 界面,如果已經(jīng)有發(fā)表的文章則填寫文章的Pubmed ID/DOI 號(hào)
3 Biosample 創(chuàng)建
用于描述測(cè)序樣本的具體信息
該頁(yè)面詳細(xì)介紹了BioSample的用途馋贤,注意事項(xiàng)以及視頻教程
已經(jīng)有該項(xiàng)目的bioproject 直接點(diǎn)擊submit
填寫基本信息
←點(diǎn)擊新建
選擇信息何時(shí)向公眾公開
添加物種信息
選擇物種類型
填寫或下載填寫樣本相關(guān)表格
將填寫好的樣本上傳
如果樣本不多赞别,推薦直接在網(wǎng)頁(yè)填寫表格
網(wǎng)頁(yè)版表格:必填字段標(biāo)有*星號(hào)。標(biāo)有**配乓,??或??的字段至少填寫其中一個(gè)仿滔。表格填寫:不同的生物樣品類型所需填寫的表格內(nèi)容不同惠毁。綠色字段為必填項(xiàng),如缺少相關(guān)信息崎页,如任何必填項(xiàng)沒有資料鞠绰,可以填寫'not collected', 'not applicable' 或 'missing';以人類樣品為例飒焦,至少需要填寫綠色單元格里的以下幾項(xiàng)樣品信息:(1) 樣品名稱(sample name):無(wú)特定格式要求蜈膨。(2) 物種(organism):實(shí)驗(yàn)物種的拉丁名。(3) 個(gè)體(isolate):為該實(shí)驗(yàn)樣品個(gè)體取一個(gè)名字牺荠,無(wú)特定格式要求翁巍。(4) 年齡(age):格式為【數(shù)字】+【時(shí)間單位】。(5) 單位(biomaterial_provider):實(shí)驗(yàn)室或PI的名稱和地址等信息志电,無(wú)特定格式要求曙咽。(6) 性別(Sex):請(qǐng)從下拉菜單中選取符合條件的選項(xiàng),而不要手動(dòng)填寫挑辆。(7) 組織(tissue):樣品來源的組織類型例朱,無(wú)特定格式要求。藍(lán)色字段為至少一個(gè)必填項(xiàng)鱼蝉,可參考綠色字段填寫方法洒嗤;黃色字段則為非必填項(xiàng)。注意魁亦,除樣本名外渔隶,需要可以有信息將每個(gè)樣本區(qū)分開,可以通過添加description信息洁奈,或者另外增加replication的信息來進(jìn)行區(qū)分(注意间唉,這里信息如果填寫不符合規(guī)范,上傳后會(huì)報(bào)錯(cuò)利术,只需根據(jù)提示的信息對(duì)表格內(nèi)容進(jìn)行相應(yīng)修改后重新上傳即可)
若多個(gè)樣品填寫為相同的信息(生物學(xué)重復(fù))呈野,需要在最后一列添加“replicate”(replicate=replicate biological X(1、2印叁、3))
預(yù)覽Biosample 信息
BioSample號(hào)
4 數(shù)據(jù)上傳導(dǎo)航
點(diǎn)擊
填寫B(tài)ioproject和BioSample號(hào)即可被冒,如果沒有填寫no即可, 在數(shù)據(jù)上傳的后面步驟中 會(huì)讓您補(bǔ)充Bioproject和BioSample信息轮蜕。
項(xiàng)目基本描述信息
選擇添加metadata 的方式昨悼,是在線填寫或者下載表格填寫后上傳
我們建議您勾選“Upload a file using Excel or text format (tab-delimited)”并點(diǎn)擊下圖紅框內(nèi)的“Download Excel spreadsheet”超鏈接下載模板表格文件,以便在本地電腦上慢慢填寫表格跃洛。
下載的“表格文件”內(nèi)含三個(gè)工作表:Contact info and instructions率触、SRA_data、Library and Platform Terms汇竭。其中**個(gè)和第三個(gè)工作表是說明文檔葱蝗,實(shí)際填寫 SRA 元數(shù)據(jù)的位置再第二個(gè)工作表“SRA_data”痊剖。完成填寫后,回到網(wǎng)頁(yè)點(diǎn)擊“Choose file”按鈕上傳文件垒玲。SRA 官方建議您將第二個(gè)工作表另為 txt 格式再上傳,然而實(shí)際使用中 Excel 格式的文件基本也能被成功讀取識(shí)別找颓。
表格中需要填寫以下各縱列內(nèi)容:
(1) 樣品名稱(sample name):無(wú)特定格式要求合愈,但需與第五步中上傳表格使用過的樣品名稱保持一致。
(2) 文庫(kù)ID(library ID):無(wú)特定格式要求击狮。
(3) 標(biāo)題(title):建議采用 {methodology} of {organism}: {sample info} 這樣的格式佛析,例如“RNA-Seq of mus musculus: adult female spleen”。
(4) 文庫(kù)方法(library_stratagy):請(qǐng)從下拉菜單中選取彪蓬。點(diǎn)擊標(biāo)題超鏈接寸莫,您可以查看到各個(gè)選項(xiàng)的說明。對(duì)于轉(zhuǎn)錄組的測(cè)序類項(xiàng)目档冬,請(qǐng)選擇 RNA-seq膘茎。
(5) 文庫(kù)來源(library_source): 請(qǐng)從下拉菜單中選取。點(diǎn)擊標(biāo)題超鏈接酷誓,您可以查看到各個(gè)選項(xiàng)的說明披坏。對(duì)于轉(zhuǎn)錄組的測(cè)序類項(xiàng)目,請(qǐng)選擇 TRANSCRIPTOMIC盐数。
(6) 文庫(kù)篩選(library_selection):請(qǐng)從下拉菜單中選取棒拂。點(diǎn)擊標(biāo)題超鏈接,您可以查看到各個(gè)選項(xiàng)的說明玫氢。
(7)文庫(kù)端數(shù)(library_layout):請(qǐng)從下拉菜單選取單端測(cè)序(single)或雙端測(cè)序(paired)帚屉。
(8)測(cè)序平臺(tái)(platform):請(qǐng)從下拉菜單中選取。點(diǎn)擊標(biāo)題超鏈接漾峡,您可以查看到各個(gè)選項(xiàng)的說明攻旦。諾禾致源絕大多數(shù)的測(cè)序項(xiàng)目,都請(qǐng)選擇 ILLUMINA灰殴。
(9)測(cè)序儀器(instrument_model):請(qǐng)從下拉菜單中選取敬特。點(diǎn)擊標(biāo)題超鏈接,您可以查看到各個(gè)選項(xiàng)的說明牺陶。例如 Illumina NovaSeq 6000伟阔。
(10)方法描述(design_description):無(wú)特定格式要求。
(11)文件類型(filetype):請(qǐng)從下拉菜單中選取掰伸。絕大多數(shù)的測(cè)序項(xiàng)目是提供 fastq 格式文件皱炉。(11)文件名(filename):此行所描述的文件的名稱(含文件后綴名)。如果存在多個(gè)文件狮鸭,例如對(duì)于雙端測(cè)序而言合搅,請(qǐng)您將R1測(cè)序文件的文件名填寫在“filename”一列(例如“Sample A1_1.fastq.gz”)多搀,然后再將R2測(cè)序文件的文件名填寫在“filename2一列(例如“Sample A1_2fastq.gz”)。(12)參考基因組(assenbly 或 fasta_file):此行上傳的數(shù)據(jù)是 bam 格式等與基因組比對(duì)后生成的文件灾部,請(qǐng)?zhí)峁﹨⒖蓟蚪M的信息康铭。如果是 NCBI 上的公開基因組,請(qǐng)?jiān)?assembly 一列填寫基因組版本名稱赌髓;如果使用的是自定義的本地基因組文件从藤,請(qǐng)?jiān)?fasta_file 一列填寫基因組文件的名稱。如果此行數(shù)據(jù)描述的文件不涉及基因組比對(duì)(alignment)操作锁蠕,這兩列都可以留空夷野。
選擇原始數(shù)據(jù)上傳的方式,數(shù)據(jù)較少就選網(wǎng)頁(yè)上傳荣倾,如果較多可以選擇第二個(gè),這里推薦Aspera方法上傳數(shù)據(jù)
注:網(wǎng)頁(yè)上傳選擇第一個(gè)選項(xiàng)webbroser uplode; 點(diǎn)擊選擇文件直接上傳即可悯搔;樣本較少可選擇網(wǎng)頁(yè)上傳,注意:雙端序列舌仍,需要將R1妒貌,R2兩端序列均上傳。
樣本較多選擇aspera軟件上傳铸豁,點(diǎn)擊Aspera browser plugin upload苏揣,下載并安裝windows版本的Aspera軟件以及Key file(需要下載“key file”這個(gè)在后面寫腳本的時(shí)候需要用到,如下圖所示)推姻;注意asper command linexiafang jiaoben xinx ,后面命令運(yùn)行需要用到平匈。下載安裝見鏈接:Aspera:https://www.ibm.com/aspera/connect/,安裝完成后藏古,找到IBM Aspera Connect的圖標(biāo)增炭,點(diǎn)擊屬性,打開文件所在位置:
把這些軟件下載安裝到windows下后拧晕,運(yùn)行dos命令窗口(在鍵盤上同時(shí)點(diǎn)擊“windows+R”隙姿,輸入“cmd”點(diǎn)擊確認(rèn)),輸入軟件所在絕對(duì)路徑。
指令運(yùn)行:首先進(jìn)入到Aspera安裝路徑(即首先“cd”軟件所在的絕對(duì)路徑)厂捞;運(yùn)行命令行:需要根據(jù)NCBI提供的腳本進(jìn)行改寫自己的腳本:ascp -i 第二步下載的key文件(注意帶上文件的目錄) -QT -l100m(上傳最大速度输玷,這里設(shè)置的為100M,如果覺得太快或太慢靡馁,可適當(dāng)調(diào)整) -k1 -d 數(shù)據(jù)存放目錄(目錄一“”結(jié)尾) subasp@upload.ncbi.nlm.nih.gov:uploads/lily@outlook.com_jZdRWIub(郵箱_生成的隨機(jī)碼)注意:第二步中Aspera Command-Line upload有具體的命令行指令欲鹏,以及需要上傳的路徑,只需要修改key文件路徑和數(shù)據(jù)目錄即可運(yùn)行上傳數(shù)據(jù)
數(shù)據(jù)上傳完成后需要耐心等待一段時(shí)間臭墨,上傳完所有的數(shù)據(jù)之后等上10-15min赔嚎,刷新軟件后可以出現(xiàn)下面的選項(xiàng)(注意最好選擇網(wǎng)線上傳,不要用無(wú)線)。
二 SRA數(shù)據(jù)上傳常見問題
1 表格填寫問題導(dǎo)致無(wú)法進(jìn)行下一步
Biosample 創(chuàng)建中Attributes表格填寫尤误,需要注意除樣本名外侠畔,需要可以有信息將每個(gè)樣本區(qū)分開,可以通過添加description信息损晤,或者另外增加replication的信息來進(jìn)行區(qū)分软棺。有生物學(xué)重復(fù)的需要在最后一列添加“replicate”(replicate=replicate biological X(1、2尤勋、3))
2 運(yùn)行命令錯(cuò)誤
輸入代碼后沒反應(yīng)(不彈出上傳的命令行)可以降低網(wǎng)速重新嘗試码党,或者檢查上傳文件路徑是否有空格,以及文件命名是否有空格斥黑,檢查后更改路徑重新上傳。
3 輸入代碼后
(error:key passphrase)
退出軟件眉厨,重新啟動(dòng)或重新下載
4?傳輸中斷
(error: 0bit/s session stop)重新輸入代碼锌奴,并建議適當(dāng)調(diào)低網(wǎng)速
5?Session Stop
(Error: Failed to open TCP connection for SSH)
重新下載軟件重新登錄再嘗試
總結(jié):目前最常見的問題是表格上傳問題可以重點(diǎn)檢查上傳表格中填寫是否完全一致,無(wú)法區(qū)分樣本憾股。及輸入代碼后不彈出上傳的命令問題可以檢查網(wǎng)速鹿蜀,檢查上傳文件路徑是否有空格,以及文件命名是否有空格服球,檢查后更改路徑重新上傳茴恰。
以上就是本次數(shù)據(jù)上傳指南的主要內(nèi)容,希望本次的分享可以給大家?guī)韼椭缎堋H绻蠹矣惺裁磫栴}往枣,也可以在評(píng)論區(qū)留言。