測(cè)序文章在審稿期間郭膛,審稿人往往需要作者上傳原始數(shù)據(jù)至NCBI。而搜索引擎搜到的參考資料甚少氛悬,不得不邊摸索邊總結(jié)则剃,幾番倒騰終于上傳成功。今天小編把經(jīng)驗(yàn)用圖文展示如捅,手把手教你棍现,一步步上傳自己的測(cè)序測(cè)序數(shù)據(jù)值NCBI。
本文原載于公眾號(hào)"生信天團(tuán)"镜遣,此處做進(jìn)一步修改完善己肮。
首先,你需要注冊(cè)一個(gè)NCBI的賬號(hào)悲关,用自己常用的郵箱申請(qǐng)即可朴肺。
然后登陸到SRA數(shù)據(jù)庫(kù)的官方網(wǎng)址:https://submit.ncbi.nlm.nih.gov/subs/sra/
操作步驟:
在SRA官方網(wǎng)址點(diǎn)擊New submission,進(jìn)入Submission Portal界面坚洽,以下步驟按照SRA遞交程序講解戈稿,標(biāo)記“***”為重點(diǎn)內(nèi)容。
一讶舰、SUBMITTER
按照內(nèi)容提示鞍盗,填寫(xiě)相關(guān)的信息需了,如提交者姓名、郵箱般甲、單位肋乍、地址等……
最后點(diǎn)擊Continue
注意,填寫(xiě)郵箱會(huì)提示qq敷存、163墓造、foxmail等郵箱不能收到NCBI郵件,需要提供其他可供使用的郵箱锚烦。事實(shí)上觅闽,是可以收到NCBI郵件的,但是還是按照要求換成其他涮俄,如gmail等蛉拙。
二、GENERAL INFO
BioProject:詢問(wèn)是否注冊(cè)過(guò)BioProject彻亲,第一次遞交或者不同的測(cè)序工程孕锄,選擇No。
BioSample:詢問(wèn)是否提交過(guò)BioSample苞尝,選擇No畸肆。
Release data:公開(kāi)日期≈嬷罚可以選擇立即釋放或者指定日期恼除,依個(gè)人需求。
點(diǎn)擊Continue
三曼氛、PROJECT INFO
Project title:為遞交的Project命名豁辉,“?”有提示范例
Public description:簡(jiǎn)單描述
Relevance:相關(guān)領(lǐng)域
Is your project……:詢問(wèn)是否為子項(xiàng)目舀患,選擇No
External Links:外部鏈接徽级,可以不填
之后的其他參數(shù)根據(jù)需求填寫(xiě),可以空缺聊浅。
點(diǎn)擊Continue
四餐抢、BIOSAMPLE TYPE
Sample Type:根據(jù)測(cè)序樣本選擇相應(yīng)的屬性,如微生物低匙、模式物種旷痕、無(wú)脊椎動(dòng)物、人顽冶、植物等欺抗。
點(diǎn)擊Continue
五、BIOSAMPLE ATTRIBUTES
Attributes:選擇提交 BioSample attributes的方式强重,提供在線表格和Excel文檔绞呈,建議使用Excel文檔贸人,更易于批量修改。
選中后佃声,點(diǎn)擊Download Excel Download TSV 下載Excel表格艺智。內(nèi)容如下:
填寫(xiě)說(shuō)明:sample_name必須唯一,且與提交的 clean data文件匹配圾亏。綠色表達(dá)必填選項(xiàng)十拣,藍(lán)色表示這些字段中至少有一個(gè)是必需的,黃色標(biāo)識(shí)可選內(nèi)容志鹃。
填寫(xiě)完成保存后夭问,選擇Choose file上傳文件。
點(diǎn)擊Continue
如果提交后報(bào)錯(cuò) :
Error: Your table upload failed because multiple BioSamples cannot have identical attributes.
破解辦法:在文件末尾新添一列弄跌,如id,并編號(hào)1尝苇,2铛只,3……
六、SRA METADATA
SRA metadata:遞交數(shù)據(jù)的格式糠溜,提供在線表格和Excel文檔淳玩,建議Excel。
下載Download Excel spreadsheet 非竿,如下圖:
Sheet1 = Contact Info and Instructions蜕着,填寫(xiě)說(shuō)明文檔
Sheet2 = SRA_data,真正需要自己手動(dòng)填寫(xiě)的部分
這里提供我上傳的范例:
【重點(diǎn):難點(diǎn):易錯(cuò)點(diǎn)】
- 雙側(cè)測(cè)序:針對(duì)illumina轉(zhuǎn)錄組測(cè)序红柱,都是采用雙端測(cè)序承匣,一個(gè)樣本會(huì)產(chǎn)生兩個(gè)文件,分別為左右兩端锤悄。而在上傳時(shí)候韧骗,只需要在一個(gè)生物樣本內(nèi),填寫(xiě)兩個(gè)filename即可零聚。這也是筆者摸索很久才搞清楚的袍暴。而其他諸如microRNA則采用單端測(cè)序,只需遞交一個(gè)filename即可隶症。
- 生物重復(fù):可以在design_description中寫(xiě)明生物重復(fù)政模。
- 樣品名字:最好將samplename和之前Biosample attributes提交內(nèi)容一致。libraryID我是復(fù)制sample_name蚂会。
點(diǎn)擊Continue
七淋样、FILES
這才進(jìn)入上傳數(shù)據(jù)的主題,有三種可供選擇的上傳方式:
Method 1. 網(wǎng)頁(yè)上傳:建議文件大小不超過(guò)2GB胁住,大于2GB則需要安裝Aspera connect插件习蓬。
Method 2. FTP纽什、Aspera、Amazon S3上傳:
- FTP: 點(diǎn)擊選擇躲叼,展開(kāi)列表可以看到具體上傳的方式芦缰。需要下載安裝FileZilla等軟件,NCBI會(huì)提供你上傳的地址枫慷、用戶名和密碼让蕾。如我的是
Address: ftp-private.ncbi.nlm.nih.gov
Username: subftp
Password: ******* ***
- Aspera:懂得linux操作的應(yīng)該對(duì)這個(gè)軟件不陌生,是上傳下載原始數(shù)據(jù)的利器或听,可以參看我之前的文章SRA原始數(shù)據(jù)高速下載查閱使用教程探孝。
以Linux為例:
? 首先,下載Get the key file文件誉裆,然后將紅色框內(nèi)代碼保存為txt文件顿颅。將兩個(gè)文件上傳至自己的服務(wù)器或linux上。
? 命令行操作代碼:
ascp -i <path/to/key_file> -QT -l100m -k1 -d <path/to/folder/containing files> subasp@upload.ncbi.nlm.nih.gov:uploads/jfxie2013_163.com_00yOGS42
<path/to/key_file>:路徑為下載好的“Get the key file”文件的絕對(duì)路徑(文件名為aspera.openssh)
<path/to/folder/containing files>:所有需要上傳的文件的文件夾路徑足丢,注意里面不要包含其他任何無(wú)關(guān)數(shù)據(jù)粱腻。
注意:確保ascpera添加到環(huán)境變量中。
之后靜待數(shù)據(jù)上傳吧斩跌,Aspera上傳的另一個(gè)好處是可以支持?jǐn)帱c(diǎn)續(xù)傳绍些,簡(jiǎn)直不要太贊了。
以Windows為例:
- 下載Aspera軟件耀鸦,并安裝柬批。https://www.ibm.com/aspera/connect/
- 要下載key file,并記住下載的位置袖订,后面需要調(diào)用這個(gè)文件氮帐。
-
啟動(dòng)Windows + R→ 輸入cmd → 確定 → 打開(kāi)命令提示符
首先將目錄轉(zhuǎn)移到aspera的根目錄下,即bin目錄下
-
輸入提供的命令行代碼并修改文件位置即可(不受中文影響)洛姑。
Method 3. Amazon S3: 應(yīng)該是亞馬遜云服務(wù)揪漩。
上傳完成后點(diǎn)擊Select preload folder
點(diǎn)擊Refresh folders可以看到已經(jīng)上傳好的數(shù)據(jù),盡快進(jìn)行下一步吏口,好像這個(gè)保存并非長(zhǎng)久的奄容。
然后選擇Use selected folder。
點(diǎn)擊Continue
八产徊、REVIEW & SUBMIT
進(jìn)入這一頁(yè)已基本完成了昂勒,再審查一下所遞交的內(nèi)容有無(wú)紕漏。
無(wú)需多久NCBI就會(huì)審核通過(guò)舟铜。
參考資料: