目前NCBI中的SRA上傳流程有精簡與優(yōu)化燥狰,可以不需要單獨申請BioSample與BioProject。因為SRA提交步驟中就包含了創(chuàng)建BioProject和BioSample奋岁,可以直接一步到位嚼酝。
1妄均、開始創(chuàng)建SRA
登錄NCBI主上傳界面:https://www.ncbi.nlm.nih.gov/home/submit/,選擇SRA數(shù)據(jù)庫倒堕。
或者到SRA 的網(wǎng)頁https://trace.ncbi.nlm.nih.gov/Traces/sra_sub灾测,點擊“Create new Submission”。
最后都進入到SAR數(shù)據(jù)上傳主界面垦巴,點擊創(chuàng)建媳搪。
可能進來之后的界面是這樣的,沒有看到創(chuàng)建按鈕:
后來發(fā)現(xiàn)骤宣,首次使用的用戶需要注冊郵箱的郵件確認之后秦爆,才能開始上傳。
2憔披、填寫submitter信息
如果是初次遞交數(shù)據(jù)等限,根據(jù)要求填寫下面信息爸吮,填寫提交人的個人信息和單位信息:需要將*必填項需準確且完整地填寫。
注:email選項中望门,兩個郵箱中需要留一個該項目負責(zé)人的常用郵箱形娇,因為后續(xù)如果想要修改數(shù)據(jù)信息或者釋放時間,都需要該郵箱發(fā)送郵件至NCBI才會受理筹误。如果已經(jīng)是SRA老用戶桐早,確認默認信息,做些更改即可厨剪。
3哄酝、GENERAL INFO(關(guān)鍵步驟)
如果此次上傳的樣品已經(jīng)申請過BioProject和BioSample,則選擇“Yes”并添加相應(yīng)的BioProject 編號(如PRJNA#)丽惶;如果未申請過炫七,則選擇“NO”,此次SRA上傳向?qū)Ь蜁诤罄m(xù)步驟中讓您填寫相關(guān)信息爬立,由系統(tǒng)自動創(chuàng)建并分配編號钾唬。此處千萬不要隨便選擇,否則后續(xù)步驟會報錯侠驯。
?4抡秆、PROJECT INFO(填寫project信息)
只需填寫 2 個信息,Project title 和 Public description吟策,點擊“儒士?”會出現(xiàn)提示,按照提示參考例子填寫即可檩坚。(帶有*號的為必填着撩,其它可以不填寫)
?5、BIOSAMPLE TYPE(樣本類型選擇)
按照樣本的物種或者來源匾委,選擇一個類型拖叙。
6、填寫B(tài)iosample信息
有兩種方式赂乐,一種是在線表格填寫(樣品數(shù)據(jù)較少建議使用此種方法薯鳍,如只有一個樣品);另外一種是需要我們下載excel表格填寫挨措,表格中綠色的為必填挖滤,藍色淺藍色的需要至少填一個,其他可以填寫'not collected', ?'not applicable' or 'missing'浅役,黃色內(nèi)容可以選填或者不填寫斩松,如果是生物學(xué)重復(fù)需要添加一列replicate,按照“replicate = biological replicate 1”格式進行填寫觉既,如下圖所示(這個很重要砸民,否則后續(xù)會報錯)。填寫完成后需要將Excel另存為文本文件(制表符分隔),然后點擊“選擇文件”上傳岭参;
Organism:需要使用拉丁名稱進行填寫反惕,不能填寫成英文名稱,如果填寫拉丁名稱還報錯演侯,此處也可以填寫樣品名稱姿染;
Isolate:有時提交表格報錯,是因為不同的樣品在這個地方填寫了相同的信息秒际,因此需要修改成不同的信息悬赏,可以填寫該樣品是怎么處理的;
collection_date娄徊,樣本搜集日期闽颇,格式必須是 XX-月份簡寫-年份四位,設(shè)置單元格為文本后填寫寄锐;
Geo loc name兵多,樣本搜集地點,國家:城市 省份橄仆,如:China:Beijing剩膘;
Sample_type,樣本類型盆顾。如:Microbe\Model organism or animal sample\Human sample\Pathogen怠褐;
這步容易出錯,請耐心填寫您宪,注意在輸入法英文狀態(tài)下填寫奈懒。上傳前,多檢查宪巨,報錯后 SRA
系統(tǒng)會給出理由以及推薦的修改方式磷杏。
7、SRA METADATA(上傳Metadata表格)
上一步表格上傳完成后揖铜,接著上傳Metadata表格茴丰,填寫規(guī)則請查看Excel表格中的Sheet3中的library and Platform Terms信息(或者參考以下內(nèi)容)。填寫完成后另存為txt文本文件(制表分隔符)天吓,然后點擊“選擇文件”進行上傳贿肩;
8、填寫B(tài)iosample信息
sheet3是關(guān)于文庫和測序平臺的一些介紹龄寞。只用填寫 sheet2汰规,如圖,鼠標放在表頭紅色的三角符號上會有提示物邑。
第一列(A 列)溜哮,bioproject_accession滔金,如果之前沒申請 bioproject 則不用填寫;
第二列(B 列)茂嗓,與之前的 sample name(2.5 樣本信息表填寫)要一致餐茵;
第三列(C 列),library_ID述吸,可以自己編寫一個忿族,或者可以直接填寫樣品名稱,各不一樣蝌矛;
第四列(D 列)道批,簡單描述項目背景;
第 EFGHIJ入撒,下拉框進行選擇即可隆豹,在 sheet3 里面有具體的介紹,以下列出來常見的項目類型茅逮,以供參考璃赡。
第L列是填寫上傳的文件類型,普通轉(zhuǎn)錄組一般上傳fq氮唯,則第Q列不需要填寫(或者也可以上傳比對結(jié)果bam文件鉴吹,此時Q列需要提供比對基因組信息)姨伟。如果上傳全轉(zhuǎn)錄組的測序結(jié)果文件可參考以下填寫內(nèi)容惩琉,由于pacbio的下機原始數(shù)據(jù)為bam格式,而bam格式NCBI系統(tǒng)則認為是比對結(jié)果文件夺荒,此時可以填寫“unaligned”瞒渠。(以下NCBI staff給我們支招)
? For unaligned bam files please enter ‘unaligned’ in the ‘a(chǎn)ssembly’ column.
此外,我們Pacbio測序平臺的數(shù)據(jù)也可以直接上傳CCS后的fq或fa文件(一致性序列)技扼。
第 K 列是實驗設(shè)計的描述伍玖,如果Library_Strategy\Library_Source兩個地方其中選擇了“OTHER”選項,則需要填寫建庫過程剿吻。
第 M 列是上傳文件的名字(一般PE雙端測序每個樣品有兩個文件窍箍、SE單端測序每個樣品一個文件)。txt 文件(制表符分隔)上傳后丽旅,然后點擊“Continue”椰棘。
后續(xù)可以繼續(xù)選擇網(wǎng)頁上傳,該方法操作簡便榄笙,且可以選擇多個文件同時上傳邪狞。單個文件大于2G時需要安裝Aspera軟件,下載地址:https://downloads.asperasoft.com/connect2//
Filezilla客戶端上傳
該方法支持斷點續(xù)傳茅撞,且不需要敲入任何代碼帆卓,只需要進行簡單的拖拽操作就可以輕松完成數(shù)據(jù)上傳SRA巨朦。
1、安裝Filezilla
首先需要安裝Filezilla(https://filezilla-project.org/download.php?show_all=1 )剑令,一般我們使用較多的是windows操作系統(tǒng)糊啡,選擇與自己匹配的版本(如果不確定自己的windows是32位還是64位,建議下載win32這個版本)進行安裝吁津。除此之外悔橄,該網(wǎng)站還有Mac、Linux版本腺毫,如下圖所示癣疟。
默認安裝目錄或者自定義安裝路徑都可以。如果老師不愿意安裝Filezilla潮酒,這里推薦一個免安裝的綠化版本Filezilla軟件免費分享給您睛挚。已經(jīng)上傳至網(wǎng)盤:https://pan.genomics.cn/ucdisk/s/VvI7Fn (鼠標左鍵單擊跳轉(zhuǎn)進入網(wǎng)盤后進行下載)
2、使用 Filezilla 連接 NCBI
??在上傳向?qū)峤豁撁嬷羞M行到 Files這一步驟時需要選擇:FTP or Aspera Command Line file preload急黎,如下圖所示:
而后點擊下面的FTP upload instructions扎狱,主要獲取紅色框里面的信息,這部分為SRA提供的賬號密碼信息(如下圖所示)勃教,以便后續(xù)Filezilla連接淤击。
使用上述提供的賬號密碼鏈接服務(wù)器(主機輸入上述對應(yīng)的Address:ftp-private.ncbi.nlm.nih.gov),狀態(tài)提示欄會報 550/:permission denied 錯誤故源,此時不必驚訝污抬,這是正常情況。
接著绳军,只需要在軟件的遠程站點框中輸入指定的個人目錄 upload/xxxxx(注:在上傳的網(wǎng)頁界面中FTP upload instructions信息里面查找印机,每個賬號的路徑都是不一樣的,我的路徑為:uploads/zouchangjiang@genomics.cn_*******)门驾,然后鍵盤上敲擊 Enter 即可進入個人目錄射赛。
進入個人目錄后需要新建一個文件夾,來進行上傳數(shù)據(jù)奶是。如果不創(chuàng)建文件夾而直接將數(shù)據(jù)上傳到個人目錄下面楣责,系統(tǒng)將不能自動提取上傳的數(shù)據(jù)。因此聂沙,在遠程站點區(qū)域選中路徑秆麸,然后鼠標右擊,創(chuàng)建new_folder目錄:
此時就可以在本地站點中找到clean data文件夾中的fq文件逐纬,直接拖拽到剛在遠程站點中創(chuàng)建的new_folder文件夾中蛔屹,完成拖拽就開始進行上傳了,如下圖所示:
當(dāng)Filezilla在服務(wù)器/本地文件列隊文件區(qū)域都為空白時豁生,表示完成文件傳輸兔毒。成功的傳輸界面也表示上述拖拽的8個文件都已經(jīng)完成上傳漫贞,如下圖所示。
2育叁、回到上傳網(wǎng)頁操作
當(dāng)Filezilla上傳完數(shù)據(jù)后迅脐,還需要在網(wǎng)頁上操作最后幾步『浪裕回到SRA上傳向?qū)ЬW(wǎng)頁中谴蔑,點擊Select preload folder按鈕后彈出界面,如下圖所示:
再點擊Refresh folders:
文件數(shù)據(jù)與之前上傳的是一致的龟梦,點擊Use select folder回到網(wǎng)頁隐锭,發(fā)現(xiàn)Select preload folder按鈕后面顯示已經(jīng)選中new_folder文件夾,然后點擊continue進行到下一步计贰。
?Overview這一步就是檢查之前上傳的信息是否有誤钦睡,如果非常確定準確無誤的話,就可以直接點擊Submit進行提交了躁倒。
完成數(shù)據(jù)上傳后荞怒,5個工作日內(nèi)會收到NCBI發(fā)送的一封郵件,里面包含SRA accession ID(一般以SR開頭)秧秉,文章中可以作為引用褐桌。
如果沒有收到郵件,可以登錄NCBI賬號進入SRA上傳界面象迎,點擊Manage Data查看Bioproject accession荧嵌,該ID也可在文章中作為引用。(每個樣品的accession也是可以的)
最后挖帘,如果還是想讓NCBI提供上述郵件中對應(yīng)的SRA accession完丽,可以發(fā)郵件至sra@ncbi.nlm.nih.gov ?注意郵件中需要提供SRA submission SUB*****(每次上傳數(shù)據(jù)系統(tǒng)都會生成一個提交號碼)恋技。
文章來源:https://mp.weixin.qq.com/s/eiaTqJ4kJxmDJfHZe_N66w