數(shù)據(jù)上傳 | SRA數(shù)據(jù)上傳操作指南

在上一篇數(shù)據(jù)上傳指南中唬血,我們?yōu)榇蠹医榻B了GEO上傳操作指南望蜡,今天小編就來介紹另一種重要的NCBI數(shù)據(jù)庫(kù)SRA,它可用于存儲(chǔ)測(cè)序的原始數(shù)據(jù)拷恨,實(shí)現(xiàn)資源共享脖律。小編將SRA數(shù)據(jù)庫(kù)的提交過程做一個(gè)簡(jiǎn)單概述,希望能為大家提供一點(diǎn)幫助腕侄。

一 SRA數(shù)據(jù)上傳操作方法

1?NCBI 賬號(hào)注冊(cè)

數(shù)據(jù)上傳前需要注冊(cè)一個(gè)NCBI(https://www.ncbi.nlm.nih.gov/)賬號(hào)小泉,創(chuàng)建需要郵件激活。如果已經(jīng)有賬號(hào)冕杠,可以直接點(diǎn)擊登錄微姊。在NCBI的首頁(yè)點(diǎn)Submit,選擇Sequence Read Archive (SRA)分预,點(diǎn)擊GO,點(diǎn)擊New submission兢交。

2 Bioproject 創(chuàng)建

用于描述對(duì)樣本進(jìn)行測(cè)序的研究目的


點(diǎn)擊

填寫submitter詳細(xì)信息:帶“*”號(hào)為必填(姓名、郵箱噪舀、單位魁淳、地址、郵政編碼)与倡,點(diǎn)擊continue界逛。


項(xiàng)目類型基因組/轉(zhuǎn)錄組,外泌體纺座,宏基因組等

研究物種信息

信息釋放時(shí)間節(jié)點(diǎn)息拜,項(xiàng)目的主要概況,研究目的等

如果已經(jīng)創(chuàng)建Biosample净响,則填寫B(tài)ioSample編號(hào)少欺,否則創(chuàng)建BioSample

添加完Biosample 后進(jìn)入Publication 界面,如果已經(jīng)有發(fā)表的文章則填寫文章的Pubmed ID/DOI 號(hào)

3 Biosample 創(chuàng)建

用于描述測(cè)序樣本的具體信息


該頁(yè)面詳細(xì)介紹了BioSample的用途馋贤,注意事項(xiàng)以及視頻教程

已經(jīng)有該項(xiàng)目的bioproject 直接點(diǎn)擊submit


填寫基本信息

←點(diǎn)擊新建

選擇信息何時(shí)向公眾公開

添加物種信息

選擇物種類型

填寫或下載填寫樣本相關(guān)表格

將填寫好的樣本上傳

如果樣本不多赞别,推薦直接在網(wǎng)頁(yè)填寫表格

網(wǎng)頁(yè)版表格:必填字段標(biāo)有*星號(hào)。標(biāo)有**配乓,??或??的字段至少填寫其中一個(gè)仿滔。表格填寫:不同的生物樣品類型所需填寫的表格內(nèi)容不同惠毁。綠色字段為必填項(xiàng),如缺少相關(guān)信息崎页,如任何必填項(xiàng)沒有資料鞠绰,可以填寫'not collected', 'not applicable' 或 'missing';以人類樣品為例飒焦,至少需要填寫綠色單元格里的以下幾項(xiàng)樣品信息:(1) 樣品名稱(sample name):無(wú)特定格式要求蜈膨。(2) 物種(organism):實(shí)驗(yàn)物種的拉丁名。(3) 個(gè)體(isolate):為該實(shí)驗(yàn)樣品個(gè)體取一個(gè)名字牺荠,無(wú)特定格式要求翁巍。(4) 年齡(age):格式為【數(shù)字】+【時(shí)間單位】。(5) 單位(biomaterial_provider):實(shí)驗(yàn)室或PI的名稱和地址等信息志电,無(wú)特定格式要求曙咽。(6) 性別(Sex):請(qǐng)從下拉菜單中選取符合條件的選項(xiàng),而不要手動(dòng)填寫挑辆。(7) 組織(tissue):樣品來源的組織類型例朱,無(wú)特定格式要求。藍(lán)色字段為至少一個(gè)必填項(xiàng)鱼蝉,可參考綠色字段填寫方法洒嗤;黃色字段則為非必填項(xiàng)。注意魁亦,除樣本名外渔隶,需要可以有信息將每個(gè)樣本區(qū)分開,可以通過添加description信息洁奈,或者另外增加replication的信息來進(jìn)行區(qū)分(注意间唉,這里信息如果填寫不符合規(guī)范,上傳后會(huì)報(bào)錯(cuò)利术,只需根據(jù)提示的信息對(duì)表格內(nèi)容進(jìn)行相應(yīng)修改后重新上傳即可)

若多個(gè)樣品填寫為相同的信息(生物學(xué)重復(fù))呈野,需要在最后一列添加“replicate”(replicate=replicate biological X(1、2印叁、3))

預(yù)覽Biosample 信息

BioSample號(hào)

4 數(shù)據(jù)上傳導(dǎo)航

點(diǎn)擊

填寫B(tài)ioproject和BioSample號(hào)即可被冒,如果沒有填寫no即可, 在數(shù)據(jù)上傳的后面步驟中 會(huì)讓您補(bǔ)充Bioproject和BioSample信息轮蜕。

項(xiàng)目基本描述信息

選擇添加metadata 的方式昨悼,是在線填寫或者下載表格填寫后上傳

我們建議您勾選“Upload a file using Excel or text format (tab-delimited)”并點(diǎn)擊下圖紅框內(nèi)的“Download Excel spreadsheet”超鏈接下載模板表格文件,以便在本地電腦上慢慢填寫表格跃洛。

下載的“表格文件”內(nèi)含三個(gè)工作表:Contact info and instructions率触、SRA_data、Library and Platform Terms汇竭。其中**個(gè)和第三個(gè)工作表是說明文檔葱蝗,實(shí)際填寫 SRA 元數(shù)據(jù)的位置再第二個(gè)工作表“SRA_data”痊剖。完成填寫后,回到網(wǎng)頁(yè)點(diǎn)擊“Choose file”按鈕上傳文件垒玲。SRA 官方建議您將第二個(gè)工作表另為 txt 格式再上傳,然而實(shí)際使用中 Excel 格式的文件基本也能被成功讀取識(shí)別找颓。

表格中需要填寫以下各縱列內(nèi)容:

(1) 樣品名稱(sample name):無(wú)特定格式要求合愈,但需與第五步中上傳表格使用過的樣品名稱保持一致。

(2) 文庫(kù)ID(library ID):無(wú)特定格式要求击狮。

(3) 標(biāo)題(title):建議采用 {methodology} of {organism}: {sample info} 這樣的格式佛析,例如“RNA-Seq of mus musculus: adult female spleen”。

(4) 文庫(kù)方法(library_stratagy):請(qǐng)從下拉菜單中選取彪蓬。點(diǎn)擊標(biāo)題超鏈接寸莫,您可以查看到各個(gè)選項(xiàng)的說明。對(duì)于轉(zhuǎn)錄組的測(cè)序類項(xiàng)目档冬,請(qǐng)選擇 RNA-seq膘茎。

(5) 文庫(kù)來源(library_source): 請(qǐng)從下拉菜單中選取。點(diǎn)擊標(biāo)題超鏈接酷誓,您可以查看到各個(gè)選項(xiàng)的說明披坏。對(duì)于轉(zhuǎn)錄組的測(cè)序類項(xiàng)目,請(qǐng)選擇 TRANSCRIPTOMIC盐数。

(6) 文庫(kù)篩選(library_selection):請(qǐng)從下拉菜單中選取棒拂。點(diǎn)擊標(biāo)題超鏈接,您可以查看到各個(gè)選項(xiàng)的說明玫氢。

(7)文庫(kù)端數(shù)(library_layout):請(qǐng)從下拉菜單選取單端測(cè)序(single)或雙端測(cè)序(paired)帚屉。

(8)測(cè)序平臺(tái)(platform):請(qǐng)從下拉菜單中選取。點(diǎn)擊標(biāo)題超鏈接漾峡,您可以查看到各個(gè)選項(xiàng)的說明攻旦。諾禾致源絕大多數(shù)的測(cè)序項(xiàng)目,都請(qǐng)選擇 ILLUMINA灰殴。

(9)測(cè)序儀器(instrument_model):請(qǐng)從下拉菜單中選取敬特。點(diǎn)擊標(biāo)題超鏈接,您可以查看到各個(gè)選項(xiàng)的說明牺陶。例如 Illumina NovaSeq 6000伟阔。

(10)方法描述(design_description):無(wú)特定格式要求。

(11)文件類型(filetype):請(qǐng)從下拉菜單中選取掰伸。絕大多數(shù)的測(cè)序項(xiàng)目是提供 fastq 格式文件皱炉。(11)文件名(filename):此行所描述的文件的名稱(含文件后綴名)。如果存在多個(gè)文件狮鸭,例如對(duì)于雙端測(cè)序而言合搅,請(qǐng)您將R1測(cè)序文件的文件名填寫在“filename”一列(例如“Sample A1_1.fastq.gz”)多搀,然后再將R2測(cè)序文件的文件名填寫在“filename2一列(例如“Sample A1_2fastq.gz”)。(12)參考基因組(assenbly 或 fasta_file):此行上傳的數(shù)據(jù)是 bam 格式等與基因組比對(duì)后生成的文件灾部,請(qǐng)?zhí)峁﹨⒖蓟蚪M的信息康铭。如果是 NCBI 上的公開基因組,請(qǐng)?jiān)?assembly 一列填寫基因組版本名稱赌髓;如果使用的是自定義的本地基因組文件从藤,請(qǐng)?jiān)?fasta_file 一列填寫基因組文件的名稱。如果此行數(shù)據(jù)描述的文件不涉及基因組比對(duì)(alignment)操作锁蠕,這兩列都可以留空夷野。

選擇原始數(shù)據(jù)上傳的方式,數(shù)據(jù)較少就選網(wǎng)頁(yè)上傳荣倾,如果較多可以選擇第二個(gè),這里推薦Aspera方法上傳數(shù)據(jù)

注:網(wǎng)頁(yè)上傳選擇第一個(gè)選項(xiàng)webbroser uplode; 點(diǎn)擊選擇文件直接上傳即可悯搔;樣本較少可選擇網(wǎng)頁(yè)上傳,注意:雙端序列舌仍,需要將R1妒貌,R2兩端序列均上傳。

樣本較多選擇aspera軟件上傳铸豁,點(diǎn)擊Aspera browser plugin upload苏揣,下載并安裝windows版本的Aspera軟件以及Key file(需要下載“key file”這個(gè)在后面寫腳本的時(shí)候需要用到,如下圖所示)推姻;注意asper command linexiafang jiaoben xinx ,后面命令運(yùn)行需要用到平匈。下載安裝見鏈接:Aspera:https://www.ibm.com/aspera/connect/,安裝完成后藏古,找到IBM Aspera Connect的圖標(biāo)增炭,點(diǎn)擊屬性,打開文件所在位置:

把這些軟件下載安裝到windows下后拧晕,運(yùn)行dos命令窗口(在鍵盤上同時(shí)點(diǎn)擊“windows+R”隙姿,輸入“cmd”點(diǎn)擊確認(rèn)),輸入軟件所在絕對(duì)路徑。

指令運(yùn)行:首先進(jìn)入到Aspera安裝路徑(即首先“cd”軟件所在的絕對(duì)路徑)厂捞;運(yùn)行命令行:需要根據(jù)NCBI提供的腳本進(jìn)行改寫自己的腳本:ascp -i 第二步下載的key文件(注意帶上文件的目錄) -QT -l100m(上傳最大速度输玷,這里設(shè)置的為100M,如果覺得太快或太慢靡馁,可適當(dāng)調(diào)整) -k1 -d 數(shù)據(jù)存放目錄(目錄一“”結(jié)尾) subasp@upload.ncbi.nlm.nih.gov:uploads/lily@outlook.com_jZdRWIub(郵箱_生成的隨機(jī)碼)注意:第二步中Aspera Command-Line upload有具體的命令行指令欲鹏,以及需要上傳的路徑,只需要修改key文件路徑和數(shù)據(jù)目錄即可運(yùn)行上傳數(shù)據(jù)

數(shù)據(jù)上傳完成后需要耐心等待一段時(shí)間臭墨,上傳完所有的數(shù)據(jù)之后等上10-15min赔嚎,刷新軟件后可以出現(xiàn)下面的選項(xiàng)(注意最好選擇網(wǎng)線上傳,不要用無(wú)線)。

二 SRA數(shù)據(jù)上傳常見問題

1 表格填寫問題導(dǎo)致無(wú)法進(jìn)行下一步

Biosample 創(chuàng)建中Attributes表格填寫尤误,需要注意除樣本名外侠畔,需要可以有信息將每個(gè)樣本區(qū)分開,可以通過添加description信息损晤,或者另外增加replication的信息來進(jìn)行區(qū)分软棺。有生物學(xué)重復(fù)的需要在最后一列添加“replicate”(replicate=replicate biological X(1、2尤勋、3))

2 運(yùn)行命令錯(cuò)誤

輸入代碼后沒反應(yīng)(不彈出上傳的命令行)可以降低網(wǎng)速重新嘗試码党,或者檢查上傳文件路徑是否有空格,以及文件命名是否有空格斥黑,檢查后更改路徑重新上傳。

3 輸入代碼后

(error:key passphrase)

退出軟件眉厨,重新啟動(dòng)或重新下載

4?傳輸中斷

(error: 0bit/s session stop)重新輸入代碼锌奴,并建議適當(dāng)調(diào)低網(wǎng)速

5?Session Stop

(Error: Failed to open TCP connection for SSH)

重新下載軟件重新登錄再嘗試

總結(jié):目前最常見的問題是表格上傳問題可以重點(diǎn)檢查上傳表格中填寫是否完全一致,無(wú)法區(qū)分樣本憾股。及輸入代碼后不彈出上傳的命令問題可以檢查網(wǎng)速鹿蜀,檢查上傳文件路徑是否有空格,以及文件命名是否有空格服球,檢查后更改路徑重新上傳茴恰。

以上就是本次數(shù)據(jù)上傳指南的主要內(nèi)容,希望本次的分享可以給大家?guī)韼椭缎堋H绻蠹矣惺裁磫栴}往枣,也可以在評(píng)論區(qū)留言。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末粉渠,一起剝皮案震驚了整個(gè)濱河市叼架,隨后出現(xiàn)的幾起案子规肴,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,941評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件岂丘,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡感耙,警方通過查閱死者的電腦和手機(jī)就缆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,397評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來尤溜,“玉大人倔叼,你說我怎么就攤上這事」常” “怎么了缀雳?”我有些...
    開封第一講書人閱讀 165,345評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)梢睛。 經(jīng)常有香客問我肥印,道長(zhǎng)识椰,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,851評(píng)論 1 295
  • 正文 為了忘掉前任深碱,我火速辦了婚禮腹鹉,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘敷硅。我一直安慰自己功咒,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,868評(píng)論 6 392
  • 文/花漫 我一把揭開白布绞蹦。 她就那樣靜靜地躺著力奋,像睡著了一般。 火紅的嫁衣襯著肌膚如雪幽七。 梳的紋絲不亂的頭發(fā)上景殷,一...
    開封第一講書人閱讀 51,688評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音澡屡,去河邊找鬼猿挚。 笑死,一個(gè)胖子當(dāng)著我的面吹牛驶鹉,可吹牛的內(nèi)容都是我干的绩蜻。 我是一名探鬼主播,決...
    沈念sama閱讀 40,414評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼室埋,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼办绝!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起姚淆,我...
    開封第一講書人閱讀 39,319評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤八秃,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后肉盹,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體昔驱,經(jīng)...
    沈念sama閱讀 45,775評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,945評(píng)論 3 336
  • 正文 我和宋清朗相戀三年上忍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了骤肛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,096評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡窍蓝,死狀恐怖腋颠,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情吓笙,我是刑警寧澤淑玫,帶...
    沈念sama閱讀 35,789評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站,受9級(jí)特大地震影響絮蒿,放射性物質(zhì)發(fā)生泄漏尊搬。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,437評(píng)論 3 331
  • 文/蒙蒙 一土涝、第九天 我趴在偏房一處隱蔽的房頂上張望佛寿。 院中可真熱鬧,春花似錦但壮、人聲如沸冀泻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,993評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)弹渔。三九已至,卻和暖如春溯祸,著一層夾襖步出監(jiān)牢的瞬間肢专,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,107評(píng)論 1 271
  • 我被黑心中介騙來泰國(guó)打工您没, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人胆绊。 一個(gè)月前我還...
    沈念sama閱讀 48,308評(píng)論 3 372
  • 正文 我出身青樓氨鹏,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親压状。 傳聞我的和親對(duì)象是個(gè)殘疾皇子仆抵,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,037評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容