最近文章要求原始數(shù)據(jù)上傳NCBI數(shù)據(jù)庫室奏,小白摸索了一路總算有了點認(rèn)識哈哈~寫下來當(dāng)做筆記努溃。
1.賬號
首先我們要登錄NCBI網(wǎng)站,見圖1右上角经备,如果有賬號直接登陸就好拭抬。沒有的話需要注冊,最近NCBI網(wǎng)站不能注冊只能通過第三方賬號注冊登錄侵蒙,比如google造虎,facebook等(圖三)。facebook注冊了一半想起來我有個現(xiàn)成的google郵箱纷闺,但是申請的時候打錯字了算凿,所以注銷了google重新開了一個。另外就是google郵箱申請需要外網(wǎng)急但,我朋友推薦了藍(lán)燈(lantern)澎媒,之前用過覺得網(wǎng)速不好,最近下載了用波桩,感覺申請賬號看郵箱戒努,妥妥的。此外遇到的google郵箱申請的時候,電話號碼顯示不能注冊储玫,第一點是要加86區(qū)號侍筛,另外就是瀏覽器語言設(shè)置成英文。網(wǎng)上有教程撒穷,大家遇到可以查查匣椰。
2.Bioproject申請
這部分和網(wǎng)上大多數(shù)的教程就差不多了,記錄的不詳細(xì)的部分大家可以在搜一搜端礼。進入submit禽笑,然后到my submissions,之后進入BioProject蛤奥,點擊new submission佳镜。這部分的步驟有很多種,并不固定如何進入建立賬號的順序等等凡桥,方法很多蟀伸,網(wǎng)上找找教程,跟著一步一步來就可以缅刽。
提交者信息的填寫啊掏,這部分沒什么好說的,根據(jù)實際情況來吧衰猛。下一步是項目類型迟蜜,還是根據(jù)實際情況來,沒啥好說的腕侄。之后有物種等等信息填寫小泉,繁瑣到我不想解釋哈哈。送你們兩條連接吧~這兩個連接給的很詳細(xì)冕杠,所以不想解釋了。我寫點別的了酸茴。BioSample內(nèi)容填寫也差不多分预。參照這兩個鏈接就好。
3.數(shù)據(jù)上傳部分
建立SRA笼痹,第一頁的Submitter完全相同,后邊是和Biosample酪穿,Bioproject建立連接凳干。圖12是樣本基本信息填寫,和bioproject被济,biosample相同可以一條一條的添加救赐,也可以直接傳表,把表格下下來只磷,然后填寫经磅,每個列名都有批注泌绣,我記得好像表格三個工作簿還是每個選項的解釋。
上傳數(shù)據(jù)预厌,數(shù)據(jù)量少的話選擇第一種阿迈,多的話后邊兩種,我選的第二種轧叽。通過miniconda下載安裝了Aspera苗沧。conda安裝真的簡單,也就兩三句命令吧~
source activate 進入conda
conda info -e 查看環(huán)境
conda create -n?Aspera創(chuàng)建新環(huán)境
conda activate Aspera 進入Aspera環(huán)境
conda install -c hcc aspera-cli -y Aspera環(huán)境的安裝
ascp -h 查看是否安裝成功
另外就是注意key file位置:miniconda3/envs/Aspera/etc/asperaweb_id_dsa.openssh炭晒。對應(yīng)自己文件的存放位置去找就是了待逞。
上傳命令的格式:ascp -i [key file 路徑]-QT -l100m -k1 -d [需要上傳文件的路徑] [NCBI存放路徑]注意這里最好在新文件夾存放,不要放在根目錄下腰埂。存放路徑在圖14飒焦,紅色部分。
4.另外說點別
1)bioproject建立了我就直接提交了屿笼,竟不想自己不能刪除牺荠,所以寫了郵件給NCBI那邊,刪除了這個錯誤的bioproject,所以小盆友們填寫信息要謹(jǐn)慎驴一,不然后邊需要寫郵件或者電話和NCBI溝通休雌。
2)數(shù)據(jù)提交后,顯示文件損壞肝断。交了很多次一直顯示文件損壞杈曲。gzip -t 檢查了fastq.gz文件也是一直報錯,壓縮文件損壞了胸懈,后來找同事重新下載了文件担扑,重新上傳。期間還和NCBI工作人員要了詳細(xì)的文件損壞報錯信息趣钱。NCBI回復(fù)信息還是很快的涌献,我的郵件基本是下班發(fā)送,第二天就有三四封郵件給我回復(fù)過來首有。
3)SRA數(shù)據(jù)處理比較慢燕垃,SRA數(shù)據(jù)我大概上傳了200多個G,我看網(wǎng)上說最后的processing這步一般是半小時左右井联,結(jié)果我等了一個小時都沒過去卜壕。直接下班了哈哈,第二天就通過了烙常。NCBI登錄號也收到了轴捎。
4)登錄號的獲取