寫在前言国拇,雖然筆主真的很喜歡幾行命令行就能解決很多重復(fù)勞動(dòng),但本人還是被傻瓜式軟件吃得死死的山憨,哎真香拜轨。在此介紹一下
NCBI
官網(wǎng)自己新出的一個(gè)批量下載物種基因組信息的網(wǎng)頁和其命令行軟件,以供萌新參考祥得。
另NCBI其實(shí)出了很多工具是能用于批量作業(yè)的兔沃,如批量下載蛋白序列,不用太多編程的知識级及,小白如果能夠善用NCBI的工具乒疏,初接觸生物信息學(xué)時(shí)也能事半功倍,對NCBI的工具不少生信大佬也出過不少教程的文章
新工具看點(diǎn)
- 網(wǎng)頁可瀏覽并下載對應(yīng)基因組信息
-
NCBI新工具提供了命令行饮焦,能一行命令下載所有所需信息
NCBI datasets 網(wǎng)站一覽
datasets 瀏覽基因組
教程部分
網(wǎng)頁下載
到這篇文章發(fā)出來的時(shí)候怕吴,頁面工具已經(jīng)完善了好多
- 最新版頁面工具
-
搜索某個(gè)種群,能得到現(xiàn)存網(wǎng)站上所有該個(gè)物種的基因組數(shù)量
以下載紅桿菌科為例
這個(gè)頁面已經(jīng)不是這樣的了
現(xiàn)在的搜索頁面
-
可以搜索某個(gè)物種县踢,直接下載整個(gè)類的物種信息點(diǎn)browse and download genomes直接跳轉(zhuǎn)到下面這個(gè)網(wǎng)頁
網(wǎng)頁下載
assemblies_download 老方法
datasets 網(wǎng)頁下載
終端命令行下載軟件和安裝
- 需要到官網(wǎng)下載
dataset
的二進(jìn)制文件:一個(gè)是dataset(這個(gè)才是下載我們序列最重要的文件
)转绷,另外一個(gè)是dataformat使用來轉(zhuǎn)換json的數(shù)據(jù)到表格數(shù)據(jù)(不是最重要)
二進(jìn)制文件下載
- MacOS命令下載(
curl
)
curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/datasets'
curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/dataformat'
- 命令行組成:
dataset download genome taxon taxon_number
- 安裝:需要用chmod命令賦予權(quán)限,(
mac用戶直接把二進(jìn)制文件拖進(jìn)終端即可硼啤,linux的有界面的也可以這么做议经,windows同理
)
chmod +x /your_dir/dataset
- 查看怎么使用:
命令行的基本使用
# 僅下載核苷酸序列的命令,命令太長了
datasets download genome taxon taxon_number \
--filename species_name.zip --exclude-gff3 --exclude-protein \
--exclude-rna
- python API下載
筆主python水平有限谴返,而且linux的命令更加簡潔(我喜歡??)煞肾,遲點(diǎn)探索了再另開一篇分享。
下載的結(jié)果
命令行下載結(jié)果
沒錯(cuò)嗓袱,如果沒有選擇特定下載文件的話籍救,它會(huì)幫你把所有基因組相關(guān)信息都下載下來,包括核苷酸序列
datasets_results1.png
dataset_result2.png
檢查數(shù)據(jù)的完整度??這步很重要
- 由于網(wǎng)絡(luò)的問題下載下來的數(shù)據(jù)不一定是全的索抓,有些文件夾可能是空的钧忽;
- 用網(wǎng)頁的工具毯炮,可能僅下載當(dāng)前頁面的數(shù)據(jù);
處理方法
:先打開文件夾耸黑,看總共有多少個(gè)文件
網(wǎng)頁版datasets的下載結(jié)果
download assemblies的結(jié)果
命令行統(tǒng)計(jì)路徑下的文件數(shù)量:
ls -lh|wc -l
評價(jià)&&坑點(diǎn)
- openssL的證書不新桃煎,會(huì)導(dǎo)致命令行下載不成功(一直報(bào)錯(cuò)),
dataset
這款軟件似乎會(huì)默認(rèn)指向系統(tǒng)中curl用的openssl(當(dāng)時(shí)出錯(cuò)的截屏沒了大刊,莫得記錄)为迈。
解決辦法就是升級系統(tǒng)內(nèi)的anaconda,讓anaconda的版本變成最高級缺菌,或者export 最新的openssL路徑到終端
- 無法斷點(diǎn)下載葫辐,網(wǎng)速不好的下到最后被卡了可能要重頭下載,另外一點(diǎn)網(wǎng)速好好的話有些文件夾里面是空的下載不全伴郁,瀏覽器可能還能幫你接一接耿战,這個(gè)好像是ncbi的通病焊傅;
除了找個(gè)穩(wěn)定的網(wǎng)絡(luò)以外也沒有太多的辦法了剂陡,或者在校有條件的申請國外的服務(wù)器
- 下載下來的數(shù)據(jù)是一個(gè)物種一個(gè)文件包,在linux服務(wù)器上真的不太方便整理狐胎。
- 只能下載基因組的數(shù)據(jù)鸭栖,其他核苷酸序列無法下載。
參考
NCBI command line quickstart的官網(wǎng)手冊
某乎地址:
某乎上附有操作視頻握巢,還請多多支持晕鹊!
寫得賊累,各位看官路過賞個(gè)素質(zhì)三連唄~