生信log12|"Dataset"-NCBI批量下載基因組數(shù)據(jù)新工具嘗鮮&測評｜MacOS

寫在前言国拇，雖然筆主真的很喜歡幾行命令行就能解決很多重復(fù)勞動(dòng)，但本人還是被傻瓜式軟件吃得死死的山憨，哎真香拜轨。在此介紹一下 NCBI官網(wǎng)自己新出的一個(gè)批量下載物種基因組信息的網(wǎng)頁和其命令行軟件，以供萌新參考祥得。

另NCBI其實(shí)出了很多工具是能用于批量作業(yè)的兔沃，如批量下載蛋白序列，不用太多編程的知識级及，小白如果能夠善用NCBI的工具乒疏，初接觸生物信息學(xué)時(shí)也能事半功倍，對NCBI的工具不少生信大佬也出過不少教程的文章

NCBI datasets入口

新工具看點(diǎn)

網(wǎng)頁可瀏覽并下載對應(yīng)基因組信息
NCBI新工具提供了命令行饮焦，能一行命令下載所有所需信息

NCBI datasets 網(wǎng)站一覽

datasets 瀏覽基因組

教程部分

網(wǎng)頁下載

到這篇文章發(fā)出來的時(shí)候怕吴，頁面工具已經(jīng)完善了好多

最新版頁面工具
搜索某個(gè)種群，能得到現(xiàn)存網(wǎng)站上所有該個(gè)物種的基因組數(shù)量

以下載紅桿菌科為例

這個(gè)頁面已經(jīng)不是這樣的了

現(xiàn)在的搜索頁面

可以搜索某個(gè)物種县踢，直接下載整個(gè)類的物種信息點(diǎn)browse and download genomes直接跳轉(zhuǎn)到下面這個(gè)網(wǎng)頁

網(wǎng)頁下載

assemblies_download 老方法

datasets 網(wǎng)頁下載

終端命令行下載軟件和安裝

需要到官網(wǎng)下載dataset的二進(jìn)制文件：一個(gè)是dataset（這個(gè)才是下載我們序列最重要的文件）转绷，另外一個(gè)是dataformat使用來轉(zhuǎn)換json的數(shù)據(jù)到表格數(shù)據(jù)（不是最重要）

二進(jìn)制文件下載

MacOS命令下載（curl）

curl -o datasets 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/datasets'
curl -o dataformat 'https://ftp.ncbi.nlm.nih.gov/pub/datasets/command-line/LATEST/mac/dataformat'

命令行組成：dataset download genome taxon taxon_number
安裝：需要用chmod命令賦予權(quán)限，（mac用戶直接把二進(jìn)制文件拖進(jìn)終端即可硼啤，linux的有界面的也可以這么做议经，windows同理）

chmod +x /your_dir/dataset

查看怎么使用：

命令行的基本使用

# 僅下載核苷酸序列的命令，命令太長了
datasets download genome taxon taxon_number \
--filename species_name.zip --exclude-gff3 --exclude-protein \
--exclude-rna

python API下載

筆主python水平有限谴返，而且linux的命令更加簡潔（我喜歡??）煞肾，遲點(diǎn)探索了再另開一篇分享。

下載的結(jié)果

命令行下載結(jié)果

沒錯(cuò)嗓袱，如果沒有選擇特定下載文件的話籍救，它會(huì)幫你把所有基因組相關(guān)信息都下載下來，包括核苷酸序列

datasets_results1.png

dataset_result2.png

檢查數(shù)據(jù)的完整度??這步很重要

由于網(wǎng)絡(luò)的問題下載下來的數(shù)據(jù)不一定是全的索抓，有些文件夾可能是空的钧忽；
用網(wǎng)頁的工具毯炮，可能僅下載當(dāng)前頁面的數(shù)據(jù)；

處理方法：先打開文件夾耸黑，看總共有多少個(gè)文件

網(wǎng)頁版datasets的下載結(jié)果

download assemblies的結(jié)果

命令行統(tǒng)計(jì)路徑下的文件數(shù)量：

ls -lh|wc -l

評價(jià)&&坑點(diǎn)

openssL的證書不新桃煎，會(huì)導(dǎo)致命令行下載不成功（一直報(bào)錯(cuò)），dataset這款軟件似乎會(huì)默認(rèn)指向系統(tǒng)中curl用的openssl（當(dāng)時(shí)出錯(cuò)的截屏沒了大刊，莫得記錄）为迈。

解決辦法就是升級系統(tǒng)內(nèi)的anaconda，讓anaconda的版本變成最高級缺菌，或者export 最新的openssL路徑到終端

無法斷點(diǎn)下載葫辐，網(wǎng)速不好的下到最后被卡了可能要重頭下載，另外一點(diǎn)網(wǎng)速好好的話有些文件夾里面是空的下載不全伴郁，瀏覽器可能還能幫你接一接耿战，這個(gè)好像是ncbi的通病焊傅；

除了找個(gè)穩(wěn)定的網(wǎng)絡(luò)以外也沒有太多的辦法了剂陡，或者在校有條件的申請國外的服務(wù)器

下載下來的數(shù)據(jù)是一個(gè)物種一個(gè)文件包，在linux服務(wù)器上真的不太方便整理狐胎。
只能下載基因組的數(shù)據(jù)鸭栖，其他核苷酸序列無法下載。

參考

NCBI command line quickstart的官網(wǎng)手冊

某乎地址：
某乎上附有操作視頻握巢，還請多多支持晕鹊！

寫得賊累，各位看官路過賞個(gè)素質(zhì)三連唄～

最后編輯于：2021.08.09 12:08:02

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末暴浦，一起剝皮案震驚了整個(gè)濱河市溅话，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌肉渴，老刑警劉巖公荧，帶你破解...
沈念sama閱讀 221,635評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異同规，居然都是意外死亡循狰，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,543評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門券勺，熙熙樓的掌柜王于貴愁眉苦臉地迎上來绪钥，“玉大人，你說我怎么就攤上這事关炼〕谈梗” “怎么了？”我有些...
開封第一講書人閱讀 168,083評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵儒拂，是天一觀的道長寸潦。經(jīng)常有香客問我色鸳，道長，這世上最難降的妖魔是什么见转？我笑而不...
開封第一講書人閱讀 59,640評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任命雀，我火速辦了婚禮，結(jié)果婚禮上斩箫，老公的妹妹穿的比我還像新娘吏砂。我一直安慰自己，他們只是感情好乘客，可當(dāng)我...
茶點(diǎn)故事閱讀 68,640評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布狐血。她就那樣靜靜地躺著，像睡著了一般易核。火紅的嫁衣襯著肌膚如雪匈织。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,262評論 1贊 308
城市分裂傳說
那天耸成，我揣著相機(jī)與錄音报亩，去河邊找鬼。笑死井氢，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的岳链。我是一名探鬼主播花竞，決...
沈念sama閱讀 40,833評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼掸哑！你這毒婦竟也來了约急？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,736評論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤苗分，失蹤者是張志新（化名）和其女友劉穎厌蔽，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體摔癣，經(jīng)...
沈念sama閱讀 46,280評論 1贊 319
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡奴饮，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,369評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了择浊。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片戴卜。...
茶點(diǎn)故事閱讀 40,503評論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖琢岩，靈堂內(nèi)的尸體忽然破棺而出投剥，到底是詐尸還是另有隱情，我是刑警寧澤担孔，帶...
沈念sama閱讀 36,185評論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布江锨，位于F島的核電站吃警，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏啄育。R本人自食惡果不足惜汤徽，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,870評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望灸撰。院中可真熱鬧谒府，春花似錦、人聲如沸浮毯。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,340評論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽债蓝。三九已至壳鹤，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間饰迹，已是汗流浹背芳誓。一陣腳步聲響...
開封第一講書人閱讀 33,460評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留啊鸭，地道東北人锹淌。一個(gè)月前我還...
沈念sama閱讀 48,909評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像赠制，于是被迫代替她去往敵國和親赂摆。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,512評論 2贊 359