批量下載NCBI基因組(mamba安裝)
mamba create -n ncbidownload
conda activate ncbidownload
mamba install -c bioconda -n ncbi-genome-download
ncbi-genome-download --assembly-accessions list.csv --output-folder $PWD --section genbank --formats fasta bacteria
ncbi-genome-download參數(shù)詳解:
命令 | 參數(shù)詳解 |
---|---|
-h | 顯示幫助 |
--assembly-accessions | 將你要下載的基因組信息整理成每列單獨(dú)一個(gè)的ID文件 |
--output-folder $PWD | 保存的文件路徑粉铐,這里是當(dāng)前路徑 |
--section refseq | 選擇數(shù)據(jù)庫(kù)汉规,兩個(gè)參數(shù)一個(gè)是genebank一個(gè)是refseq,默認(rèn)genebank |
--formats fasta | 下載形成的格式渠欺,這里是fasta格式 |
bacteria | 必須參數(shù)涕俗,設(shè)置下載相關(guān)基因組的域罗丰,空格的形式放在命令最后,也可以換成all |
附錄
#搜索目錄下所有g(shù)z文件復(fù)制到現(xiàn)在目錄
find . -type f -name "*.gz" -exec cp {} $PWD \;
#統(tǒng)計(jì)個(gè)數(shù)
find . -type f -name "*.gz" | wc -l
#修改名字
for file in *.gz; do
new_name=$(echo "$file" | cut -d '_' -f 1-2)
mv "$file" "$new_name.gz"
done
#將下載的文件導(dǎo)出到一個(gè)統(tǒng)計(jì)文件中
ls *.gz > check.txt