OXFORD Journals 按照功能進(jìn)行數(shù)據(jù)庫(kù)分類
https://www.oxfordjournals.org
數(shù)據(jù)處理的本質(zhì):基于序列本身特征預(yù)測(cè)基因移剪;無(wú)特征蛇受,而通過(guò)序列比對(duì)進(jìn)行功能注釋。
1弊仪、命令行下載
wget ftp://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/human_g1k_v37.fasta.gz
- O 下載時(shí)重命名文件
- c 斷點(diǎn)續(xù)傳
- b 放到后臺(tái)下載
- r 遞歸下載但绕,用于下載整個(gè)目錄
- i 從文件批量下載齿椅,將下載地址寫入文件
2戈轿、flp下載 #較http 協(xié)議好
ncbi 的 ftp 地址為,ftp://ftp.ncbi.nlm.nih.gov/
embl 的 ftp 地址為:ftp://ftp.ensembl.org/pub/
mamba install -y lftp #安裝
exit #退出
lftp ftp://ftp.ncbi.nlm.nih.gov/
>>>ls #列出列表,文件夾中有啥
>>>cd /blast/db
>>>megt swissprot.tar.gz #下載文件
>>>mirror genomics/ #下載文件夾
也可以用xftp軟件直接訪問(wèn)網(wǎng)址下載
3政基、aspera高速下載
安裝aspera:不要使用conda下載贞铣,后面使用會(huì)出現(xiàn)問(wèn)題
wget https://download.asperasoft.com/download/sw/connect/3.9.9/ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz #下載
tar -zxvf ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.tar.gz #解壓
sh ibm-aspera-connect-3.9.9.177872-linux-g2.12-64.sh #運(yùn)行
ln -s ~/biosoft/ibm-aspera-connect-3.9.9.177872/bin/aspera ./ #鏈接
#利用 aspera 下載數(shù)據(jù)
ascp -i .aspera/connect/etc/asperaweb_id_dsa.openssh --overwrite=diff -QTr -l6000m anonftp@ftp.ncbi.nlm.nih.gov:blast/db/swissprot.tar.gz ./
只需改動(dòng)blast后面的:
blast/db/FASTA/ ./
blast/db/FASTA/nr.gz ./
pub/COG/ ./
blast/db/FASTA/nt.gz ./
anonftp@ftp.ncbi.nlm.nih.gov #賬號(hào)
asperaweb_id_dsa.openssh #權(quán)限license
批量下載
1、通過(guò)NCBI的Batch entrez (Accession number, GI, GeenID)
send to, file, 下載AC號(hào)
新建一個(gè)txt文件沮明,在Batchentrez中下載咕娄。
2、測(cè)序數(shù)據(jù)的下載:SRA數(shù)據(jù)庫(kù)(二代測(cè)序數(shù)據(jù))
Bioproject是一個(gè)項(xiàng)目(逐漸變大):
SRR run號(hào)
SRX experiments號(hào)
SRS sample號(hào)
ERP/SRP studies號(hào)
直接用命令下載:
找到Data access珊擂,通過(guò)谷歌云AWS和亞馬遜云GCP
wget+地址
3圣勒、sratoolkit工具(不能使用conda安裝)
(prefetch——下載SRA、fastq-dump——SRA到fastq摧扇,fasterq-dump——速度更快)
批量獲得run號(hào):點(diǎn)擊run selector圣贸,Go,顯示所有run的詳細(xì)信息扛稽。Metadata下載列表吁峻,顯示全部信息。
設(shè)定存儲(chǔ)目錄:~/Database/sequences/
prefetch SRRxxxxxxx -O ./ #默認(rèn)創(chuàng)建一個(gè)ncbi文件夾在张,這里修改成當(dāng)前文件夾
如果數(shù)據(jù)上傳后還沒(méi)移走用含,會(huì)使用aspera高速下載,一段時(shí)間后回移到sos出帮匾,高速下載就不可用了啄骇。