一、寫(xiě)在前面
最近在下載GSA數(shù)據(jù)的時(shí)候發(fā)現(xiàn)一個(gè)小工具iSeq
煤蹭,簡(jiǎn)直太好用了笔喉,分享給大家!
iSeq
的GitHub
鏈接:https://github.com/BioOmics/iSeq(iSeq
竟然配了一個(gè)中文教程)
Aspera
和AXEL
奄毡,竟然還支持直接獲得樣本的!
二贝或、下載iSeq
iSeq目前已經(jīng)同步到了Bioconda
吼过,因此使用conda
下載非常方便:
# 為了環(huán)境內(nèi)軟件不沖突,盡量創(chuàng)建一個(gè)新環(huán)境
conda create -n iseq -c conda-forge -c bioconda iseq
conda activate iseq
# 查看是否安裝成功
iseq --help
不過(guò)咪奖,有時(shí)候在Windows
內(nèi)置的Ubuntu
雖然安裝成功盗忱,但是conda
環(huán)境中的wget
無(wú)法正常使用,導(dǎo)致iSeq
不能訪問(wèn)數(shù)據(jù)羊赵,這應(yīng)該是conda
內(nèi)部DNS轉(zhuǎn)換
出現(xiàn)了問(wèn)題趟佃,因此在Windows
內(nèi)置的Ubuntu
還要查看一下下面的代碼是否正常。
# 能正常下載就可以
wget www.baidu.com
# 看看能不能訪問(wèn)到SRA文件的連接
srapath SRR1178105
# 彈出:https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR1178105/SRR1178105
如果異常昧捷,可以查看文末的問(wèn)題解決方案闲昭。
三、使用iSeq
iSeq
的使用非常簡(jiǎn)單靡挥,就直接給它各大數(shù)據(jù)庫(kù)的accession
號(hào)就可以了序矩,下面我介紹幾個(gè)。不過(guò)跋破,iSeq
也給出了非常多的使用例子以供參考簸淀。
1. 直接把ENA/SRA數(shù)據(jù)庫(kù)一個(gè)項(xiàng)目里面的數(shù)據(jù)批量全部下載下來(lái)
iseq -i PRJNA211801
2. 直接把GSA數(shù)據(jù)庫(kù)一個(gè)項(xiàng)目里面的數(shù)據(jù)批量全部下載下來(lái)
- 這通過(guò)
華為云盤(pán)
下載也太快了把
iseq -i CRA000553
3. 直接獲得單個(gè)樣本的fastq文件。
: GSA
數(shù)據(jù)庫(kù)中只能直接獲取gz
壓縮的fastq
文件或者bam
等文件毒返,SRA/ENA
數(shù)據(jù)庫(kù)可以選擇-q
獲得單個(gè)樣本的fastq
文件啃擦,或者-g
直接下載樣本的fastq.gz
文件
iseq -i SRR1178105 -q
4. 使用高速下載
直接使用iSeq
的-a
參數(shù)就好
iseq -i SRR1178105 -a
: 通過(guò)iSeq
訪問(wèn)GSA數(shù)據(jù)庫(kù)的時(shí)候,如果華為云的鏈接存在饿悬,即使使用-a
參數(shù),iSeq
也會(huì)自動(dòng)跳轉(zhuǎn)到華為云聚霜,如:
iseq -i CRR311377 -a
5. 僅獲取metadata的信息
看了一下狡恬,樣本的信息非常全面珠叔,包括發(fā)育階段,取材部位弟劲,脅迫條件等祷安,再也不用手動(dòng)去一個(gè)個(gè)找了。
iseq -i PRJNA211801 -m
6. 批量下載
cat SRR_Acc_List.txt | while read Run; do
iseq -i $Run -a -g
done
-
SRR_Acc_List.txt
就是一行一個(gè)accession
號(hào)碼組成的文本文件
四兔乞、iSeq的具體參數(shù)解釋
-
-i
,--input
: 輸入你想下載的accession汇鞭,首先獲取accession的metadata,然后逐一對(duì)包含在內(nèi)的Run ID進(jìn)行下載庸追。 -
-m
,--metadata
: 只下載accession的樣本信息霍骄,跳過(guò)測(cè)序數(shù)據(jù)的下載。 -
-g
,--gzip
: 直接下載gzip格式的FASTQ文件淡溯,如果不能直接下載读整,則會(huì)下載SRA文件并通過(guò)多線程分解和壓縮轉(zhuǎn)換為gzip格式。 -
-q
,--fastq
: 將下載完成的SRA文件分解為多個(gè)未壓縮的FASTQ格式咱娶。 -
-t
,--threads
: 指定分解SRA文件為FASTQ文件或者壓縮FASTQ文件的線程數(shù)米间,默認(rèn)為8。 -
-e
,--merge
: 將Experiment中的多個(gè)FASTQ文件合并為一個(gè)FASTQ文件膘侮。 -
-d
,--database
: 指定下載SRA文件的數(shù)據(jù)庫(kù)屈糊,支持ena
和sra
兩種數(shù)據(jù)庫(kù)。 -
-p
,--parallel
: 開(kāi)啟多線程下載琼了,需要指定下載的線程數(shù)逻锐。 -
-a
,--aspera
: 使用Aspera進(jìn)行下載。
五表伦、iSeq支持的accession格式
目前支持以下5個(gè)數(shù)據(jù)庫(kù)的6種數(shù)據(jù)格式谦去,支持的accession前綴如下:
Databases | BioProject | Study | BioSample | Sample | Experiment | Run |
---|---|---|---|---|---|---|
GSA | PRJC | CRA | SAMC | \ | CRX | CRR |
SRA | PRJNA | SRP | SAMN | SRS | SRX | SRR |
ENA | PRJEB | ERP | SAME | ERS | ERX | ERR |
DDBJ | PRJDB | DRP | SAMD | DRS | DRX | DRR |
GEO | GSE | \ | GSM | \ | \ | \ |
其中對(duì)于來(lái)自于GEO數(shù)據(jù)庫(kù)的兩種數(shù)據(jù)格式GSE/GSM
,會(huì)直接獲取到與之關(guān)聯(lián)的PRJNA/SAMN
蹦哼,然后獲取到包含在內(nèi)的Run ID并進(jìn)行測(cè)序數(shù)據(jù)的下載鳄哭。因此,本質(zhì)上還是從SRA數(shù)據(jù)庫(kù)中下載測(cè)序數(shù)據(jù)纲熏。
以下是一些例子:
Accession Type | Prefixes | Example |
---|---|---|
BioProject | PRJEB, PRJNA, PRJDB, PRJC, GSE | PRJEB42779, PRJNA480016, PRJDB14838, PRJCA000613, GSE122139 |
Study | ERP, DRP, SRP, CRA | ERP126685, DRP009283, SRP158268, CRA000553 |
BioSample | SAMD, SAME, SAMN, SAMC | SAMD00258402, SAMEA7997453, SAMN06479985, SAMC017083 |
Sample | ERS, DRS, SRS, GSM | ERS5684710, DRS259711, SRS2024210, GSM7417667 |
Experiment | ERX, DRX, SRX, CRX | ERX5050800, DRX406443, SRX4563689, CRX020217 |
Run | ERR, DRR, SRR, CRR | ERR5260405, DRR421224, SRR7706354, CRR311377 |
六妆丘、iSeq詳細(xì)的pipeline
七、問(wèn)題解決方案
使用Ubuntu on Windows時(shí)局劲,通過(guò)
conda
安裝Wget
可能會(huì)導(dǎo)致“unable to resolve host address”的問(wèn)題勺拣,這反過(guò)來(lái)可能阻止iSeq
獲取數(shù)據(jù)。你可以選擇不通過(guò)conda
安裝wget
鱼填∫┯校或者,也可以通過(guò)執(zhí)行以下命令來(lái)解決這個(gè)問(wèn)題:conda activate iseq # 將系統(tǒng)自帶的wget映射到conda中 ln -sf /usr/bin/wget $(which wget) # 包括srapath,這個(gè)是sratoolkit中自帶的愤惰,可以自行安裝后更改下方下方路徑為你自己的苇经。 ln -sf ~/pathway/sratoolkit/bin/srapath $(which srapath)
八、寫(xiě)在后面
獲取NGS數(shù)據(jù)之后宦言,就要看各位分析數(shù)據(jù)扇单,解析問(wèn)題的能力了,這可能才是關(guān)鍵吧奠旺,祝好蜘澜!