生信 | iSeq超便捷齐蔽!快速下載GSA/SRA/ENA的數(shù)據(jù)以及metadata信息

一、寫(xiě)在前面

最近在下載GSA數(shù)據(jù)的時(shí)候發(fā)現(xiàn)一個(gè)小工具iSeq煤蹭,簡(jiǎn)直太好用了笔喉,分享給大家!
iSeqGitHub鏈接:https://github.com/BioOmics/iSeqiSeq竟然配了一個(gè)中文教程

iSeq-Pipeline.png
上圖是它的pipeline, 可以看出目前支持了4大主流數(shù)據(jù)庫(kù)(我國(guó)的GSA硝皂,美國(guó)的SRA常挚,英國(guó)的ENA,和日本的DDBJ)同時(shí)訪問(wèn)下載高通量測(cè)序數(shù)據(jù)\color{red}{NGS\ data}稽物,且支持了AsperaAXEL奄毡,竟然還支持直接獲得樣本的\color{red}{metadata}

二贝或、下載iSeq

iSeq目前已經(jīng)同步到了Bioconda吼过,因此使用conda下載非常方便:

# 為了環(huán)境內(nèi)軟件不沖突,盡量創(chuàng)建一個(gè)新環(huán)境
conda create -n iseq -c conda-forge -c bioconda iseq
conda activate iseq
# 查看是否安裝成功
iseq --help

不過(guò)咪奖,有時(shí)候在Windows內(nèi)置的Ubuntu雖然安裝成功盗忱,但是conda環(huán)境中的wget無(wú)法正常使用,導(dǎo)致iSeq不能訪問(wèn)數(shù)據(jù)羊赵,這應(yīng)該是conda內(nèi)部DNS轉(zhuǎn)換出現(xiàn)了問(wèn)題趟佃,因此在Windows內(nèi)置的Ubuntu還要查看一下下面的代碼是否正常。

# 能正常下載就可以
wget www.baidu.com
# 看看能不能訪問(wèn)到SRA文件的連接
srapath SRR1178105
# 彈出:https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR1178105/SRR1178105

如果異常昧捷,可以查看文末的問(wèn)題解決方案闲昭。

三、使用iSeq

iSeq的使用非常簡(jiǎn)單靡挥,就直接給它各大數(shù)據(jù)庫(kù)的accession號(hào)就可以了序矩,下面我介紹幾個(gè)。不過(guò)跋破,iSeq也給出了非常多的使用例子以供參考簸淀。

1. 直接把ENA/SRA數(shù)據(jù)庫(kù)一個(gè)項(xiàng)目里面的數(shù)據(jù)批量全部下載下來(lái)

iseq -i PRJNA211801
SRA數(shù)據(jù)庫(kù)數(shù)據(jù)下載

2. 直接把GSA數(shù)據(jù)庫(kù)一個(gè)項(xiàng)目里面的數(shù)據(jù)批量全部下載下來(lái)

  • 這通過(guò)華為云盤(pán)下載也太快了把
iseq -i CRA000553
GSA數(shù)據(jù)庫(kù)數(shù)據(jù)下載

3. 直接獲得單個(gè)樣本的fastq文件。

\color{red}{此處注意}: GSA數(shù)據(jù)庫(kù)中只能直接獲取gz壓縮的fastq文件或者bam等文件毒返,SRA/ENA數(shù)據(jù)庫(kù)可以選擇-q獲得單個(gè)樣本的fastq文件啃擦,或者-g直接下載樣本的fastq.gz文件

iseq -i SRR1178105 -q
直接獲得單個(gè)樣本的fastq文件

4. 使用\color{red}{Aspera}高速下載

直接使用iSeq-a參數(shù)就好

iseq -i SRR1178105 -a
使用Aspera高速下載

\color{red}{此處注意}: 通過(guò)iSeq訪問(wèn)GSA數(shù)據(jù)庫(kù)的時(shí)候,如果華為云的鏈接存在饿悬,即使使用-a參數(shù),iSeq也會(huì)自動(dòng)跳轉(zhuǎn)到華為云聚霜,如:

iseq -i CRR311377 -a
GSA華為云下載

5. 僅獲取metadata的信息

看了一下狡恬,樣本的信息非常全面珠叔,包括發(fā)育階段,取材部位弟劲,脅迫條件等祷安,再也不用手動(dòng)去一個(gè)個(gè)找了。

iseq -i PRJNA211801 -m
僅獲取metadata的信息

6. 批量下載

cat SRR_Acc_List.txt | while read Run; do
    iseq -i $Run -a -g
done
  • SRR_Acc_List.txt就是一行一個(gè)accession號(hào)碼組成的文本文件
    批量下載

四兔乞、iSeq的具體參數(shù)解釋

  • -i, --input: 輸入你想下載的accession汇鞭,首先獲取accession的metadata,然后逐一對(duì)包含在內(nèi)的Run ID進(jìn)行下載庸追。
  • -m, --metadata: 只下載accession的樣本信息霍骄,跳過(guò)測(cè)序數(shù)據(jù)的下載。
  • -g, --gzip: 直接下載gzip格式的FASTQ文件淡溯,如果不能直接下載读整,則會(huì)下載SRA文件并通過(guò)多線程分解和壓縮轉(zhuǎn)換為gzip格式。
  • -q, --fastq: 將下載完成的SRA文件分解為多個(gè)未壓縮的FASTQ格式咱娶。
  • -t, --threads: 指定分解SRA文件為FASTQ文件或者壓縮FASTQ文件的線程數(shù)米间,默認(rèn)為8。
  • -e, --merge: 將Experiment中的多個(gè)FASTQ文件合并為一個(gè)FASTQ文件膘侮。
  • -d, --database: 指定下載SRA文件的數(shù)據(jù)庫(kù)屈糊,支持enasra兩種數(shù)據(jù)庫(kù)。
  • -p, --parallel: 開(kāi)啟多線程下載琼了,需要指定下載的線程數(shù)逻锐。
  • -a, --aspera: 使用Aspera進(jìn)行下載。

五表伦、iSeq支持的accession格式

目前支持以下5個(gè)數(shù)據(jù)庫(kù)的6種數(shù)據(jù)格式谦去,支持的accession前綴如下:

Databases BioProject Study BioSample Sample Experiment Run
GSA PRJC CRA SAMC \ CRX CRR
SRA PRJNA SRP SAMN SRS SRX SRR
ENA PRJEB ERP SAME ERS ERX ERR
DDBJ PRJDB DRP SAMD DRS DRX DRR
GEO GSE \ GSM \ \ \

其中對(duì)于來(lái)自于GEO數(shù)據(jù)庫(kù)的兩種數(shù)據(jù)格式GSE/GSM,會(huì)直接獲取到與之關(guān)聯(lián)的PRJNA/SAMN蹦哼,然后獲取到包含在內(nèi)的Run ID并進(jìn)行測(cè)序數(shù)據(jù)的下載鳄哭。因此,本質(zhì)上還是從SRA數(shù)據(jù)庫(kù)中下載測(cè)序數(shù)據(jù)纲熏。

以下是一些例子:

Accession Type Prefixes Example
BioProject PRJEB, PRJNA, PRJDB, PRJC, GSE PRJEB42779, PRJNA480016, PRJDB14838, PRJCA000613, GSE122139
Study ERP, DRP, SRP, CRA ERP126685, DRP009283, SRP158268, CRA000553
BioSample SAMD, SAME, SAMN, SAMC SAMD00258402, SAMEA7997453, SAMN06479985, SAMC017083
Sample ERS, DRS, SRS, GSM ERS5684710, DRS259711, SRS2024210, GSM7417667
Experiment ERX, DRX, SRX, CRX ERX5050800, DRX406443, SRX4563689, CRX020217
Run ERR, DRR, SRR, CRR ERR5260405, DRR421224, SRR7706354, CRR311377

六妆丘、iSeq詳細(xì)的pipeline

iSeq詳細(xì)的pipeline

七、問(wèn)題解決方案

使用Ubuntu on Windows時(shí)局劲,通過(guò)conda安裝Wget可能會(huì)導(dǎo)致“unable to resolve host address”的問(wèn)題勺拣,這反過(guò)來(lái)可能阻止iSeq獲取數(shù)據(jù)。你可以選擇不通過(guò)conda安裝wget鱼填∫┯校或者,也可以通過(guò)執(zhí)行以下命令來(lái)解決這個(gè)問(wèn)題:

conda activate iseq
# 將系統(tǒng)自帶的wget映射到conda中
ln -sf /usr/bin/wget $(which wget)
# 包括srapath,這個(gè)是sratoolkit中自帶的愤惰,可以自行安裝后更改下方下方路徑為你自己的苇经。
ln -sf ~/pathway/sratoolkit/bin/srapath $(which srapath)

八、寫(xiě)在后面

獲取NGS數(shù)據(jù)之后宦言,就要看各位分析數(shù)據(jù)扇单,解析問(wèn)題的能力了,這可能才是關(guān)鍵吧奠旺,祝好蜘澜!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市响疚,隨后出現(xiàn)的幾起案子鄙信,更是在濱河造成了極大的恐慌,老刑警劉巖稽寒,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件扮碧,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡杏糙,警方通過(guò)查閱死者的電腦和手機(jī)慎王,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)宏侍,“玉大人赖淤,你說(shuō)我怎么就攤上這事×潞樱” “怎么了咱旱?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)绷耍。 經(jīng)常有香客問(wèn)我吐限,道長(zhǎng),這世上最難降的妖魔是什么褂始? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任诸典,我火速辦了婚禮,結(jié)果婚禮上崎苗,老公的妹妹穿的比我還像新娘狐粱。我一直安慰自己,他們只是感情好胆数,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布肌蜻。 她就那樣靜靜地躺著,像睡著了一般必尼。 火紅的嫁衣襯著肌膚如雪蒋搜。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音齿诞,去河邊找鬼酸休。 笑死,一個(gè)胖子當(dāng)著我的面吹牛祷杈,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播渗饮,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼但汞,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了互站?” 一聲冷哼從身側(cè)響起私蕾,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎胡桃,沒(méi)想到半個(gè)月后踩叭,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡翠胰,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年容贝,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片之景。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡斤富,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出锻狗,到底是詐尸還是另有隱情满力,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布轻纪,位于F島的核電站油额,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏刻帚。R本人自食惡果不足惜潦嘶,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望我擂。 院中可真熱鬧衬以,春花似錦、人聲如沸校摩。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)衙吩。三九已至互妓,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背冯勉。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工澈蚌, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人灼狰。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓宛瞄,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親交胚。 傳聞我的和親對(duì)象是個(gè)殘疾皇子份汗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容