SRA Toolkit安裝怎憋、配置及使用

~~~SRA(Sequence Read Archive)數(shù)據(jù)庫是用于存儲二代測序的原始數(shù)據(jù)的數(shù)據(jù)庫屿衅。除了原始序列數(shù)據(jù)外,SRA現(xiàn)在也存在raw reads在參考基因的比對信息擅腰。

根據(jù)SRA數(shù)據(jù)產(chǎn)生的特點蟋恬,將SRA數(shù)據(jù)分為四類:

  • Studies 研究課題
  • Experiments 實驗設計
  • Runs 測序結果集
  • Samples 樣品信息

SRA中數(shù)據(jù)結構的層次關系為 Studies -> Experiments ->Samples->Runs。

  • Studies是就實驗目標而言的趁冈,一個study 可能包含多個Experiment歼争。
  • Experiments包含了Sample、DNA source渗勘、測序平臺沐绒、數(shù)據(jù)處理等信息。
  • 一個Experiment可能包含一個或多個runs旺坠。
  • Runs 表示測序儀運行所產(chǎn)生的reads乔遮。

SRA數(shù)據(jù)庫用不同的前綴加以區(qū)分:

ERP或SRP表示Studies;
SRS 表示 Samples取刃;
SRX 表示 Experiments蹋肮;
SRR 表示 Runs;

下載數(shù)據(jù)使用專門的SRA 工具:

1. 下載最新版SRA Toolkit

下載地址:https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit(親測github很多時候打不開)

以Centos為例蝉衣,直接從NCBI下載安裝包
(1)wget "http://ftp-trace.ncbi.nlm.nih.gov/sra/sdk/current/sratoolkit.current-centos_linux64.tar.gz" #會自動下載最新版安裝包
(2)tar xvf sratoolkit.current-centos_linux64.tar.gz

2.配置SRA-Toolkit

20221101下載的安裝包為sratoolkit.3.0.0-centos_linux64

cd sratoolkit.3.0.0-centos_linux64/bin
./prefech ERR571271
報錯信息:This sra toolkit installation has not been configured.
Before continuing, please run: vdb-config --interactive
For more information, see https://www.ncbi.nlm.nih.gov/sra/docs/sra-cloud/

一直以為這些軟件不需要安裝配置括尸。但被打臉了。重新回到網(wǎng)站找配置說明病毡。
https://github.com/ncbi/sra-tools/wiki/02.-Installing-SRA-Toolkit

第六步即為配置步驟濒翻。

image.png
image.png

第一步:按照提示輸入vdb-config -i 出來一交互終端。

image.png

第二步:按tab鍵可以在不同菜單之間切換啦膜。

按c直接進入配置信息有送。然后按o光標停留在第一個choose選項,是存放以后下載的SRA數(shù)據(jù)僧家。這里需要提前建好一個空文件夾雀摘,若文件夾非空,則不會設置成功八拱。
第二個choose存放的是SRA-Toolkit的可執(zhí)行命令路徑阵赠。


image.png

第三步:按下a鍵,再按r選擇“report cloud instance identity”肌稻。

image.png

第四步:按s保存清蚀,按enter。然后點擊Esc兩次退出爹谭。

第四步:設置環(huán)境變量

vim ~/.bashrc
在末尾添加:export PATH="$PATH:/home/XXXX/software/sratoolkit.3.0.0-centos_linux64/bin";
source ~/.basrc

設置環(huán)境變量枷邪,配置完成!E捣病东揣!可正常使用了践惑。若再次安裝不同的版本,需要再次設置嘶卧。

3. 下載數(shù)據(jù)

  • 下載單個文件ERR571271

$ prefetch ERR571271
程序會自動啟動下載尔觉。在上面設定的文件夾下生成5個子文件夾。sra文件夾下存放的即為測序下機原始數(shù)據(jù)脸候。字節(jié)數(shù)200+M穷娱,下載速度還可以绑蔫,基本在2分鐘內下完运沦。

  • 若批量下載一批文件,將需要下載的文件ID存儲到一個文本文件里配深,一行一個ID號携添。比如文件Download.list

nohup prefetch --option-file Download.list 2>&1 &

  • 若使用parallel并行加速

cat Download.list | parallel prefetch {}

4. 將sra文件轉換為fastq文件

SAR Toolkit里提供了fastq-dump、fasterq-dump工具篓叶。

$ fastq-dump --split-3 ERR571271.sra -O result
Read 1812467 spots for ERR571271.sra
Written 1812467 spots for ERR571271.sra
或者
$ fasterq-dump --split-3 ERR571271.sra -O result1
spots read : 1,812,467
reads read : 3,624,934
reads written : 3,624,934

--split-3 參數(shù)可以把雙端測序的reads提取出來烈掠,左端標示為*_1.fastq;右端標示為*_2.fastq缸托。

$ ll result/
total 1329432
-rw-rw-r--. 1 XXX XXX 680668110 Nov 2 19:27 ERR571271_1.fastq
-rw-rw-r--. 1 XXX XXX 680668110 Nov 2 19:27 ERR571271_2.fastq


**補充**安裝parallel

conda install -c conda-forge parallel

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末左敌,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子俐镐,更是在濱河造成了極大的恐慌矫限,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件佩抹,死亡現(xiàn)場離奇詭異叼风,居然都是意外死亡,警方通過查閱死者的電腦和手機棍苹,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門无宿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人枢里,你說我怎么就攤上這事孽鸡。” “怎么了栏豺?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵彬碱,是天一觀的道長。 經(jīng)常有香客問我冰悠,道長堡妒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任溉卓,我火速辦了婚禮皮迟,結果婚禮上搬泥,老公的妹妹穿的比我還像新娘。我一直安慰自己伏尼,他們只是感情好忿檩,可當我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著爆阶,像睡著了一般燥透。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上辨图,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天班套,我揣著相機與錄音,去河邊找鬼故河。 笑死吱韭,一個胖子當著我的面吹牛,可吹牛的內容都是我干的鱼的。 我是一名探鬼主播理盆,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼凑阶!你這毒婦竟也來了猿规?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤宙橱,失蹤者是張志新(化名)和其女友劉穎姨俩,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體养匈,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡哼勇,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了呕乎。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片积担。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖猬仁,靈堂內的尸體忽然破棺而出帝璧,到底是詐尸還是另有隱情,我是刑警寧澤湿刽,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布的烁,位于F島的核電站,受9級特大地震影響诈闺,放射性物質發(fā)生泄漏渴庆。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望襟雷。 院中可真熱鬧刃滓,春花似錦、人聲如沸耸弄。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽计呈。三九已至砰诵,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間捌显,已是汗流浹背茁彭。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留苇瓣,地道東北人尉间。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓偿乖,卻偏偏與公主長得像击罪,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子贪薪,可洞房花燭夜當晚...
    茶點故事閱讀 42,834評論 2 345

推薦閱讀更多精彩內容