最近在做數(shù)據(jù)分析寂纪,同時把筆記整理一下,查漏補缺。
Step1. miniconda3創(chuàng)建虛擬環(huán)境
conda env list #可以查看虛擬環(huán)境,默認安裝的為base環(huán)境颈嚼,*號表示當前環(huán)境
conda create -n your_env_name #創(chuàng)建虛擬環(huán)境
conda activate your_env_name #激活虛擬環(huán)境
source activate your_env_name #激活虛擬環(huán)境
conda deactivate #退出當前環(huán)境
conda create --name your_env_name --clone old_env_name # 從一個虛擬環(huán)境克隆一個新環(huán)境
conda remove --name your_env_name # 刪除虛擬環(huán)境
conda create --name your_env_name python=3.6 #指定python環(huán)境
conda export > your_project_env.yaml # 導出環(huán)境變量
conda search bioconda #查找軟件
conda install -c bioconda blast=2.7.1 samtools=1.7 #安裝軟件并指定版本,空格后可添加多個軟件
conda install -y fastqc=0.11.7 #添加-y參數(shù)跳過確認的步驟
creat -n dna sra-tools fastqc cutadapt trimmomatic star hisat2 samtools subread htseq #轉(zhuǎn)錄組分析常用軟件
create -n medaka -c conda-forge -c bioconda medaka # 創(chuàng)建一個名為medaka的環(huán)境饭寺,同時安裝bioconda
Step2.原始SRA數(shù)據(jù)下載
三種方式:
- Aspera Connect
- sratoolkit的prefetch
- ftp
注意:不推薦wget或curl下載阻课,速度慢,且有時下載不完全
prefetch SRRxxxxxxx
Step3.SRA轉(zhuǎn)fastq
fastq-dump --split-3 -O /your path/ SRRxxxxxxx.1
如遇報錯:
An error occurred during processing.
A report was generated into the file '/root/ncbi_error_report.xml'.
If the problem persists, you may consider sending the file
to 'sra@ncbi.nlm.nih.gov' for assistance.
這是因為你的磁盤不夠了艰匙,文件寫不下去了,這時就需要清理文件了限煞,或者在輸出fastq文件時進行壓縮
fastq-dump --split-3 -O /your path/ --gzip file.sra
如涉及磁盤的空間問題,壓縮文件员凝,格式轉(zhuǎn)化完成后刪除原始數(shù)據(jù)
Step4.數(shù)據(jù)質(zhì)量檢測
軟件 fastqc
mkdir qc
fastqc -o qc /your path/SRRxxxxxx_1.fastq
查看指標:
-read各個位置的堿基質(zhì)量值分布
-堿基的總體質(zhì)量值分布
-read各個位置上堿基分布比例署驻,目的是為了分析堿基的分離程度
-GC含量分布
-read各位置的N含量
-read是否還包含測序的接頭序列
1.jpg
隨著illumina測序的不斷優(yōu)化,一般目前的測序數(shù)據(jù)都還可以绊序。
Step5.質(zhì)量控制
軟件:fastp
安裝:wget http://opengene.org/fastp/fastp
chmod 755 ./fastp
./fastp
pwd fastp # 確認本地路徑
export PATH=$your path/:PATH # 添加環(huán)境變量 完成全局調(diào)用設置
fastp -i /your path/SRRxxxxxxx_1.fq.gz -I /your path/SRRxxxxxxx_2.fq.gz -o /your path/cleandata/cleanSRRxxxxxxx_1.fq.gz -O /your path/cleandata/cleanSRRxxxxxxx_2.fq.gz -c -q 20 -w 8 #
fastp -i /your path/SRRxxxxxxx_1.fq.gz -I /your path/SRRxxxxxxx_2.fq.gz -o /your path/cleandata/cleanSRRxxxxxxx_1.fq.gz -O /your path/cleandata/cleanSRRxxxxxxx_2.fq.gz -c -q 20 -u 50 -n 15 -5 20 -3 20 -w #
-c 對overlap區(qū)域進行糾錯硕舆,適用于paired-end read
-w 線程數(shù), 推薦8
-q 設置低質(zhì)量的標準,默認是15
-u 低質(zhì)量堿基所占比例骤公,默認40,代表40%,只要有一條read不滿足條件就成對丟掉
-n 過濾N堿基過多的reads扬跋,15代表個數(shù)阶捆,因為一般paired-end read 150的reads長度是150
-5 根據(jù)質(zhì)量值來截取reads,對應 5‘端钦听,得到reads長度可能不等
-3 根據(jù)質(zhì)量值來截取reads洒试,對應 3’端,得到reads長度可能不等
具體參數(shù)請參考官網(wǎng)說明
最后朴上,查看clean data結(jié)果垒棋,直接查看fastp也會生成一份報告。
2.jpg
水平有限痪宰,如存在什么錯誤請評論指出叼架!請大家多多批評指正畔裕,多多交流,謝謝乖订!
參考:
https://www.zhihu.com/question/26011991 作者:黃樹嘉
https://blog.csdn.net/weixin_42953727/article/details/90576214 作者:weixin_42953727
http://www.reibang.com/p/817450b99461 作者:十三而舍
http://www.reibang.com/p/762601f91539 作者:wo_monic