WGS分析筆記(1)數(shù)據(jù)+質(zhì)控 2021-12-15

最近在做數(shù)據(jù)分析寂纪,同時把筆記整理一下,查漏補缺。

Step1. miniconda3創(chuàng)建虛擬環(huán)境

conda env list  #可以查看虛擬環(huán)境,默認安裝的為base環(huán)境颈嚼,*號表示當前環(huán)境
conda create -n your_env_name #創(chuàng)建虛擬環(huán)境
conda activate your_env_name #激活虛擬環(huán)境
source activate your_env_name #激活虛擬環(huán)境
conda deactivate #退出當前環(huán)境
conda create --name your_env_name --clone old_env_name # 從一個虛擬環(huán)境克隆一個新環(huán)境
conda remove --name your_env_name # 刪除虛擬環(huán)境
conda create --name your_env_name python=3.6 #指定python環(huán)境
conda export > your_project_env.yaml # 導出環(huán)境變量
conda search bioconda #查找軟件
conda install -c bioconda blast=2.7.1 samtools=1.7 #安裝軟件并指定版本,空格后可添加多個軟件
conda install -y fastqc=0.11.7 #添加-y參數(shù)跳過確認的步驟
creat -n dna sra-tools fastqc cutadapt trimmomatic star hisat2 samtools subread htseq #轉(zhuǎn)錄組分析常用軟件
create -n medaka -c conda-forge -c bioconda medaka # 創(chuàng)建一個名為medaka的環(huán)境饭寺,同時安裝bioconda 

Step2.原始SRA數(shù)據(jù)下載

三種方式:

  1. Aspera Connect
  2. sratoolkit的prefetch
  3. ftp

注意:不推薦wget或curl下載阻课,速度慢,且有時下載不完全

prefetch SRRxxxxxxx

Step3.SRA轉(zhuǎn)fastq

fastq-dump --split-3 -O /your path/ SRRxxxxxxx.1

如遇報錯:

An error occurred during processing.
A report was generated into the file '/root/ncbi_error_report.xml'.
If the problem persists, you may consider sending the file
to 'sra@ncbi.nlm.nih.gov' for assistance.

這是因為你的磁盤不夠了艰匙,文件寫不下去了,這時就需要清理文件了限煞,或者在輸出fastq文件時進行壓縮

fastq-dump --split-3 -O /your path/ --gzip file.sra

如涉及磁盤的空間問題,壓縮文件员凝,格式轉(zhuǎn)化完成后刪除原始數(shù)據(jù)

Step4.數(shù)據(jù)質(zhì)量檢測

軟件 fastqc

mkdir qc
fastqc -o qc /your path/SRRxxxxxx_1.fastq

查看指標:
-read各個位置的堿基質(zhì)量值分布
-堿基的總體質(zhì)量值分布
-read各個位置上堿基分布比例署驻,目的是為了分析堿基的分離程度
-GC含量分布
-read各位置的N含量
-read是否還包含測序的接頭序列


1.jpg

隨著illumina測序的不斷優(yōu)化,一般目前的測序數(shù)據(jù)都還可以绊序。

Step5.質(zhì)量控制

軟件:fastp
安裝:wget http://opengene.org/fastp/fastp

chmod 755 ./fastp
./fastp
pwd fastp # 確認本地路徑
export PATH=$your path/:PATH # 添加環(huán)境變量 完成全局調(diào)用設置
fastp -i /your path/SRRxxxxxxx_1.fq.gz -I /your path/SRRxxxxxxx_2.fq.gz -o /your path/cleandata/cleanSRRxxxxxxx_1.fq.gz -O /your path/cleandata/cleanSRRxxxxxxx_2.fq.gz -c -q 20 -w 8 #
fastp -i /your path/SRRxxxxxxx_1.fq.gz -I /your path/SRRxxxxxxx_2.fq.gz -o /your path/cleandata/cleanSRRxxxxxxx_1.fq.gz -O /your path/cleandata/cleanSRRxxxxxxx_2.fq.gz -c -q 20 -u 50 -n 15 -5 20 -3 20 -w #
    -c 對overlap區(qū)域進行糾錯硕舆,適用于paired-end read
    -w 線程數(shù), 推薦8
    -q 設置低質(zhì)量的標準,默認是15
    -u 低質(zhì)量堿基所占比例骤公,默認40,代表40%,只要有一條read不滿足條件就成對丟掉
    -n 過濾N堿基過多的reads扬跋,15代表個數(shù)阶捆,因為一般paired-end read 150的reads長度是150
    -5 根據(jù)質(zhì)量值來截取reads,對應 5‘端钦听,得到reads長度可能不等
    -3 根據(jù)質(zhì)量值來截取reads洒试,對應 3’端,得到reads長度可能不等

具體參數(shù)請參考官網(wǎng)說明
最后朴上,查看clean data結(jié)果垒棋,直接查看fastp也會生成一份報告。


2.jpg

水平有限痪宰,如存在什么錯誤請評論指出叼架!請大家多多批評指正畔裕,多多交流,謝謝乖订!

參考:
https://www.zhihu.com/question/26011991 作者:黃樹嘉
https://blog.csdn.net/weixin_42953727/article/details/90576214 作者:weixin_42953727
http://www.reibang.com/p/817450b99461 作者:十三而舍
http://www.reibang.com/p/762601f91539 作者:wo_monic

?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末扮饶,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子乍构,更是在濱河造成了極大的恐慌甜无,老刑警劉巖,帶你破解...
    沈念sama閱讀 217,826評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件哥遮,死亡現(xiàn)場離奇詭異岂丘,居然都是意外死亡,警方通過查閱死者的電腦和手機眠饮,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,968評論 3 395
  • 文/潘曉璐 我一進店門奥帘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人君仆,你說我怎么就攤上這事翩概。” “怎么了返咱?”我有些...
    開封第一講書人閱讀 164,234評論 0 354
  • 文/不壞的土叔 我叫張陵钥庇,是天一觀的道長。 經(jīng)常有香客問我咖摹,道長评姨,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,562評論 1 293
  • 正文 為了忘掉前任萤晴,我火速辦了婚禮吐句,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘店读。我一直安慰自己嗦枢,他們只是感情好,可當我...
    茶點故事閱讀 67,611評論 6 392
  • 文/花漫 我一把揭開白布屯断。 她就那樣靜靜地躺著文虏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪殖演。 梳的紋絲不亂的頭發(fā)上氧秘,一...
    開封第一講書人閱讀 51,482評論 1 302
  • 那天,我揣著相機與錄音趴久,去河邊找鬼丸相。 笑死,一個胖子當著我的面吹牛彼棍,可吹牛的內(nèi)容都是我干的灭忠。 我是一名探鬼主播膳算,決...
    沈念sama閱讀 40,271評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼更舞!你這毒婦竟也來了畦幢?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,166評論 0 276
  • 序言:老撾萬榮一對情侶失蹤缆蝉,失蹤者是張志新(化名)和其女友劉穎宇葱,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體刊头,經(jīng)...
    沈念sama閱讀 45,608評論 1 314
  • 正文 獨居荒郊野嶺守林人離奇死亡黍瞧,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,814評論 3 336
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了原杂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片印颤。...
    茶點故事閱讀 39,926評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖穿肄,靈堂內(nèi)的尸體忽然破棺而出年局,到底是詐尸還是另有隱情,我是刑警寧澤咸产,帶...
    沈念sama閱讀 35,644評論 5 346
  • 正文 年R本政府宣布矢否,位于F島的核電站,受9級特大地震影響脑溢,放射性物質(zhì)發(fā)生泄漏僵朗。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,249評論 3 329
  • 文/蒙蒙 一屑彻、第九天 我趴在偏房一處隱蔽的房頂上張望验庙。 院中可真熱鬧,春花似錦社牲、人聲如沸粪薛。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,866評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽汗菜。三九已至,卻和暖如春挑社,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背巡揍。 一陣腳步聲響...
    開封第一講書人閱讀 32,991評論 1 269
  • 我被黑心中介騙來泰國打工痛阻, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人腮敌。 一個月前我還...
    沈念sama閱讀 48,063評論 3 370
  • 正文 我出身青樓阱当,卻偏偏與公主長得像俏扩,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子弊添,可洞房花燭夜當晚...
    茶點故事閱讀 44,871評論 2 354

推薦閱讀更多精彩內(nèi)容