基因組重測序分析全過程

已知達(dá)松維爾擬諾卡氏菌亞種是會導(dǎo)致人類放線菌瘤的環(huán)境生物郁稍,該樣本是來自Keddieii血根桿菌DSM 10542的通用樣品辜梳,旨通過基因組重測序探索其和參考基因組有何不同粱甫,找出基因組變異信息。

1.需要的軟件

? 軟件名:Aspera 版本號:4.0.2.38
? 軟件名:sratoolkit 版本號:2.11.1
? 軟件名:FastQC 版本號:0.11.7
? 軟件名:Trimmomatic版本號:0.38
? 軟件名:bwa 版本號:0.7.17-r1188
? 軟件名:samtools 版本號:1.7
? 軟件名:Annovar 版本:$Date: 2019-10-24 00:05:27 -0400 (Thu, 24 Oct 2019)
? 軟件名:bcftools 版本:1.7

2.數(shù)據(jù)下載

2.1下載sra數(shù)據(jù)

1.在NCBI官網(wǎng)的搜索框輸入SRR022534作瞄,可以看到該菌的目前研究以及進(jìn)展茶宵,在最下面Runs點擊SRR022534稽物,在跳轉(zhuǎn)界面點擊Data access股毫,會看到一個網(wǎng)址坛悉,復(fù)制網(wǎng)址奥额;
2.服務(wù)器建re_seq文件夾,wget下載亞種基因組文件椒惨。

wget https://sra-pub-runodp.s3.amazonaws.com/sra/SRR022534/SRR022534

或者prefetch下載

prefetch SRR022534

也可以選擇ascp下載拣度,不過如果基因組文件不是特別大不推薦這種方式俊性,比較麻煩搪桂,需要到EBI-ENA數(shù)據(jù)庫賦值ftp地址透敌。

2.2.下載參考基因組序列和基因組注釋文件

網(wǎng)址:ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/001/877/055/GCA_001877055.1_ASM187705v1/GCA_001877055.1_ASM187705v1_genomic.fna.gz
1.進(jìn)入NCBI官網(wǎng),輸入GCA_001877055踢械,在界面右邊點擊FTP directory for GenBank assembly酗电,在下一個界面復(fù)制參考基因組.fna.gz文件和基因組注釋文件.gff.gz;
2.wget下載内列。

wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/001/877/055/GCA_001877055.1_ASM187705v1/GCA_001877055.1_ASM187705v1_genomic.fna.gz
wget ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/001/877/055/GCA_001877055.1_ASM187705v1/GCA_001877055.1_ASM187705v1_genomic.gff.gz

3.主要分析步驟和結(jié)果

3.1系列與參考基因組的比對

3.1.1數(shù)據(jù)文件的格式轉(zhuǎn)換

在NCBI數(shù)據(jù)庫檢索序列號SRR033534查看experiment得知測試數(shù)據(jù)類型為454的單末端測序撵术。

fastq-dump SRR022534.sra

3.1.2質(zhì)量評估

1.fastqc質(zhì)量評估,文件最好用絕對路徑话瞧;

touch fastp.sh
vim fastp.sh
#!/bin/bash
for i in 1 2 3 4
do
fastp -i SRR137492${i}.fastq.gz -o SRR137492${i}.fq.gz
done
#Esc : wq! 保存并退出
chmod 777 fastp.sh
./fastp.sh

2.本地查看fastqc report嫩与,由結(jié)果可知寝姿,測序數(shù)據(jù)質(zhì)量不是特別高,Per base sequence quality中有很多下四分位小于10或中位數(shù)小于25划滋,所以下一步要先數(shù)據(jù)過濾会油,去除低質(zhì)量序列。

3.1.3測序數(shù)據(jù)過濾

Trimmomatic參數(shù)說明

PE:雙端測序
-phread33:設(shè)置堿基的質(zhì)量格式
ILLUMINACLIP:
TruSeq3-PE.fa: <fastaWithAdaptersEtc>是fasta格式的接頭序列文件路徑
2: <seed mismatches>是將接頭序列的一段(不超過16bp)作為seed古毛,與reads進(jìn)行比對,能夠容忍的最大錯配(mismatch)數(shù)都许,這里是最多2個錯配
30: <palindrome clip threshold>是 a-R1, a-R2的比對分值閾值稻薇,達(dá)到閾值,才進(jìn)行切除胶征,這里設(shè)置閾值為30(大約比對50bp堿基)
10:<simple clip threshold>是任意(接頭)序列與read比對最低分閾值塞椎,大于這個閾值,才進(jìn)行切除睛低,這里設(shè)置閾值為10(大約比對17bp堿基)
LIDINGWINDOW:5:20:設(shè)置滑動窗口閾值案狠,以為5bp為窗口,這5bp堿基的平均質(zhì)量值低于20钱雷,要進(jìn)行切除
:LEADING:20:設(shè)置從reads起始開始骂铁,去除質(zhì)量低于閾值或為’N’的堿基,直到達(dá)到閾值不再去除罩抗,這里設(shè)置閾值為20
TRAILING:20:設(shè)置從reads末尾開始拉庵,去除質(zhì)量低于閾值的堿基或為’N’的堿基直到達(dá)到閾值不再去除,這里設(shè)置閾值為3套蒂,這種方法是去除特定的illumina平臺低質(zhì)量區(qū)域(由于illumina會將低質(zhì)量堿基標(biāo)記為2) 
MINLEN:75 設(shè)置read切除后的最短長度钞支,這里設(shè)置長度至少為36bp,長度小于36bp的reads被去除
fastqc /disk1/202031107010114/re_seq/trim_out/SRR022534.fastq.gz

3.1.4fastqc重新質(zhì)量評估

fastqc /disk1/202031107010114/re_seq/trim_out/SRR022534.fastq.gz

3.1.5建立參考基因組索引

gunzip disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna.gz
bwa index disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna

3.1.6測序數(shù)據(jù)比對到參考基因組得到sam文件

bwa mem disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna disk1/202031107010114/re_seq/trim_out/SRR022534_out.fastq.gz >bwa_mem_SRR022534.sam

3.1.7sam文件轉(zhuǎn)bam文件

samtools faidx disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.fna
samtools view -bhS -t GCA_001877055.1_ASM187705v1_genomic.fna.fai -o bwa_mem_SRR022534.bam bwa_mem_SRR022534.sam

3.1.8為bam文件排序

samtools sort bwa_mem_SRR022534.bam -o bwa_mem_SRR022534.sorted.bam

3.1.9為bam文件建立索引 顯示基因組比對情況

samtools index bwa_mem_SRR022534.sorted.bam
samtools index bwa_mem_SRR022534.sorted.bam

3.1.10測試每個基因組每個位點的測試深度并統(tǒng)計比對結(jié)果

samtools depth bwa_mem_SRR022534.sorted.bam >>depth.txt
samtools flagstat bwa_mem_SRR022534.sorted.bam

3.2變異點檢測

3.2.1去除pcr重復(fù)

samtools rmdup bwa_mem_SRR022534.sorted.bam bwa_mem_SRR022534_nopcr.bam

3.2.2生成bcf文件

samtools mpileup -gf GCA_001877055.1_ASM187705v1_genomic.fna bwa_mem_SRR022534_nopcr.bam >bwa_mem_SRR022534.bcf

3.2.3基因變異檢測和篩選

bcftools call -vm bwa_mem_SRR022534.bcf -o bwa_mem_SRR022534.variants.bcf
bcftools view -v snps,indels bwa_mem_SRR022534.variants.bcf > bwa_mem_SRR022534.snps.vcf

3.3變異位點注釋

3.3.1生成annovar輸入文件

convert2annovar.pl -format vcf4 bwa_mem_SRR022534.snps.vcf > bwa_mem_SRR022534.snps.avinput

3.3.2自定義注釋數(shù)據(jù)框

gunzip disk1/202031107010114/re_seq/GCA_001877055.1_ASM187705v1_genomic.gff.gz
wget http://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/gff3ToGenePred
chmod 777 gff3ToGenePred
./gff3ToGenePred -useName GCA_001877055.1_ASM187705v1_genomic.gff 7055-genome_refGene.txt
cut -f 12 7055-genome_refGene.txt >column1.txt
cut -f 2-15 7055-genome_refGene.txt >column_else.txt
paste column1.txt column_else.txt >7055-genome_new_refGene.txt
retrieve_seq_from_fasta.pl -format refGene -seqfile GCA_001877055.1_ASM187705v1_genomic.fna -outfile 7055-genome_new_refGeneMrna.fa 7055-genome_
cp 7055-genome_new_refGene* ~/Biosofts/annovar/humandb/

3.3.3注釋變異基因位點

annotate_variation.pl --geneanno --dbtype refGene --buildver 7055-genome_new  bwa_mem_SRR022534.snps.avinput ~/Biosofts/annovar/humandb/

4.批量處理的腳本

因為我所分析的sra文件只有一個操刀,無法更好地說明批量處理過程烁挟,就找了一組RNA-Seq數(shù)據(jù),二者前面的分析流程基本一致骨坑。數(shù)據(jù)來自研究:抗體富集前后培養(yǎng)物中伯氏疏螺旋體基因表達(dá)中富含aBa的體外培養(yǎng)Bb代表SRR22149531和體外培養(yǎng)的Bb代表SRR22149536撼嗓。

4.1prefetch批量下載sra文件

touch prefetch.sh
vim prefetch.sh
#!/bin/bash
for i in 1 6
do
prefetch SRR2214953${i}
done
#Esc : wq! 保存并退出
chmod 777 prefetch.sh
./prefetch.sh

4.2fastq-dump批量從sra文件提取fastq文件

touch fastq_dump.sh
vim fastq_dump.sh
#!/bin/bash
for i in SRR*
do
echo ${i}#打印輸出文件名
fastq-dump --gzip ${i}/${i}.sra
#可根據(jù)數(shù)據(jù)需要選擇--spilt-files/--spilt-3/--spilt-spot
done
#Esc : wq! 保存并退出
chmod 777 fastq_dump.sh
./fastq_dump.sh

4.3fastqc批量質(zhì)控

touch fastqc.sh
vim fastqc.sh
#!/bin/bash
for i in 1 6
do
fastqc SRR2214953${i}
done
#Esc : wq! 保存并退出
chmod 777 fastqc.sh

4.4bwa批量比對并生成排好序的bam文件

touch bwa_samtools.sh
vim bwa_samtools.sh
#!/bin/bash
for i in 1 6;do
{
bwa index GCA_000181575.2_ASM18157v2_genomic.fna;
bwa mem GCA_000181575.2_ASM18157v2_genomic.fna SRR2214953${i}.fastq.gz >bwa_mem_SRR2214953${i}.sam;
samtools faidx GCA_000181575.2_ASM18157v2_genomic.fna;
samtools view -bhS -t GCA_000181575.2_ASM18157v2_genomic.fna.fai -o bwa_mem_SRR2214953${i}.bam bwa_mem_SRR2214953${i}.sam;
samtools sort bwa_mem_SRR2214953${i}.bam -o bwa_mem_SRR2214953${i}.sorted.bam;}
done
#Esc : wq! 保存并退出
chmod 777 bwa_samtools.sh
./bwa_samtools.sh
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末卡啰,一起剝皮案震驚了整個濱河市静稻,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌匈辱,老刑警劉巖振湾,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異亡脸,居然都是意外死亡押搪,警方通過查閱死者的電腦和手機(jī)树酪,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來大州,“玉大人续语,你說我怎么就攤上這事∠没” “怎么了疮茄?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵,是天一觀的道長根暑。 經(jīng)常有香客問我力试,道長,這世上最難降的妖魔是什么排嫌? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任畸裳,我火速辦了婚禮,結(jié)果婚禮上淳地,老公的妹妹穿的比我還像新娘怖糊。我一直安慰自己,他們只是感情好颇象,可當(dāng)我...
    茶點故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布伍伤。 她就那樣靜靜地躺著,像睡著了一般夯到。 火紅的嫁衣襯著肌膚如雪嚷缭。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天耍贾,我揣著相機(jī)與錄音阅爽,去河邊找鬼。 笑死荐开,一個胖子當(dāng)著我的面吹牛付翁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播晃听,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼百侧,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了能扒?” 一聲冷哼從身側(cè)響起佣渴,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎初斑,沒想到半個月后辛润,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡见秤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年砂竖,在試婚紗的時候發(fā)現(xiàn)自己被綠了真椿。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡乎澄,死狀恐怖突硝,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情置济,我是刑警寧澤解恰,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站浙于,受9級特大地震影響修噪,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜路媚,卻給世界環(huán)境...
    茶點故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望樊销。 院中可真熱鬧整慎,春花似錦、人聲如沸围苫。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽剂府。三九已至拧揽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間腺占,已是汗流浹背淤袜。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留衰伯,地道東北人铡羡。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓,卻偏偏與公主長得像意鲸,于是被迫代替她去往敵國和親烦周。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,077評論 2 355