Homo sapiens啥供,neuron神經(jīng)元細(xì)胞的數(shù)據(jù)分析;
1. rawdata數(shù)據(jù)處理
了解ChIP-seq的實(shí)驗(yàn)流程 (qq.com)
下載數(shù)據(jù)
vim download_data.sh
#!/bin/bash
for i in 806 807 809 810 811 812 813 817
do
prefetch-orig.2.10.8 `srapath-orig.2.10.8 SRR13764${i}`
done
qsub -N download -cwd download.sh -q g5.q
sra2fastq
single end 75 bp
vim sra2fastq.sh
#!/bin/bash
for i in 806 807 809 810 811 812 813 817
do
fastq-dump-orig.2.10.8 --split-3 -O fastq --gzip SRR13764${i}/SRR13764${i}.sra
done
qsub -N fastq -cwd sra2fastq.sh
fastqc
vim fastqc.sh
#!bin/bash
for i in 806 807 809 810 811 812 813 817
do
fastqc SRR13764${i}.fastq.gz -o fastqc
done
qsub -N fastqc -cwd fastqc.sh -q g5.q
trim_galore
vim trim_galore.sh
#!bin/bash
for i in 806 807 809 810 811 812 813 817
do
trim_galore --output_dir clean_data -q 25 --phred33 --length 36 SRR13764${i}.fastq.gz
done
qsub -N trim_galore -cwd trim_galore.sh -q g5.q
2. Bowtie2 比對(duì)
介紹:生信軟件 | bowtie2(測(cè)序序列與參考序列比對(duì)) - 云+社區(qū) - 騰訊云 (tencent.com)
下載基因組hg19
wget -t 0 -c -b https://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/hg19.fa.gz
-c :如果下載一半斷網(wǎng)中斷了库糠,wget -c +網(wǎng)址 可以續(xù)下載伙狐;
-t 0 :如果網(wǎng)速很慢, 總斷開(kāi)重新連接,“-t 0 ”會(huì)讓他一直重試瞬欧,直到把文件下載完成贷屎;
-b:后臺(tái)下載;
檢查下載數(shù)據(jù)的完整性
$md5sum hg19.fa.gz
806c02398f5ac5da8ffd6da2d1d5d1a9 hg19.fa.gz
$echo "806c02398f5ac5da8ffd6da2d1d5d1a9 hg19.fa.gz" > check_md5sum.txt
#將數(shù)據(jù)寫(xiě)入check_md5sum.txt文件
$md5sum -c check_md5sum.txt
#檢測(cè)數(shù)據(jù)是否一致
hg19.fa.gz: OK
構(gòu)建bowtie2索引文件
vim index.sh
#!/bin/bash
bowtie2-build hg19.fa hg19
qsub -N index -cwd index.sh
生成6個(gè)文件:
926M Apr 14 17:41 hg19.1.bt2
691M Apr 14 17:41 hg19.2.bt2
4.8K Apr 14 17:18 hg19.3.bt2
691M Apr 14 17:18 hg19.4.bt2
926M Apr 14 18:01 hg19.rev.1.bt2
691M Apr 14 18:01 hg19.rev.2.bt2
bowtie2比對(duì) 一步完成
vim bowtie2.sh
for i in 806 807 809 810 811 812 813 817
do
bowtie2 -p 10 -x ~/chipseq/genome/index/bowtie_index/hg19 -U SRR13764${i}_trimmed.fq | samtools sort -O bam -@ 10 -o - > SRR13764${i}.bam
done
#循環(huán)生成bam文件
sort:對(duì)bam文件進(jìn)行排序(不能對(duì)sam文件進(jìn)行排序)
-O:--output format (SAM, BAM)
-@:samtools中設(shè)置排序和壓縮的線程數(shù)艘虎,默認(rèn)單線程
分兩步完成的步驟:(1)運(yùn)行bowtie2 獲取 SAM 文件
nohup bowtie2 -p 10 -x ~/chipseq/genome/index/bowtie_index/hg19 -U SRR13764809_trimmed.fq -S CTCF_ChIP-seq.hg19.sam&
-S:write hits in SAM format唉侄;-q:query input files are fastq
(2) samtools轉(zhuǎn)換排序?yàn)閎am格式
samtools view -bS CTCF_ChIP-seq.hg19.sam > CTCF_ChIP-seq.hg19.bam
#sam轉(zhuǎn)bam
samtools sort -@ 10 CTCF_ChIP-seq.hg19.bam > CTCF_ChIP-seq.hg19.sorted.bam
#排序
sam格式詳解:SAM文件的每一行代表一個(gè)reads的比對(duì)情況,包含12列(tab分割)野建,從左往右属划,每一列的含義不同。
第一列:測(cè)序出來(lái)的reads序列數(shù)據(jù)名
第二列:flag之和
第三列:參考基因組的染色體名
第四列:比對(duì)到這個(gè)染色的具體位置(從1'端開(kāi)始)如9486878
第五列:比對(duì)質(zhì)量贬墩,是一個(gè)衡量比對(duì)好壞的打分結(jié)果榴嗅,越高越好
第六列:比對(duì)具體信息的表達(dá)式 CIGAR字符串,M:完全比配陶舞;D:缺失嗽测。如49M表示連續(xù)49個(gè)完全匹配
第七列:=表示參考序列與reads一模一樣,*表示沒(méi)有完全一模一樣的參考序列
第十列:reads堿基序列。
第十一列:ASCII 編碼的read堿基質(zhì)量
參考講解:BOWTIE2 進(jìn)行基因組比對(duì) - 簡(jiǎn)書(shū) (jianshu.com)
第二列flag的含義 :(1唠粥,2疏魏,4,8晤愧,16大莫,32…)每個(gè)整數(shù)代表不同的含義。參考講解:(5條消息) 2019/2/20_*.bam 與 *.sam文件中的flag的含義和統(tǒng)計(jì)結(jié)果_super_qun的博客-CSDN博客_bam flag
第六列GIGAR的含義: