第一步:http://www.reibang.com/p/e0bfa7b75ccb
Q: 進(jìn)行去接頭及質(zhì)控之后玄括,接下來把reads mapping回基因組遭京,這里我用的是Bowtie2,為什么選擇用bowtie2?
bowtie出現(xiàn)的早,對于測序長度在50bp以下的序列效果不錯,而bowtie2主要針對的是長度在50bp以上的測序的,我的測序是PE150寞钥,所以我選擇用bowtie2分析數(shù)據(jù)
代碼:
bowtie2 -q --phred33 --very-sensitive --score-min L,0,-0.4 -x /Database/Homo_sapiens.GRCh38.dna.toplevel
-1 /asnas/sunyl_group/liull/seq_data/annuo-191126/aly-CTCF/cutadp/CTCF_1.trim.fq
-2 /asnas/sunyl_group/liull/seq_data/annuo-191126/aly-CTCF/cutadp/CTCF_2.trim.fq
-S ./CTCF2.sam
samtools view -q 10 -h ./CTCF2.sam > ./CTCF2_q10.bam
這兩步:
1 bowtie2是為了mapping到基因組上,我選擇的是hg38,然后輸出sam
2 第二就是選擇mapping質(zhì)量高的咨油, 并且把sam轉(zhuǎn)成bam
接下來:
samtools sort -n -o Dam_nq10.bam Dam_q10.bam
我按照名字進(jìn)行篩選役电,我們可以直觀的看到reads信息冀膝,我們就可以根據(jù)排序后的bam文件去看pair-end reads的情況,并且论笔,我們對這個bam進(jìn)行統(tǒng)計。
(我老師說,這一步?jīng)]啥作用火俄,因為本身bowtie2輸出的時候竿开,就已經(jīng)是根據(jù)name輸出的敬尺。我保險點,還是寫了贴浙,因為接下來需要用到一對reads進(jìn)行分析)
PS:
此外砂吞,可以利用管道符傳參,可以節(jié)省內(nèi)存P呜舒!
看一下mapping的效率:
mapping完了之后,可以reads的GATC位點了!袭蝗!