第三節(jié)主要內(nèi)容:測序?qū)嶒?yàn)流程、測序原理及基本名詞解釋
1. 測序錯(cuò)誤率原因:Phasing & Pre-phasing
2. 堿基質(zhì)量評(píng)估方法:Q20立哑,Q30
Q20:該堿基的出錯(cuò)率為0.01亡资;
Q30:該堿基的出錯(cuò)率為0.001胶逢;
因此可以得到一個(gè)質(zhì)量Q=-10Log(P-value)
各堿基的質(zhì)量一般會(huì)儲(chǔ)存在fastQ文件當(dāng)中吟秩。
3. 測序儀舉例:NextSeq 500
有兩種模式,分別為高通量模式和中通量模式厕隧。
高通量模式下一次可測1個(gè)人的全基因組或9個(gè)人全外或10個(gè)人的全轉(zhuǎn)錄組以及40個(gè)基因表達(dá)譜;
中通量模式下一次上機(jī)可測3個(gè)外顯子組,6個(gè)靶向測序吁讨,96個(gè)擴(kuò)增子測序和12個(gè)基因表達(dá)譜測序髓迎。
第四節(jié)主要內(nèi)容:利用癌癥基因組重測序的數(shù)據(jù)鑒定和注釋腫瘤樣本中存在的Somatic SNV以及Indel
一、概要
1. 基因組重測序reads回帖方法
2. Somatic SNV和Indel鑒定方法
3. FASTQ, BAM, PILEUP, VCF等文件結(jié)果說明
4. 便以為點(diǎn)注釋方法
二建丧、分析流程產(chǎn)生的文件類型
1. FASTQ 文件——測序儀給出的文件
Lane1: @+read的名字+read在follow cell上的坐標(biāo)
Lane2: sequences
Lane3: read的信息描述
Lane4: 堿基質(zhì)量打分
2. 基于FASTQ文件的測序質(zhì)量評(píng)估——軟件舉例:FASTX-Toolkit
測序公司給出的原始測序數(shù)據(jù)我們需要首先對(duì)測序質(zhì)量進(jìn)行評(píng)估以確認(rèn)所拿到的測序結(jié)果是否滿足我們進(jìn)行下游生信分析的需求排龄。
3. SomaticSNV和Indel生物信息分析主要流程:
與基因組比對(duì)→→→變異位點(diǎn)鑒定→→→變異位點(diǎn)注釋
所對(duì)應(yīng)的文件格式變化為:FASTQ files (下機(jī)數(shù)據(jù)) →→ BAM files (比對(duì)后) →→VCF files (變異鑒定軟件處理后)
(1)軟件舉例:GATK
優(yōu)缺點(diǎn):
A.優(yōu)點(diǎn),分為三步:先比對(duì)翎朱,再對(duì)比對(duì)結(jié)果進(jìn)行了優(yōu)化和校正涣雕,校正之后對(duì)SNV和Indel的鑒定更有效;其次該軟件在鑒定SNV和Indel的時(shí)候有很多不一樣的模型闭翩,這些模型可以保證我們?cè)谶M(jìn)行突變鑒定時(shí)是準(zhǔn)確的
B. 缺點(diǎn):鑒定的SNV和Indel不適用于腫瘤SomaticSNV和Indel的鑒定挣郭;其次,對(duì)于一些突變頻率萬分之幾疗韵,十萬分之幾的低頻突變的敏感度不夠高兑障。
三、分析流程詳解
1. Reads的基因組回帖
(1)定義:將測序得到的數(shù)目眾多的Reads蕉汪,比對(duì)到參考基因組序列流译,并允許一定的錯(cuò)配。
(2)比對(duì)方法:
Blast者疤、Blat福澡??
這些方法速度慢且對(duì)短reads不太合適,因此現(xiàn)在將又短又多的reads比對(duì)到長長的基因組上驹马,關(guān)鍵在于對(duì)reads集合建立索引或者對(duì)參考基因組序列建立索引革砸,也可以同時(shí)對(duì)兩者建立索引。
建立索引主要的兩種方法為:
A. Algorithms based on hash tables: MAQ, SOAP, ELAND, SeqMap, RMAP, ZOOM, SHRiMP
B. Algorithms based on suffix tree: Bowtie, BWA, SOAP2等
對(duì)全基因組重測序下機(jī)數(shù)據(jù)進(jìn)行回帖主要用BWA這個(gè)方法糯累。
(3)BWA軟件介紹
BWA這個(gè)軟件主要有三個(gè)主要功能算利,分別適用于三種不同的測序結(jié)果和測序長度
(4)基因組比對(duì)
主要分兩步:先是建立索引,然后進(jìn)行比對(duì)
$ bwa index hg19_genome.fa :對(duì)參考序列建立索引
$ bwa mem hg19_genome reads1.fq reads2.fq?﹥bwabam :用BWA的MEM功能將雙端測序reads比對(duì)到參考基因組上
$ samtools sort bwa.bam?﹥bwa.sort.bam:得到的比對(duì)結(jié)果文件(BAM文件)需要再進(jìn)行處理和優(yōu)化泳姐,如按照染色體位置進(jìn)行分類
$ samtools rmdup bwa.bam?﹥bwa.sort.rmd.bam:去除建庫PCR過程產(chǎn)生的duplication
(5)基因組重測序reads回帖結(jié)果的校正
A. Indel Realignment
因?yàn)樵贗ndel附近的SNV鑒定結(jié)果有很大概率不準(zhǔn)確效拭,因此在得到去重等處理之后的比對(duì)結(jié)果之后,還需要對(duì)比對(duì)結(jié)果進(jìn)行Indel realignment的操作胖秒,從而篩去那些假陽性的SNV結(jié)果缎患。
GATK中Indel Realignment的功能可以分為兩步:第一步輸入dbSNP中的VCF文件(包含Indel信息),從而創(chuàng)建一個(gè)Indel坐標(biāo),第二步運(yùn)用Indel Realigner阎肝,根據(jù)indel坐標(biāo)信息將含有indel的reads進(jìn)行重新的基因組回帖挤渔,得到優(yōu)化的BAM文件。
B. GATK對(duì)reads的堿基質(zhì)量值進(jìn)行校正
(6)基因組重測序reads回帖結(jié)果文件解讀(SAM/BAM格式)
BAM文件是SAM文件的一個(gè)二進(jìn)制形式
第一列:reads的名字
第二列:Flag盗痒,即reads的狀態(tài)蚂蕴,是二進(jìn)制數(shù)值累加的值低散,數(shù)值能夠告知‘是單端測序還是雙端測序’,‘mate-pair reads是否比對(duì)上參考基因組’等(samtools flags的含義)
沒有時(shí)間詳細(xì)看給出學(xué)習(xí)鏈接的話可以參考下面的圖
第三列:reads比對(duì)到的染色體
第四列:染色體上的位置, position
第五列:質(zhì)量骡楼,值越高比對(duì)的錯(cuò)誤率越低
第六列:CIGAR string:reads是以什么形式比對(duì)到基因組上的
比對(duì)結(jié)果:3M1I3M1D5M(3個(gè)比對(duì)上熔号,1個(gè)insertion,3個(gè)比對(duì)上鸟整。1個(gè)deletion引镊,5個(gè)比對(duì)上)
第七+八列:雙端測序的mate-pair reads的比對(duì)情況
第九列:mate-pair reads之間的insertion size
第十列:reads詳細(xì)的序列信息
第十一列:reads的堿基質(zhì)量信息
PS:推薦補(bǔ)充學(xué)習(xí)材料
The SAM Format Specification (v1.4-r985)
四、利用BAM文件鑒定腫瘤中特異存在的變異位點(diǎn)
比較:癌和癌旁
Allele frequency 變異位點(diǎn)等位基因頻率=變異reads/總的reads數(shù)篮条,一方面反映了腫瘤純度問題弟头,另一方面反映了亞克隆存在情況問題。
1. 腫瘤組織中somatic mutation鑒定
(1)將BAM文件生成PILEUP文件
$ samtools mpileup -q l -f hg19_genome normal_bam?﹥normal_pileup
$ samtools mpileup -q l -f hg19_genome tumor_bam?﹥tumor_pileup
(2)根據(jù)normal和tumor的pileup文件涉茧,調(diào)用VarScan的somatic mutation程序赴恨,鑒定somatic mutation
$ java -Xmx8g -jar VarScan.jar somatic normal.pileup tumor.pileup --output-snp somatic.snp.output --output-indel somatic.indel.output
(3)對(duì)VarScan輸出的SNP和Indel結(jié)果進(jìn)行處理:將結(jié)果分成4類,分別為高可信度somatic mutation位點(diǎn)(output.snp.Somatic.hc)伴栓,低可信度somatic mutation位點(diǎn)(output.snp.Somatic.lc)伦连,germline mutation位點(diǎn)(output.snp.Germline)以及雜合缺失位點(diǎn)(LOH sites)(output.snp.LOH)
$ java -jar VarScan.jar processSomatic somatic.snp.output?
2. Pileup文件格式解讀
第一列和第二列:所在染色體及其具體位置信息
第三列:參考基因組上的位點(diǎn) (read base),?每個(gè)點(diǎn)(dot)代表這個(gè)堿基正向匹配到reference base, 每個(gè)逗號(hào)代表該堿基反向匹配到reference base. 如果是‘ACGTN’,說明這個(gè)堿基是個(gè)正向的mismatch钳垮,如果是‘a(chǎn)ctgn', 說明這個(gè)堿基是個(gè)反向的mismatch惑淳。這個(gè)樣式 '\+ or - [0-9]+[ACGTNacgtn]+'是在這個(gè)reference position和下一個(gè)reference position之間的插入(insertion)或缺失(deletion)突變。加號(hào)代表插入饺窿,減號(hào)代表缺失歧焦,數(shù)字是插入或缺失的長度,數(shù)字后面的’ACGTN or acgtn'就是插入或缺失的堿基肚医。
PS: 推薦附加閱讀Pileup格式-生信技能樹绢馍,Pileup格式解讀
第四列:堿基對(duì)應(yīng)的深度
第五列:這個(gè)位點(diǎn)所對(duì)應(yīng)的的位置的堿基的情況
第六列:堿基質(zhì)量
3. 變異結(jié)果文件格式解讀(VarScan)
第一列和第二列表示的是比對(duì)上的染色體位置,分別為染色體忍宋,以及染色體上的具體位置痕貌;第三列是參考基因組上的堿基风罩;第四列是VarScan鑒定出來的變異堿基糠排;第五列(如例子中的27指的是癌旁組織中與參考基因組一樣的堿基頻數(shù),40位癌旁組織中與變異位點(diǎn)一樣的堿基頻數(shù)超升,59.7%即為變異位點(diǎn)頻率)入宦,‘Y’表示變異類型。后續(xù)的‘38’室琢,‘44’和’53.66%’為癌組織中的相應(yīng)的數(shù)值乾闰。
somatic sites: a. 癌組織和癌旁組織存在顯著差異; b.變異位點(diǎn)僅存在癌組織盈滴,癌旁組織中一點(diǎn)都沒有
4. 其他鑒定體細(xì)胞變異方法舉例
(1) Samtools
(2) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads
在進(jìn)行somatic mutation的鑒定時(shí)可以同時(shí)使用多個(gè)鑒定軟件涯肩,這樣得到的結(jié)果會(huì)相對(duì)更可靠轿钠。
5. VCF結(jié)果文件格式解讀
VCF文件:分為兩個(gè)部分,#開頭的為注釋部分病苗,包括VCF的版本疗垛,縮寫的含義等;#以下為主體文件部分硫朦。