癌癥基因組重測序分析三/四

第三節(jié)主要內(nèi)容:測序?qū)嶒?yàn)流程、測序原理及基本名詞解釋

1. 測序錯(cuò)誤率原因:Phasing & Pre-phasing

Phasing & Pre-phasing

2. 堿基質(zhì)量評(píng)估方法:Q20立哑,Q30

Q20:該堿基的出錯(cuò)率為0.01亡资;

Q30:該堿基的出錯(cuò)率為0.001胶逢;

因此可以得到一個(gè)質(zhì)量Q=-10Log(P-value)

各堿基的質(zhì)量一般會(huì)儲(chǔ)存在fastQ文件當(dāng)中吟秩。

3. 測序儀舉例:NextSeq 500

Illumina NextSeq 500

有兩種模式,分別為高通量模式和中通量模式厕隧。

高通量模式下一次可測1個(gè)人的全基因組或9個(gè)人全外或10個(gè)人的全轉(zhuǎn)錄組以及40個(gè)基因表達(dá)譜;

中通量模式下一次上機(jī)可測3個(gè)外顯子組,6個(gè)靶向測序吁讨,96個(gè)擴(kuò)增子測序和12個(gè)基因表達(dá)譜測序髓迎。

MiSeq, NextSeq 500以及Hiseq 2500比較


第四節(jié)主要內(nèi)容:利用癌癥基因組重測序的數(shù)據(jù)鑒定和注釋腫瘤樣本中存在的Somatic SNV以及Indel

一、概要

1. 基因組重測序reads回帖方法

2. Somatic SNV和Indel鑒定方法

3. FASTQ, BAM, PILEUP, VCF等文件結(jié)果說明

4. 便以為點(diǎn)注釋方法

二建丧、分析流程產(chǎn)生的文件類型

1. FASTQ 文件——測序儀給出的文件

FASTQ文件格式詳解

Lane1: @+read的名字+read在follow cell上的坐標(biāo)

Lane2: sequences

Lane3: read的信息描述

Lane4: 堿基質(zhì)量打分

2. 基于FASTQ文件的測序質(zhì)量評(píng)估——軟件舉例:FASTX-Toolkit

測序公司給出的原始測序數(shù)據(jù)我們需要首先對(duì)測序質(zhì)量進(jìn)行評(píng)估以確認(rèn)所拿到的測序結(jié)果是否滿足我們進(jìn)行下游生信分析的需求排龄。

FASTX-Toolkit軟件舉例

3. SomaticSNV和Indel生物信息分析主要流程:

與基因組比對(duì)→→→變異位點(diǎn)鑒定→→→變異位點(diǎn)注釋

所對(duì)應(yīng)的文件格式變化為:FASTQ files (下機(jī)數(shù)據(jù)) →→ BAM files (比對(duì)后) →→VCF files (變異鑒定軟件處理后)

(1)軟件舉例:GATK

GATK分析流程

優(yōu)缺點(diǎn):

A.優(yōu)點(diǎn),分為三步:先比對(duì)翎朱,再對(duì)比對(duì)結(jié)果進(jìn)行了優(yōu)化和校正涣雕,校正之后對(duì)SNV和Indel的鑒定更有效;其次該軟件在鑒定SNV和Indel的時(shí)候有很多不一樣的模型闭翩,這些模型可以保證我們?cè)谶M(jìn)行突變鑒定時(shí)是準(zhǔn)確的

B. 缺點(diǎn):鑒定的SNV和Indel不適用于腫瘤SomaticSNV和Indel的鑒定挣郭;其次,對(duì)于一些突變頻率萬分之幾疗韵,十萬分之幾的低頻突變的敏感度不夠高兑障。

三、分析流程詳解

1. Reads的基因組回帖

(1)定義:將測序得到的數(shù)目眾多的Reads蕉汪,比對(duì)到參考基因組序列流译,并允許一定的錯(cuò)配。

(2)比對(duì)方法:

Blast者疤、Blat福澡??

這些方法速度慢且對(duì)短reads不太合適,因此現(xiàn)在將又短又多的reads比對(duì)到長長的基因組上驹马,關(guān)鍵在于對(duì)reads集合建立索引或者對(duì)參考基因組序列建立索引革砸,也可以同時(shí)對(duì)兩者建立索引。

建立索引主要的兩種方法為:

A. Algorithms based on hash tables: MAQ, SOAP, ELAND, SeqMap, RMAP, ZOOM, SHRiMP

B. Algorithms based on suffix tree: Bowtie, BWA, SOAP2等

對(duì)全基因組重測序下機(jī)數(shù)據(jù)進(jìn)行回帖主要用BWA這個(gè)方法糯累。

(3)BWA軟件介紹

BWA這個(gè)軟件主要有三個(gè)主要功能算利,分別適用于三種不同的測序結(jié)果和測序長度

BWA軟件的三種功能

(4)基因組比對(duì)

主要分兩步:先是建立索引,然后進(jìn)行比對(duì)

BWA軟件進(jìn)行reads比對(duì)流程

$ bwa index hg19_genome.fa :對(duì)參考序列建立索引

$ bwa mem hg19_genome reads1.fq reads2.fq?﹥bwabam :用BWA的MEM功能將雙端測序reads比對(duì)到參考基因組上

$ samtools sort bwa.bam?﹥bwa.sort.bam:得到的比對(duì)結(jié)果文件(BAM文件)需要再進(jìn)行處理和優(yōu)化泳姐,如按照染色體位置進(jìn)行分類

$ samtools rmdup bwa.bam?﹥bwa.sort.rmd.bam:去除建庫PCR過程產(chǎn)生的duplication

(5)基因組重測序reads回帖結(jié)果的校正

A. Indel Realignment

因?yàn)樵贗ndel附近的SNV鑒定結(jié)果有很大概率不準(zhǔn)確效拭,因此在得到去重等處理之后的比對(duì)結(jié)果之后,還需要對(duì)比對(duì)結(jié)果進(jìn)行Indel realignment的操作胖秒,從而篩去那些假陽性的SNV結(jié)果缎患。

Indel Realignment workflow

GATK中Indel Realignment的功能可以分為兩步:第一步輸入dbSNP中的VCF文件(包含Indel信息),從而創(chuàng)建一個(gè)Indel坐標(biāo),第二步運(yùn)用Indel Realigner阎肝,根據(jù)indel坐標(biāo)信息將含有indel的reads進(jìn)行重新的基因組回帖挤渔,得到優(yōu)化的BAM文件。

indel Realignment處理前后的BAM文件結(jié)果比對(duì)

B. GATK對(duì)reads的堿基質(zhì)量值進(jìn)行校正

(6)基因組重測序reads回帖結(jié)果文件解讀(SAM/BAM格式)

BAM文件是SAM文件的一個(gè)二進(jìn)制形式

SAM/BAM文件舉例

第一列:reads的名字

第二列:Flag盗痒,即reads的狀態(tài)蚂蕴,是二進(jìn)制數(shù)值累加的值低散,數(shù)值能夠告知‘是單端測序還是雙端測序’,‘mate-pair reads是否比對(duì)上參考基因組’等(samtools flags的含義

沒有時(shí)間詳細(xì)看給出學(xué)習(xí)鏈接的話可以參考下面的圖

samtools flags含義解釋舉例

第三列:reads比對(duì)到的染色體

第四列:染色體上的位置, position

第五列:質(zhì)量骡楼,值越高比對(duì)的錯(cuò)誤率越低

第六列:CIGAR string:reads是以什么形式比對(duì)到基因組上的

GICAR字符釋義
GICAR解讀舉例

比對(duì)結(jié)果:3M1I3M1D5M(3個(gè)比對(duì)上熔号,1個(gè)insertion,3個(gè)比對(duì)上鸟整。1個(gè)deletion引镊,5個(gè)比對(duì)上)

第七+八列:雙端測序的mate-pair reads的比對(duì)情況

第九列:mate-pair reads之間的insertion size

第十列:reads詳細(xì)的序列信息

第十一列:reads的堿基質(zhì)量信息

PS:推薦補(bǔ)充學(xué)習(xí)材料

Sam和bam文件說明

The SAM Format Specification (v1.4-r985)

samtools常用命令詳解

四、利用BAM文件鑒定腫瘤中特異存在的變異位點(diǎn)

比較:癌和癌旁

利用BAM文件鑒定腫瘤特異性突變分析流程
幾種位點(diǎn)的解釋示意圖

Allele frequency 變異位點(diǎn)等位基因頻率=變異reads/總的reads數(shù)篮条,一方面反映了腫瘤純度問題弟头,另一方面反映了亞克隆存在情況問題。

1. 腫瘤組織中somatic mutation鑒定

(1)將BAM文件生成PILEUP文件

$ samtools mpileup -q l -f hg19_genome normal_bam?﹥normal_pileup

$ samtools mpileup -q l -f hg19_genome tumor_bam?﹥tumor_pileup

(2)根據(jù)normal和tumor的pileup文件涉茧,調(diào)用VarScan的somatic mutation程序赴恨,鑒定somatic mutation

$ java -Xmx8g -jar VarScan.jar somatic normal.pileup tumor.pileup --output-snp somatic.snp.output --output-indel somatic.indel.output

(3)對(duì)VarScan輸出的SNP和Indel結(jié)果進(jìn)行處理:將結(jié)果分成4類,分別為高可信度somatic mutation位點(diǎn)(output.snp.Somatic.hc)伴栓,低可信度somatic mutation位點(diǎn)(output.snp.Somatic.lc)伦连,germline mutation位點(diǎn)(output.snp.Germline)以及雜合缺失位點(diǎn)(LOH sites)(output.snp.LOH)

$ java -jar VarScan.jar processSomatic somatic.snp.output?

2. Pileup文件格式解讀

Pileup文件格式解讀舉例

第一列和第二列:所在染色體及其具體位置信息

第三列:參考基因組上的位點(diǎn) (read base),?每個(gè)點(diǎn)(dot)代表這個(gè)堿基正向匹配到reference base, 每個(gè)逗號(hào)代表該堿基反向匹配到reference base. 如果是‘ACGTN’,說明這個(gè)堿基是個(gè)正向的mismatch钳垮,如果是‘a(chǎn)ctgn', 說明這個(gè)堿基是個(gè)反向的mismatch惑淳。這個(gè)樣式 '\+ or - [0-9]+[ACGTNacgtn]+'是在這個(gè)reference position和下一個(gè)reference position之間的插入(insertion)或缺失(deletion)突變。加號(hào)代表插入饺窿,減號(hào)代表缺失歧焦,數(shù)字是插入或缺失的長度,數(shù)字后面的’ACGTN or acgtn'就是插入或缺失的堿基肚医。

PS: 推薦附加閱讀Pileup格式-生信技能樹绢馍,Pileup格式解讀

第四列:堿基對(duì)應(yīng)的深度

第五列:這個(gè)位點(diǎn)所對(duì)應(yīng)的的位置的堿基的情況

第六列:堿基質(zhì)量

3. 變異結(jié)果文件格式解讀(VarScan)

VarScan運(yùn)行結(jié)果解讀舉例

第一列和第二列表示的是比對(duì)上的染色體位置,分別為染色體忍宋,以及染色體上的具體位置痕貌;第三列是參考基因組上的堿基风罩;第四列是VarScan鑒定出來的變異堿基糠排;第五列(如例子中的27指的是癌旁組織中與參考基因組一樣的堿基頻數(shù),40位癌旁組織中與變異位點(diǎn)一樣的堿基頻數(shù)超升,59.7%即為變異位點(diǎn)頻率)入宦,‘Y’表示變異類型。后續(xù)的‘38’室琢,‘44’和’53.66%’為癌組織中的相應(yīng)的數(shù)值乾闰。

IUPAC Code對(duì)應(yīng)表

somatic sites: a. 癌組織和癌旁組織存在顯著差異; b.變異位點(diǎn)僅存在癌組織盈滴,癌旁組織中一點(diǎn)都沒有

4. 其他鑒定體細(xì)胞變異方法舉例

(1) Samtools

(2) Pindel: a pattern growth approach to detect break points of large deletions and medium sized insertions from paired-end short reads

在進(jìn)行somatic mutation的鑒定時(shí)可以同時(shí)使用多個(gè)鑒定軟件涯肩,這樣得到的結(jié)果會(huì)相對(duì)更可靠轿钠。

5. VCF結(jié)果文件格式解讀

VCF文件:分為兩個(gè)部分,#開頭的為注釋部分病苗,包括VCF的版本疗垛,縮寫的含義等;#以下為主體文件部分硫朦。

vcf文件格式詳解

推薦閱讀:生物基因數(shù)據(jù)文件——vcf格式詳解?vcf格式解讀及vcftools簡介(生信技能樹)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末贷腕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子咬展,更是在濱河造成了極大的恐慌泽裳,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件破婆,死亡現(xiàn)場離奇詭異涮总,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)祷舀,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門妹卿,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人蔑鹦,你說我怎么就攤上這事夺克。” “怎么了嚎朽?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵铺纽,是天一觀的道長。 經(jīng)常有香客問我哟忍,道長狡门,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任锅很,我火速辦了婚禮其馏,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘爆安。我一直安慰自己叛复,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布扔仓。 她就那樣靜靜地躺著褐奥,像睡著了一般。 火紅的嫁衣襯著肌膚如雪翘簇。 梳的紋絲不亂的頭發(fā)上撬码,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音版保,去河邊找鬼呜笑。 笑死夫否,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的叫胁。 我是一名探鬼主播慷吊,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼曹抬!你這毒婦竟也來了溉瓶?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤谤民,失蹤者是張志新(化名)和其女友劉穎堰酿,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體张足,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡触创,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了为牍。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片哼绑。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖碉咆,靈堂內(nèi)的尸體忽然破棺而出抖韩,到底是詐尸還是另有隱情,我是刑警寧澤疫铜,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布茂浮,位于F島的核電站,受9級(jí)特大地震影響壳咕,放射性物質(zhì)發(fā)生泄漏席揽。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一谓厘、第九天 我趴在偏房一處隱蔽的房頂上張望幌羞。 院中可真熱鬧,春花似錦竟稳、人聲如沸属桦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽地啰。三九已至,卻和暖如春讲逛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背岭埠。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國打工盏混, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留蔚鸥,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓许赃,卻偏偏與公主長得像止喷,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子混聊,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容