學(xué)習(xí)Jimmy直播我的基因組系列
SNV(經(jīng)常會被混著SNP來稱呼蘑斧,我們先不糾結(jié)這個(gè)細(xì)節(jié))
- 通常一個(gè)人的全基因組測序數(shù)據(jù)可以挖掘到四百萬個(gè)SNVs(跟參考基因組不一樣的單堿基位點(diǎn)),還有五十萬的indels(insertions or deletions),但是得到的數(shù)據(jù)通常是以vcf文件格式給出的(自行搜索什么是vcf格式),比如下面:
2.首先記住一個(gè)很重要的知識點(diǎn),變異是相對的!變異不等于突變
填具。 簡單說一下什么是找變異,變異跟突變有什么區(qū)別呢堂飞?舉個(gè)栗子:有國際組織規(guī)定了人類的參考基因組(如UCSC,ENSEMBL,NCBI等灌旧,前面帖子都有講)绑咱,就是 AAAAA(這里簡化一下绰筛,就5個(gè)堿基枢泰,其實(shí)人類基因組多達(dá)30億個(gè)) 。現(xiàn)在通過給自己測序得知铝噩,我與之對應(yīng)的是AGCAA衡蚂,那么我相比國際基因組來說,就是2個(gè)變異位點(diǎn)骏庸,位于基因組的坐標(biāo)2和3毛甲,但是它們還不能說就是突變。
如第二位堿基具被,雖然我的是G玻募,參考基因組是A,但是全球已經(jīng)測序了幾百萬人一姿,而我查看了他們的測序結(jié)果七咧,其中99萬人都是G,這說明是參考基因組出現(xiàn)了問題叮叹,可能是國際組織當(dāng)年恰好選擇了一個(gè)人是A艾栋,所以就規(guī)定第二個(gè)堿基是A。所以雖然我用軟件找到了我的這個(gè)位點(diǎn)相對于參考基因組是來說蛉顽,是一個(gè)變異蝗砾,但是這恰好是好事,完全不用擔(dān)心携冤,我們也不需要用突變這個(gè)單詞來描述它悼粮!
那么接下來看第3位堿基,同樣曾棕,國際組織規(guī)定了是A扣猫,而我卻測了個(gè)C,但是全球已經(jīng)公布的一百萬人里面99.999萬人都跟參考一樣睁蕾,就是A苞笨。有一個(gè)人和參考基因組對應(yīng)的堿基不一樣,不一樣的那個(gè)人是個(gè)有病的患者子眶,這個(gè)時(shí)候瀑凝,你就慘了,這個(gè)變異臭杰,就是突變了粤咪!
很多變異其實(shí)只是造成人種多樣性的原因嫂用,是構(gòu)成人獨(dú)特性的基礎(chǔ)劝术,而那些跟疾病相關(guān)的變異墓陈,我們通常就會叫做是突變
混坞!
因我只舉了2個(gè)極端的例子,所以大家可能會誤以為囊拜,跟大多數(shù)人一樣某筐,就沒事了!其實(shí)也并不是這樣冠跷,一般來說南誊,在正常人的數(shù)據(jù)庫里面出現(xiàn)了5%的變異就可以認(rèn)為沒什么大的危害,而且變異還可以分成germline蜜托、somatic抄囚、de novo等情況,如果是特定性的針對某種疾病還可以找driver的mutation.
vcf就是一個(gè)尤為重要的基本數(shù)據(jù)格式橄务,里面描述的是變異位點(diǎn)的信息幔托,是一個(gè)表格形式,不同的表頭下面有著不同的信息蜂挪。VCF格式本來由千人基因組計(jì)劃提出來重挑,方便描述他們找到的海量(當(dāng)時(shí)是海量)變異位點(diǎn)。本質(zhì)上也是個(gè)文本文件而已锅劝,普通編輯器打開即可攒驰。但是它對每一行每一列有具體的定義,包括文件最前面一些#開頭的注釋信息(這個(gè)非常重要故爵,后面每一個(gè)位點(diǎn)的描述的tag都在這個(gè)注釋信息里面可以找到)
4.vcf文件的正文部分
vcf的正文部分玻粪,必須要有的是前面8列,一般來說可以有10列诬垂,分別是:
-1. #CHROM
POS
ID
REF(參考序列的堿基)
ALT(Variant的堿基)
QUAL
FILTER [來自于##FILTER]
INFO
FORMAT
可能會有樣本的名稱本
CHROM 和 POS:參考序列名和variant的位置劲室;如果是INDEL的話,位置是INDEL的第一個(gè)堿基位置结窘。
ID:variant的ID很洋。比如在dbSNP中有該SNP的id,則會在此行給出隧枫;若沒有喉磁,則用’."表示其為一個(gè)novel variant。
REF 和 ALT:參考序列的堿基 和 Variant的堿基官脓。
QUAL:Phred格式(Phred_scaled)的質(zhì)量值协怒,表 示在該位點(diǎn)存在variant的可能性;該值越高卑笨,則variant的可能性越大孕暇;計(jì)算方法:Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1,該位點(diǎn)為variant的概率為90%。
FILTER:使用上一個(gè)QUAL值來進(jìn)行過濾的話妖滔,是不夠的隧哮。GATK能使用其它的方法來進(jìn)行過濾,過濾結(jié)果中通過則該值為”PASS”;若variant不可靠座舍,則該項(xiàng)不為”PASS”或”.”沮翔。
INFO:這一行是variant的詳細(xì)信息,內(nèi)容很多簸州,以下再具體詳述鉴竭。
FORMAT 和 TTG11B:這兩行合起來提供了’TTG11B′這個(gè)sample的基因型的信息歧譬“痘耄’TTG11B′代表這該名稱的樣品,是由BAM文件中的@RG下的 SM 標(biāo)簽決定的瑰步。
前面7列都很簡單矢洲,顧名思義,分別就是該變異位點(diǎn)位于參考基因組的哪條染色體缩焦,哪個(gè)位置读虏,是否被一下數(shù)據(jù)庫給標(biāo)記了ID(通常說的是dbSNP),該位置的參考基因組是什么堿基袁滥,這個(gè)變異位點(diǎn)變異成了什么堿基盖桥。找到這個(gè)變異的軟件給它的質(zhì)量值是多少,是否合格题翻。下面這個(gè)表格里面我們可以看到第十列就是'realign'揩徊,可以看到比對時(shí)候@RG留下來的sam的樣本名稱,就可以知道這個(gè)vcf是經(jīng)過realign的那個(gè)bam里面call出來的突變嵌赠。
vcf只學(xué)七列是遠(yuǎn)遠(yuǎn)不夠的塑荒,我們有必要下功夫把較為復(fù)雜的第8列和第9列的內(nèi)容好好學(xué)習(xí)一下!
第8列 INFO 就非常復(fù)雜了姜挺,該列信息最多了齿税,看起來是一列,但是里面可以無限包容炊豪,可以根據(jù)字段拆分成多列凌箕,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的TAG含義在VCF文件的頭部注釋信息##INFO中已給出词渤。
通常我們熟悉的tag有:
AC牵舱,AF 和,AN[A開頭的多和等位基因有關(guān)]:
AC(Allele Count) 表示該Allele的數(shù)目掖肋;
AF(Allele Frequency) 表示Allele的頻率仆葡;
AN(Allele Number) 表示Allele的總數(shù)目。
對于1個(gè)diploid sample[二倍體樣本]而言
則基因型 0/1 表示sample為雜合子,Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變)沿盅,Allele的頻率為0.5(雙倍體的 sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變)把篓,總的Allele為2; 基因型 1/1 則表示sample為純合的腰涧,Allele數(shù)為2韧掩,Allele的頻率為1,總的Allele為2窖铡。
DP:reads覆蓋度疗锐。是一些reads被過濾掉后的覆蓋度。[注意费彼,第八列和第九列都有DP滑臊,都表示該位點(diǎn)覆蓋深度的信息,但是詳細(xì)意義可能是不同的大家可以探究一下箍铲,在head里面就可以找到相應(yīng)信息]
Dels:Fraction of Reads Containing Spanning Deletions雇卷。進(jìn)行SNP和INDEL calling的結(jié)果中,有該TAG并且值為0表示該位點(diǎn)為SNV颠猴,沒有則為INDEL关划。[這個(gè)值很重要,可以根據(jù)這個(gè)tag分離indel和snv]
如果你覺得call變異的軟件默認(rèn)給出的tag不符合你的要求翘瓮,你可以繼續(xù)用其它軟件在該列里面不停的增加tag贮折,我見過給該列直接添加到180個(gè)tag的,我們后面主要講如何來添加tag资盅。
有了這8列调榄,已經(jīng)是標(biāo)準(zhǔn)的vcf文件了,但是大家肯定會奇怪律姨,還沒有關(guān)于這個(gè)位點(diǎn)的基因型振峻,測序深度的描述的信息。
這就是屬于后面的第9列FORMAT規(guī)定的了择份,如果有多個(gè)樣本扣孟,就會按照第九列的格式不停的增加下去。
第九列可以是GT,DP,FT,GL,PL,GP等等荣赶,都可以在該vcf文件的表頭里面找到關(guān)于它們的解釋凤价。前面所講的 ##FORMAT 表頭部分 便是對第九列的解釋
第九列相對于第八列來說沒有那么復(fù)雜的信息,數(shù)據(jù)格式是比較固定的拔创,其中包含的信息也很重要利诺,主要是某一個(gè)特定位點(diǎn)基因型,測序深度的描述剩燥,因此有必要弄清楚慢逾。
第9列數(shù)據(jù)立倍,包含兩列內(nèi)容,兩列內(nèi)容是對應(yīng)的侣滩,前者為格式口注,后者為格式對應(yīng)的數(shù)據(jù)。
GT:樣品的基因型(genotype)君珠。兩個(gè)數(shù)字中間用’/"分 開寝志,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele策添; 1 表示樣品中variant的allele材部; 2表示有第二個(gè)variant的allele。因此: 0/0 表示sample中該位點(diǎn)為純合的唯竹,和ref一致乐导; 0/1 表示sample中該位點(diǎn)為雜合的,有ref和variant兩個(gè)基因型摩窃; 1/1 表示sample中該位點(diǎn)為純合的兽叮,和variant一致。
AD 和 DP:AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個(gè)值猾愿,前者對應(yīng)ref基因型,后者對應(yīng)variant基因型账阻; DP(Depth)為sample中該位點(diǎn)的覆蓋度蒂秘。
GQ:基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值淘太,表示在該位點(diǎn)該基因型存在的可能性姻僧;該值越高,則Genotype的可能性越 大蒲牧;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率撇贺。
PL:指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1)冰抢,這三種基因型的概率總和為1松嘶。和之前不一致,該值越大挎扰,表明為該種基因型的可能 性越小翠订。 Phred值 = -10 * log (p) p為基因型存在的概率。
最需要理解的就是DP4和GT了:
第十列的話就是樣本的信息 可以在比對的時(shí)候使用@RG來做一個(gè)標(biāo)記