突變需要學(xué)習(xí)的知識點(diǎn)

學(xué)習(xí)Jimmy直播我的基因組系列

SNV(經(jīng)常會被混著SNP來稱呼蘑斧,我們先不糾結(jié)這個(gè)細(xì)節(jié))

  1. 通常一個(gè)人的全基因組測序數(shù)據(jù)可以挖掘到四百萬個(gè)SNVs(跟參考基因組不一樣的單堿基位點(diǎn)),還有五十萬的indels(insertions or deletions),但是得到的數(shù)據(jù)通常是以vcf文件格式給出的(自行搜索什么是vcf格式),比如下面:

2.首先記住一個(gè)很重要的知識點(diǎn),變異是相對的!變異不等于突變填具。 簡單說一下什么是找變異,變異跟突變有什么區(qū)別呢堂飞?舉個(gè)栗子:有國際組織規(guī)定了人類的參考基因組(如UCSC,ENSEMBL,NCBI等灌旧,前面帖子都有講)绑咱,就是 AAAAA(這里簡化一下绰筛,就5個(gè)堿基枢泰,其實(shí)人類基因組多達(dá)30億個(gè)) 。現(xiàn)在通過給自己測序得知铝噩,我與之對應(yīng)的是AGCAA衡蚂,那么我相比國際基因組來說,就是2個(gè)變異位點(diǎn)骏庸,位于基因組的坐標(biāo)2和3毛甲,但是它們還不能說就是突變。

如第二位堿基具被,雖然我的是G玻募,參考基因組是A,但是全球已經(jīng)測序了幾百萬人一姿,而我查看了他們的測序結(jié)果七咧,其中99萬人都是G,這說明是參考基因組出現(xiàn)了問題叮叹,可能是國際組織當(dāng)年恰好選擇了一個(gè)人是A艾栋,所以就規(guī)定第二個(gè)堿基是A。所以雖然我用軟件找到了我的這個(gè)位點(diǎn)相對于參考基因組是來說蛉顽,是一個(gè)變異蝗砾,但是這恰好是好事,完全不用擔(dān)心携冤,我們也不需要用突變這個(gè)單詞來描述它悼粮!

那么接下來看第3位堿基,同樣曾棕,國際組織規(guī)定了是A扣猫,而我卻測了個(gè)C,但是全球已經(jīng)公布的一百萬人里面99.999萬人都跟參考一樣睁蕾,就是A苞笨。有一個(gè)人和參考基因組對應(yīng)的堿基不一樣,不一樣的那個(gè)人是個(gè)有病的患者子眶,這個(gè)時(shí)候瀑凝,你就慘了,這個(gè)變異臭杰,就是突變了粤咪!

很多變異其實(shí)只是造成人種多樣性的原因嫂用,是構(gòu)成人獨(dú)特性的基礎(chǔ)劝术,而那些跟疾病相關(guān)的變異墓陈,我們通常就會叫做是突變混坞!

因我只舉了2個(gè)極端的例子,所以大家可能會誤以為囊拜,跟大多數(shù)人一樣某筐,就沒事了!其實(shí)也并不是這樣冠跷,一般來說南誊,在正常人的數(shù)據(jù)庫里面出現(xiàn)了5%的變異就可以認(rèn)為沒什么大的危害,而且變異還可以分成germline蜜托、somatic抄囚、de novo等情況,如果是特定性的針對某種疾病還可以找driver的mutation.

vcf就是一個(gè)尤為重要的基本數(shù)據(jù)格式橄务,里面描述的是變異位點(diǎn)的信息幔托,是一個(gè)表格形式,不同的表頭下面有著不同的信息蜂挪。VCF格式本來由千人基因組計(jì)劃提出來重挑,方便描述他們找到的海量(當(dāng)時(shí)是海量)變異位點(diǎn)。本質(zhì)上也是個(gè)文本文件而已锅劝,普通編輯器打開即可攒驰。但是它對每一行每一列有具體的定義,包括文件最前面一些#開頭的注釋信息(這個(gè)非常重要故爵,后面每一個(gè)位點(diǎn)的描述的tag都在這個(gè)注釋信息里面可以找到)

4.vcf文件的正文部分

vcf的正文部分玻粪,必須要有的是前面8列,一般來說可以有10列诬垂,分別是:

-1. #CHROM

  1. POS

  2. ID

  3. REF(參考序列的堿基)

  4. ALT(Variant的堿基)

  5. QUAL

  6. FILTER [來自于##FILTER]

  7. INFO

  8. FORMAT

  9. 可能會有樣本的名稱本

CHROM 和 POS:參考序列名和variant的位置劲室;如果是INDEL的話,位置是INDEL的第一個(gè)堿基位置结窘。

ID:variant的ID很洋。比如在dbSNP中有該SNP的id,則會在此行給出隧枫;若沒有喉磁,則用’."表示其為一個(gè)novel variant。

REF 和 ALT:參考序列的堿基 和 Variant的堿基官脓。

QUAL:Phred格式(Phred_scaled)的質(zhì)量值协怒,表 示在該位點(diǎn)存在variant的可能性;該值越高卑笨,則variant的可能性越大孕暇;計(jì)算方法:Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1,該位點(diǎn)為variant的概率為90%。

FILTER:使用上一個(gè)QUAL值來進(jìn)行過濾的話妖滔,是不夠的隧哮。GATK能使用其它的方法來進(jìn)行過濾,過濾結(jié)果中通過則該值為”PASS”;若variant不可靠座舍,則該項(xiàng)不為”PASS”或”.”沮翔。

INFO:這一行是variant的詳細(xì)信息,內(nèi)容很多簸州,以下再具體詳述鉴竭。

FORMAT 和 TTG11B:這兩行合起來提供了’TTG11B′這個(gè)sample的基因型的信息歧譬“痘耄’TTG11B′代表這該名稱的樣品,是由BAM文件中的@RG下的 SM 標(biāo)簽決定的瑰步。

image

前面7列都很簡單矢洲,顧名思義,分別就是該變異位點(diǎn)位于參考基因組的哪條染色體缩焦,哪個(gè)位置读虏,是否被一下數(shù)據(jù)庫給標(biāo)記了ID(通常說的是dbSNP),該位置的參考基因組是什么堿基袁滥,這個(gè)變異位點(diǎn)變異成了什么堿基盖桥。找到這個(gè)變異的軟件給它的質(zhì)量值是多少,是否合格题翻。下面這個(gè)表格里面我們可以看到第十列就是'realign'揩徊,可以看到比對時(shí)候@RG留下來的sam的樣本名稱,就可以知道這個(gè)vcf是經(jīng)過realign的那個(gè)bam里面call出來的突變嵌赠。

vcf只學(xué)七列是遠(yuǎn)遠(yuǎn)不夠的塑荒,我們有必要下功夫把較為復(fù)雜的第8列和第9列的內(nèi)容好好學(xué)習(xí)一下!

image

第8列 INFO 就非常復(fù)雜了姜挺,該列信息最多了齿税,看起來是一列,但是里面可以無限包容炊豪,可以根據(jù)字段拆分成多列凌箕,都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的TAG含義在VCF文件的頭部注釋信息##INFO中已給出词渤。

通常我們熟悉的tag有:

AC牵舱,AF 和,AN[A開頭的多和等位基因有關(guān)]:

AC(Allele Count) 表示該Allele的數(shù)目掖肋;

AF(Allele Frequency) 表示Allele的頻率仆葡; 

AN(Allele Number) 表示Allele的總數(shù)目。

對于1個(gè)diploid sample[二倍體樣本]而言

則基因型 0/1 表示sample為雜合子,Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變)沿盅,Allele的頻率為0.5(雙倍體的 sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變)把篓,總的Allele為2; 基因型 1/1 則表示sample為純合的腰涧,Allele數(shù)為2韧掩,Allele的頻率為1,總的Allele為2窖铡。

DP:reads覆蓋度疗锐。是一些reads被過濾掉后的覆蓋度。[注意费彼,第八列和第九列都有DP滑臊,都表示該位點(diǎn)覆蓋深度的信息,但是詳細(xì)意義可能是不同的大家可以探究一下箍铲,在head里面就可以找到相應(yīng)信息]

Dels:Fraction of Reads Containing Spanning Deletions雇卷。進(jìn)行SNP和INDEL calling的結(jié)果中,有該TAG并且值為0表示該位點(diǎn)為SNV颠猴,沒有則為INDEL关划。[這個(gè)值很重要,可以根據(jù)這個(gè)tag分離indel和snv]

image

如果你覺得call變異的軟件默認(rèn)給出的tag不符合你的要求翘瓮,你可以繼續(xù)用其它軟件在該列里面不停的增加tag贮折,我見過給該列直接添加到180個(gè)tag的,我們后面主要講如何來添加tag资盅。

有了這8列调榄,已經(jīng)是標(biāo)準(zhǔn)的vcf文件了,但是大家肯定會奇怪律姨,還沒有關(guān)于這個(gè)位點(diǎn)的基因型振峻,測序深度的描述的信息。

這就是屬于后面的第9列FORMAT規(guī)定的了择份,如果有多個(gè)樣本扣孟,就會按照第九列的格式不停的增加下去。

第九列可以是GT,DP,FT,GL,PL,GP等等荣赶,都可以在該vcf文件的表頭里面找到關(guān)于它們的解釋凤价。前面所講的 ##FORMAT 表頭部分 便是對第九列的解釋

第九列相對于第八列來說沒有那么復(fù)雜的信息,數(shù)據(jù)格式是比較固定的拔创,其中包含的信息也很重要利诺,主要是某一個(gè)特定位點(diǎn)基因型,測序深度的描述剩燥,因此有必要弄清楚慢逾。

image
image

第9列數(shù)據(jù)立倍,包含兩列內(nèi)容,兩列內(nèi)容是對應(yīng)的侣滩,前者為格式口注,后者為格式對應(yīng)的數(shù)據(jù)。

GT:樣品的基因型(genotype)君珠。兩個(gè)數(shù)字中間用’/"分 開寝志,這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele策添; 1 表示樣品中variant的allele材部; 2表示有第二個(gè)variant的allele。因此: 0/0 表示sample中該位點(diǎn)為純合的唯竹,和ref一致乐导; 0/1 表示sample中該位點(diǎn)為雜合的,有ref和variant兩個(gè)基因型摩窃; 1/1 表示sample中該位點(diǎn)為純合的兽叮,和variant一致。

AD 和 DP:AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個(gè)值猾愿,前者對應(yīng)ref基因型,后者對應(yīng)variant基因型账阻; DP(Depth)為sample中該位點(diǎn)的覆蓋度蒂秘。

GQ:基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值淘太,表示在該位點(diǎn)該基因型存在的可能性姻僧;該值越高,則Genotype的可能性越 大蒲牧;計(jì)算方法:Phred值 = -10 * log (1-p) p為基因型存在的概率撇贺。

PL:指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1)冰抢,這三種基因型的概率總和為1松嘶。和之前不一致,該值越大挎扰,表明為該種基因型的可能 性越小翠订。 Phred值 = -10 * log (p) p為基因型存在的概率。

最需要理解的就是DP4和GT了:

image

第十列的話就是樣本的信息 可以在比對的時(shí)候使用@RG來做一個(gè)標(biāo)記

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末遵倦,一起剝皮案震驚了整個(gè)濱河市尽超,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌梧躺,老刑警劉巖似谁,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡巩踏,警方通過查閱死者的電腦和手機(jī)斜筐,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛀缝,“玉大人顷链,你說我怎么就攤上這事∏海” “怎么了嗤练?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長在讶。 經(jīng)常有香客問我煞抬,道長,這世上最難降的妖魔是什么构哺? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任革答,我火速辦了婚禮,結(jié)果婚禮上曙强,老公的妹妹穿的比我還像新娘残拐。我一直安慰自己,他們只是感情好碟嘴,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布溪食。 她就那樣靜靜地躺著,像睡著了一般娜扇。 火紅的嫁衣襯著肌膚如雪错沃。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天雀瓢,我揣著相機(jī)與錄音枢析,去河邊找鬼。 笑死刃麸,一個(gè)胖子當(dāng)著我的面吹牛醒叁,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播嫌蚤,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼辐益,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了脱吱?” 一聲冷哼從身側(cè)響起智政,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎箱蝠,沒想到半個(gè)月后续捂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體垦垂,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年牙瓢,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了劫拗。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡矾克,死狀恐怖页慷,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情胁附,我是刑警寧澤酒繁,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布,位于F島的核電站控妻,受9級特大地震影響州袒,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜弓候,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一郎哭、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧菇存,春花似錦夸研、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至毕籽,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間井辆,已是汗流浹背关筒。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留杯缺,地道東北人蒸播。 一個(gè)月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像萍肆,于是被迫代替她去往敵國和親袍榆。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容

  • 部分摘自# VincentLuo91的博客 Part 1 VCF格式的學(xué)習(xí) 1.什么是vcf塘揣?VCF是用于描述SN...
    天秤座的機(jī)器狗閱讀 24,949評論 3 55
  • 劉小澤寫于18.12.31再次知識迭代:打算以上中下三篇來認(rèn)識一個(gè)新事物上篇:主要了解VCF的背景知識包雀;一般我們會...
    劉小澤閱讀 10,110評論 2 37
  • 劉小澤寫于18.7.17所有的數(shù)據(jù),一旦要找變異位點(diǎn)信息亲铡,就離不開VCF才写。豆豆也是在寫一個(gè)重測序的操作流程葡兑,遇到了...
    劉小澤閱讀 33,238評論 2 73
  • 1)VCF格式簡介 VCF格式:Variant Call Format,是用于表示SNP, indel, 和 st...
    oddxix閱讀 11,156評論 0 6
  • 桂林市靈川縣東源村委老塞村赞草,這是我3月25日前行的目的地讹堤,此行的目的是為了一篇文章,在前往這個(gè)目的地之前厨疙,我有些猶...
    一個(gè)蓮子閱讀 324評論 0 4