突變需要學(xué)習(xí)的知識點(diǎn)

學(xué)習(xí)Jimmy直播我的基因組系列

SNV（經(jīng)常會被混著SNP來稱呼蘑斧，我們先不糾結(jié)這個(gè)細(xì)節(jié)）

通常一個(gè)人的全基因組測序數(shù)據(jù)可以挖掘到四百萬個(gè)SNVs(跟參考基因組不一樣的單堿基位點(diǎn))，還有五十萬的indels(insertions or deletions),但是得到的數(shù)據(jù)通常是以vcf文件格式給出的(自行搜索什么是vcf格式)，比如下面：

2.首先記住一個(gè)很重要的知識點(diǎn)，變異是相對的！變異不等于突變填具。簡單說一下什么是找變異，變異跟突變有什么區(qū)別呢堂飞？舉個(gè)栗子：有國際組織規(guī)定了人類的參考基因組（如UCSC,ENSEMBL,NCBI等灌旧，前面帖子都有講)绑咱，就是 AAAAA(這里簡化一下绰筛，就5個(gè)堿基枢泰，其實(shí)人類基因組多達(dá)30億個(gè)) 。現(xiàn)在通過給自己測序得知铝噩，我與之對應(yīng)的是AGCAA衡蚂，那么我相比國際基因組來說，就是2個(gè)變異位點(diǎn)骏庸，位于基因組的坐標(biāo)2和3毛甲，但是它們還不能說就是突變。

如第二位堿基具被，雖然我的是G玻募，參考基因組是A，但是全球已經(jīng)測序了幾百萬人一姿，而我查看了他們的測序結(jié)果七咧，其中99萬人都是G，這說明是參考基因組出現(xiàn)了問題叮叹，可能是國際組織當(dāng)年恰好選擇了一個(gè)人是A艾栋，所以就規(guī)定第二個(gè)堿基是A。所以雖然我用軟件找到了我的這個(gè)位點(diǎn)相對于參考基因組是來說蛉顽，是一個(gè)變異蝗砾，但是這恰好是好事，完全不用擔(dān)心携冤，我們也不需要用突變這個(gè)單詞來描述它悼粮！

那么接下來看第3位堿基，同樣曾棕，國際組織規(guī)定了是A扣猫，而我卻測了個(gè)C，但是全球已經(jīng)公布的一百萬人里面99.999萬人都跟參考一樣睁蕾，就是A苞笨。有一個(gè)人和參考基因組對應(yīng)的堿基不一樣，不一樣的那個(gè)人是個(gè)有病的患者子眶，這個(gè)時(shí)候瀑凝，你就慘了，這個(gè)變異臭杰，就是突變了粤咪！

很多變異其實(shí)只是造成人種多樣性的原因嫂用，是構(gòu)成人獨(dú)特性的基礎(chǔ)劝术，`而那些跟疾病相關(guān)的變異墓陈，我們通常就會叫做是突變`混坞！

因我只舉了2個(gè)極端的例子，所以大家可能會誤以為囊拜，跟大多數(shù)人一樣某筐，就沒事了！其實(shí)也并不是這樣冠跷，一般來說南誊，在正常人的數(shù)據(jù)庫里面出現(xiàn)了5%的變異就可以認(rèn)為沒什么大的危害，而且變異還可以分成germline蜜托、somatic抄囚、de novo等情況，如果是特定性的針對某種疾病還可以找driver的mutation.

vcf就是一個(gè)尤為重要的基本數(shù)據(jù)格式橄务，里面描述的是變異位點(diǎn)的信息幔托，是一個(gè)表格形式，不同的表頭下面有著不同的信息蜂挪。VCF格式本來由千人基因組計(jì)劃提出來重挑，方便描述他們找到的海量(當(dāng)時(shí)是海量)變異位點(diǎn)。本質(zhì)上也是個(gè)文本文件而已锅劝，普通編輯器打開即可攒驰。但是它對每一行每一列有具體的定義，包括文件最前面一些#開頭的注釋信息(這個(gè)非常重要故爵，后面每一個(gè)位點(diǎn)的描述的tag都在這個(gè)注釋信息里面可以找到)

4.vcf文件的正文部分

vcf的正文部分玻粪，必須要有的是前面8列，一般來說可以有10列诬垂，分別是：

-1. #CHROM

POS
ID
REF（參考序列的堿基）
ALT（Variant的堿基）
QUAL
FILTER [來自于##FILTER]
INFO
FORMAT
可能會有樣本的名稱本

CHROM 和 POS：參考序列名和variant的位置劲室；如果是INDEL的話，位置是INDEL的第一個(gè)堿基位置结窘。

ID：variant的ID很洋。比如在dbSNP中有該SNP的id，則會在此行給出隧枫；若沒有喉磁，則用’."表示其為一個(gè)novel variant。

REF 和 ALT：參考序列的堿基和 Variant的堿基官脓。

QUAL：Phred格式(Phred_scaled)的質(zhì)量值协怒，表示在該位點(diǎn)存在variant的可能性；該值越高卑笨，則variant的可能性越大孕暇；計(jì)算方法：Phred值 = -10 * log (1-p) p為variant存在的概率; 通過計(jì)算公式可以看出值為10的表示錯(cuò)誤概率為0.1，該位點(diǎn)為variant的概率為90%。

FILTER：使用上一個(gè)QUAL值來進(jìn)行過濾的話妖滔，是不夠的隧哮。GATK能使用其它的方法來進(jìn)行過濾，過濾結(jié)果中通過則該值為”PASS”;若variant不可靠座舍，則該項(xiàng)不為”PASS”或”.”沮翔。

INFO：這一行是variant的詳細(xì)信息，內(nèi)容很多簸州，以下再具體詳述鉴竭。

FORMAT 和 TTG11B：這兩行合起來提供了’TTG11B′這個(gè)sample的基因型的信息歧譬“痘耄’TTG11B′代表這該名稱的樣品，是由BAM文件中的@RG下的 SM 標(biāo)簽決定的瑰步。

image

前面7列都很簡單矢洲，顧名思義，分別就是該變異位點(diǎn)位于參考基因組的哪條染色體缩焦，哪個(gè)位置读虏，是否被一下數(shù)據(jù)庫給標(biāo)記了ID(通常說的是dbSNP)，該位置的參考基因組是什么堿基袁滥，這個(gè)變異位點(diǎn)變異成了什么堿基盖桥。找到這個(gè)變異的軟件給它的質(zhì)量值是多少，是否合格题翻。下面這個(gè)表格里面我們可以看到第十列就是'realign'揩徊，可以看到比對時(shí)候@RG留下來的sam的樣本名稱，就可以知道這個(gè)vcf是經(jīng)過realign的那個(gè)bam里面call出來的突變嵌赠。

vcf只學(xué)七列是遠(yuǎn)遠(yuǎn)不夠的塑荒，我們有必要下功夫把較為復(fù)雜的第8列和第9列的內(nèi)容好好學(xué)習(xí)一下！

image

第8列 INFO 就非常復(fù)雜了姜挺，該列信息最多了齿税，看起來是一列，但是里面可以無限包容炊豪，可以根據(jù)字段拆分成多列凌箕，都是以 “TAG=Value”,并使用”;”分隔的形式。其中很多的TAG含義在VCF文件的頭部注釋信息##INFO中已給出词渤。

通常我們熟悉的tag有：

AC牵舱，AF 和，AN[A開頭的多和等位基因有關(guān)]：

AC(Allele Count) 表示該Allele的數(shù)目掖肋；

AF(Allele Frequency) 表示Allele的頻率仆葡； 

AN(Allele Number) 表示Allele的總數(shù)目。

對于1個(gè)diploid sample[二倍體樣本]而言

則基因型 0/1 表示sample為雜合子，Allele數(shù)為1(雙倍體的sample在該位點(diǎn)只有1個(gè)等位基因發(fā)生了突變)沿盅，Allele的頻率為0.5(雙倍體的 sample在該位點(diǎn)只有50%的等位基因發(fā)生了突變)把篓，總的Allele為2；基因型 1/1 則表示sample為純合的腰涧，Allele數(shù)為2韧掩，Allele的頻率為1，總的Allele為2窖铡。

DP：reads覆蓋度疗锐。是一些reads被過濾掉后的覆蓋度。[注意费彼，第八列和第九列都有DP滑臊，都表示該位點(diǎn)覆蓋深度的信息，但是詳細(xì)意義可能是不同的大家可以探究一下箍铲，在head里面就可以找到相應(yīng)信息]

Dels：Fraction of Reads Containing Spanning Deletions雇卷。進(jìn)行SNP和INDEL calling的結(jié)果中，有該TAG并且值為0表示該位點(diǎn)為SNV颠猴，沒有則為INDEL关划。[這個(gè)值很重要，可以根據(jù)這個(gè)tag分離indel和snv]

image

如果你覺得call變異的軟件默認(rèn)給出的tag不符合你的要求翘瓮，你可以繼續(xù)用其它軟件在該列里面不停的增加tag贮折，我見過給該列直接添加到180個(gè)tag的，我們后面主要講如何來添加tag资盅。

有了這8列调榄，已經(jīng)是標(biāo)準(zhǔn)的vcf文件了，但是大家肯定會奇怪律姨，還沒有關(guān)于這個(gè)位點(diǎn)的基因型振峻，測序深度的描述的信息。

這就是屬于后面的第9列FORMAT規(guī)定的了择份，如果有多個(gè)樣本扣孟，就會按照第九列的格式不停的增加下去。

第九列可以是GT,DP,FT,GL,PL,GP等等荣赶，都可以在該vcf文件的表頭里面找到關(guān)于它們的解釋凤价。前面所講的 ##FORMAT 表頭部分便是對第九列的解釋

第九列相對于第八列來說沒有那么復(fù)雜的信息，數(shù)據(jù)格式是比較固定的拔创，其中包含的信息也很重要利诺，主要是某一個(gè)特定位點(diǎn)基因型，測序深度的描述剩燥，因此有必要弄清楚慢逾。

image

第9列數(shù)據(jù)立倍，包含兩列內(nèi)容，兩列內(nèi)容是對應(yīng)的侣滩，前者為格式口注，后者為格式對應(yīng)的數(shù)據(jù)。

GT：樣品的基因型（genotype）君珠。兩個(gè)數(shù)字中間用’/"分開寝志，這兩個(gè)數(shù)字表示雙倍體的sample的基因型。0 表示樣品中有ref的allele策添； 1 表示樣品中variant的allele材部； 2表示有第二個(gè)variant的allele。因此： 0/0 表示sample中該位點(diǎn)為純合的唯竹，和ref一致乐导； 0/1 表示sample中該位點(diǎn)為雜合的，有ref和variant兩個(gè)基因型摩窃； 1/1 表示sample中該位點(diǎn)為純合的兽叮，和variant一致。

AD 和 DP：AD(Allele Depth)為sample中每一種allele的reads覆蓋度,在diploid中則是用逗號分割的兩個(gè)值猾愿，前者對應(yīng)ref基因型，后者對應(yīng)variant基因型账阻； DP（Depth）為sample中該位點(diǎn)的覆蓋度蒂秘。

GQ：基因型的質(zhì)量值(Genotype Quality)。Phred格式(Phred_scaled)的質(zhì)量值淘太，表示在該位點(diǎn)該基因型存在的可能性姻僧；該值越高，則Genotype的可能性越大蒲牧；計(jì)算方法：Phred值 = -10 * log (1-p) p為基因型存在的概率撇贺。

PL：指定的三種基因型的質(zhì)量值(provieds the likelihoods of the given genotypes)。這三種指定的基因型為(0/0,0/1,1/1)冰抢，這三種基因型的概率總和為1松嘶。和之前不一致，該值越大挎扰，表明為該種基因型的可能性越小翠订。 Phred值 = -10 * log (p) p為基因型存在的概率。

最需要理解的就是DP4和GT了：

image

第十列的話就是樣本的信息可以在比對的時(shí)候使用@RG來做一個(gè)標(biāo)記

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末遵倦，一起剝皮案震驚了整個(gè)濱河市尽超，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌梧躺，老刑警劉巖似谁，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡巩踏，警方通過查閱死者的電腦和手機(jī)斜筐，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來蛀缝，“玉大人顷链，你說我怎么就攤上這事∏海” “怎么了嗤练？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長在讶。經(jīng)常有香客問我煞抬，道長，這世上最難降的妖魔是什么构哺？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任革答，我火速辦了婚禮，結(jié)果婚禮上曙强，老公的妹妹穿的比我還像新娘残拐。我一直安慰自己，他們只是感情好碟嘴，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布溪食。她就那樣靜靜地躺著，像睡著了一般娜扇。火紅的嫁衣襯著肌膚如雪错沃。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天雀瓢，我揣著相機(jī)與錄音枢析，去河邊找鬼。笑死刃麸，一個(gè)胖子當(dāng)著我的面吹牛醒叁，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播嫌蚤，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼辐益，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了脱吱？” 一聲冷哼從身側(cè)響起智政，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎箱蝠，沒想到半個(gè)月后续捂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體垦垂，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年牙瓢，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了劫拗。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,690評論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡矾克，死狀恐怖页慷，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情胁附，我是刑警寧澤酒繁，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站控妻，受9級特大地震影響州袒，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜弓候，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一郎哭、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧菇存，春花似錦夸研、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案陈惰，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至毕籽，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間井辆，已是汗流浹背关筒。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留杯缺，地道東北人蒸播。一個(gè)月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長得像萍肆，于是被迫代替她去往敵國和親袍榆。傳聞我的和親對象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評論 2贊 353

突變需要學(xué)習(xí)的知識點(diǎn)

學(xué)習(xí)Jimmy直播我的基因組系列

很多變異其實(shí)只是造成人種多樣性的原因嫂用，是構(gòu)成人獨(dú)特性的基礎(chǔ)劝术，而那些跟疾病相關(guān)的變異墓陈，我們通常就會叫做是突變混坞！

推薦閱讀更多精彩內(nèi)容

很多變異其實(shí)只是造成人種多樣性的原因嫂用，是構(gòu)成人獨(dú)特性的基礎(chǔ)劝术，`而那些跟疾病相關(guān)的變異墓陈，我們通常就會叫做是突變`混坞！