從reads到SNP-GATK流程(待續(xù))

獲得高質(zhì)量的SNP是進(jìn)行GWAS分析经柴,群體遺傳學(xué)分析的前提捉邢。GATK是比較流行的call snp方法播急。另外還有samtools和bcftools結(jié)合的方法再沧。實(shí)際的項(xiàng)目開(kāi)展根據(jù)需要而進(jìn)行庇配。

本篇的數(shù)據(jù)來(lái)源于2014年的一篇關(guān)于桃的重測(cè)序文章斩跌,直達(dá)連接
https://www.nature.com/articles/ncomms13246

這是文章中給與的call snp方法


image.png

方法上是將GATK和samtools+bcftools,這兩種策略結(jié)合在一起進(jìn)行捞慌。

那么耀鸦,總結(jié)一些文章的策略:
1,BWA比對(duì)到參考基因組啸澡,得到bam文件(這個(gè)當(dāng)然需要排序和去除PCR重復(fù)袖订,文章沒(méi)說(shuō));
2嗅虏,使用GATK進(jìn)行局部區(qū)域重比對(duì):重比對(duì)的過(guò)程分為兩步:
第一步洛姑,RealignerTargetCreator ,定位出所有需要進(jìn)行序列重比對(duì)的目標(biāo)區(qū)域皮服;
第二步楞艾,IndelRealigner,對(duì)所有在第一步中找到的目標(biāo)區(qū)域運(yùn)用算法進(jìn)行序列重比對(duì)龄广,最后得到新的重比對(duì)bam文件硫眯。
3, 用2中獲得的重比對(duì)的bam文件進(jìn)行GATK和samtools兩種方法進(jìn)行call SNP
文章中使用的GATK 2.4版本。

2019年的文章的方法


image.png

1择同,BWA比對(duì)到參考基因組两入,得到bam文件(這個(gè)當(dāng)然需要排序和去除PCR重復(fù),文章沒(méi)說(shuō))奠衔;再用samtools去除quality <20的谆刨。
2塘娶,使用GATK進(jìn)行局部區(qū)域重比對(duì):重比對(duì)的過(guò)程分為兩步:
第一步,RealignerTargetCreator 痊夭,定位出所有需要進(jìn)行序列重比對(duì)的目標(biāo)區(qū)域刁岸;
第二步,IndelRealigner她我,對(duì)所有在第一步中找到的目標(biāo)區(qū)域運(yùn)用算法進(jìn)行序列重比對(duì)虹曙,最后得到新的重比對(duì)bam文件。
3,使用PrintReads 做SNP檢測(cè)
4番舆,使用HaplotypeCaller做call snp
為得到高質(zhì)量的SNP值酝碳,設(shè)置一下參數(shù):
-stand_call_conf 30 -stand_emit_conf 40.
5,硬過(guò)濾
QUAL <?40, QD <?2.0, FS >?60.0, MQ <?40.0, MQRankSum <???12.5, ReadPosRankSum <???8.0
6恨狈,To further reduce false positives, the SNP number per 10?bp was limited to three using the following settings: --clusterWindowSize 10, --clusterSize 3.
有些地方不是太明白疏哗。不過(guò)這個(gè)方法和2014年的文章基本差不多

關(guān)于-stand_call_conf 、-stand_emit_conf禾怠, 這兩個(gè)參數(shù)
-stand_emit_conf:在變異檢測(cè)過(guò)程中返奉,所容許的最小質(zhì)量值。只有大于等于這個(gè)設(shè)定值的變異位點(diǎn)會(huì)被輸出到結(jié)果中吗氏。
-stand_call_conf:在變異檢測(cè)過(guò)程中芽偏,用于區(qū)分低質(zhì)量變異位點(diǎn)和高質(zhì)量變異位點(diǎn)的閾值。只有質(zhì)量值高于這個(gè)閾值的位點(diǎn)才會(huì)被視為高質(zhì)量的弦讽。低于這個(gè)質(zhì)量值的變異位點(diǎn)會(huì)在輸出結(jié)果中標(biāo)注LowQual污尉。在千人基因組計(jì)劃第二階段的變異檢測(cè)時(shí),利用35x的數(shù)據(jù)進(jìn)行snp calling的時(shí)候往产,當(dāng)設(shè)置成50時(shí)被碗,有大概10%的假陽(yáng)性。
參考;https://www.plob.org/article/7023.html

SNP calling的閾值簡(jiǎn)化為1個(gè)捂齐。
3.7以前使用兩個(gè):-stand_call_conf 蛮放、-stand_emit_conf缩抡,
3.7中去掉了-stand_emit_conf奠宜,同時(shí)把-stand_call_conf的默認(rèn)值由30將為10。
參考:https://zhuanlan.zhihu.com/p/26262338

我又搜到了一篇GATK的流程:https://gencore.bio.nyu.edu/variant-calling-pipeline/瞻想。我們使用這個(gè)流程重復(fù)一下文章的一個(gè)數(shù)據(jù)压真。

在GATK中有一步是進(jìn)行BQSR。人類是有已知的變異位點(diǎn)信息蘑险,可以直接下載來(lái)用滴肿。但是非人類物種很多是沒(méi)有這些位點(diǎn)信息的。GATK原本就是為了人類數(shù)據(jù)設(shè)計(jì)的佃迄。但是泼差,這套流程針對(duì)的是非人類數(shù)據(jù)贵少。采用的策略是在call snp后,進(jìn)行過(guò)濾堆缘,得到高質(zhì)量的SNP滔灶,然后利用這個(gè)過(guò)濾的SNP進(jìn)行BQSR部分的操作。流程給的代碼非常清楚吼肥,先占個(gè)坑录平,這幾天實(shí)踐一下。下面詳細(xì)操作一下缀皱。

Overview of the pipeline


image.png
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末斗这,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子啤斗,更是在濱河造成了極大的恐慌表箭,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钮莲,死亡現(xiàn)場(chǎng)離奇詭異燃逻,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)臂痕,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門伯襟,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人握童,你說(shuō)我怎么就攤上這事姆怪。” “怎么了澡绩?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵稽揭,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我肥卡,道長(zhǎng)溪掀,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任步鉴,我火速辦了婚禮揪胃,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘氛琢。我一直安慰自己喊递,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布阳似。 她就那樣靜靜地躺著骚勘,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上俏讹,一...
    開(kāi)封第一講書(shū)人閱讀 49,007評(píng)論 1 284
  • 那天当宴,我揣著相機(jī)與錄音,去河邊找鬼泽疆。 笑死即供,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的于微。 我是一名探鬼主播逗嫡,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼株依!你這毒婦竟也來(lái)了驱证?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤恋腕,失蹤者是張志新(化名)和其女友劉穎抹锄,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體荠藤,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡伙单,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了哈肖。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吻育。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖淤井,靈堂內(nèi)的尸體忽然破棺而出布疼,到底是詐尸還是另有隱情,我是刑警寧澤币狠,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布游两,位于F島的核電站,受9級(jí)特大地震影響漩绵,放射性物質(zhì)發(fā)生泄漏贱案。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一止吐、第九天 我趴在偏房一處隱蔽的房頂上張望宝踪。 院中可真熱鬧,春花似錦祟印、人聲如沸肴沫。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至悲幅,卻和暖如春套鹅,著一層夾襖步出監(jiān)牢的瞬間站蝠,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工卓鹿, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留菱魔,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓吟孙,卻偏偏與公主長(zhǎng)得像澜倦,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子杰妓,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345