GATK官網(wǎng)學(xué)習(xí)筆記Data pre-processing for variant discovery

這篇筆記是對(duì)GATK官網(wǎng)上發(fā)布的尋找突變體之前的數(shù)據(jù)預(yù)處理這一塊內(nèi)容的學(xué)習(xí)筆記植袍。實(shí)際上也是一篇翻譯筆記。原文在這里碉熄,是發(fā)表在20多天前的,是一個(gè)很短小的文章:https://gatk.broadinstitute.org/hc/en-us/articles/360035535912-Data-pre-processing-for-variant-discovery

Purpose

這是在尋找突變體之前必須做的第一階段年叮。它包括對(duì)原始序列數(shù)據(jù)(以FASTQ或uBAM格式)進(jìn)行預(yù)處理具被,生成可分析的BAM文件。這包括對(duì)參考基因組的比對(duì)以及一些數(shù)據(jù)清理操作只损,以糾正技術(shù)偏差一姿,使數(shù)據(jù)更適合后續(xù)分析。

一般流程是:

Expected input

上面這個(gè)工作流程是針對(duì)單個(gè)樣本進(jìn)行操作的跃惫,這些樣本的數(shù)據(jù)最初被組織在不同subset中叮叹,稱為read group(關(guān)于read group里都包含哪些信息,可以參考文章:WES中常見(jiàn)問(wèn)題匯總)爆存。這些read group對(duì)應(yīng)于由多重化產(chǎn)生的庫(kù)的交集(DNA產(chǎn)物從生物樣本分離出來(lái)蛉顽,準(zhǔn)備測(cè)序,其中包括DNA片段和用于標(biāo)記的barcodes)和lane(DNA測(cè)序芯片的物理分隔)先较。我們的reference implementations 讀取未映射的BAM (uBAM)格式數(shù)據(jù)作為輸入携冤。轉(zhuǎn)換程序可用于從FASTQ轉(zhuǎn)換到uBAM。

Main steps

數(shù)據(jù)預(yù)處理的過(guò)程可以概括為:首先將序列reads比對(duì)到參考基因組闲勺,生成一個(gè)按坐標(biāo)排序的SAM/BAM文件曾棕。接下來(lái),我們標(biāo)記重復(fù)菜循,以減少數(shù)據(jù)生成步驟(如PCR擴(kuò)增)帶來(lái)的偏差翘地。最后,我們重新校準(zhǔn)基礎(chǔ)質(zhì)量分?jǐn)?shù)癌幕,因?yàn)椴煌腸alling算法高度依賴分配給每個(gè)序列read中單獨(dú)的基礎(chǔ)calls的質(zhì)量分?jǐn)?shù)衙耕。

(1)Map to Reference

涉及到的軟件:BWA, MergeBamAlignments

第一個(gè)處理步驟是按每一個(gè)read group進(jìn)行處理,包括將每對(duì)read比對(duì)到參考基因組上勺远。因?yàn)楸葘?duì)算法是單獨(dú)處理每對(duì)read的橙喘,所以可以進(jìn)行大規(guī)模并行處理。

(2)Mark Duplicates

涉及軟件:MarkDuplicatesSpark / MarkDuplicates + SortSam

MarkDuplicatesSpark:
第二個(gè)處理步驟是對(duì)每個(gè)樣本進(jìn)行操作胶逢,包括通過(guò)一些人工操作厅瞎,識(shí)別可能來(lái)自相同原始DNA片段的重復(fù)的reads對(duì)。這些被認(rèn)為是非獨(dú)立的觀察宪塔,因此軟件在每組重復(fù)中標(biāo)記除了單個(gè)read對(duì)之外的所有read對(duì)。在這一步里囊拜,還需要按照染色體順序?qū)eads進(jìn)行排序某筐,以便進(jìn)行下一步的處理。MarkDuplicatesSpark用來(lái)重復(fù)標(biāo)記和排序冠跷。這一步曾經(jīng)是一個(gè)技術(shù)瓶頸南誊,因?yàn)樵跇颖局衦ead對(duì)之間進(jìn)行大量比較身诺,之后MarkDuplicatesSpark利用Apache Spark來(lái)并行化進(jìn)程,從而更好地利用可用資源抄囚。即使不訪問(wèn)專用的Spark集群霉赡,也可以在本地運(yùn)行此工具。

MarkDuplicates and SortSam:
作為MarkDuplicatesSpark的替代方案幔托,可以通過(guò)使用Picard軟件里的MarkDuplicates實(shí)現(xiàn)來(lái)執(zhí)行這個(gè)步驟穴亏,然后使用SortSam對(duì)read進(jìn)行排序。這兩個(gè)工具目前都是作為單線程工具實(shí)現(xiàn)的重挑,因此無(wú)法利用core并行性的優(yōu)點(diǎn)嗓化。建議在服務(wù)器上運(yùn)行。

(3)Base (Quality Score) Recalibration

涉及軟件: BaseRecalibrator, Apply Recalibration, AnalyzeCovariates (optional)

第三個(gè)處理步驟對(duì)每個(gè)樣本進(jìn)行操作谬哀,包括應(yīng)用機(jī)器學(xué)習(xí)來(lái)檢測(cè)和糾正base質(zhì)量分?jǐn)?shù)中的系統(tǒng)錯(cuò)誤刺覆。在發(fā)現(xiàn)突變體的過(guò)程中,base質(zhì)量分?jǐn)?shù)在權(quán)衡支持或反對(duì)可能的等位基因變異體方面起著重要作用史煎,因此糾正數(shù)據(jù)中觀察到的任何系統(tǒng)性偏差非常重要谦屑。偏差可能來(lái)源于文庫(kù)的準(zhǔn)備和測(cè)序過(guò)程、芯片的制造缺陷篇梭,或測(cè)序器的儀器缺陷氢橙。重新校準(zhǔn)(recalibration)過(guò)程包括從數(shù)據(jù)集中的所有base calls中收集協(xié)變量測(cè)定,根據(jù)這些統(tǒng)計(jì)數(shù)據(jù)構(gòu)建一個(gè)模型很洋,并基于產(chǎn)生的模型對(duì)數(shù)據(jù)集中應(yīng)用于base質(zhì)量調(diào)整充蓝。最初的統(tǒng)計(jì)數(shù)據(jù)收集可以通過(guò)分散到整個(gè)基因組坐標(biāo)進(jìn)行并行化,通常是通過(guò)染色體或染色體批次進(jìn)行并行化喉磁。然后每個(gè)區(qū)域的統(tǒng)計(jì)數(shù)據(jù)必須被收集到一個(gè)單一的基因組范圍的共變異模型里谓苟;這步不能被并行化,但它在計(jì)算上很簡(jiǎn)單协怒,因此不會(huì)成為瓶頸涝焙。最后,從模型中獲得的重新校準(zhǔn)規(guī)則應(yīng)用于原始數(shù)據(jù)集孕暇,以產(chǎn)生一個(gè)重新校準(zhǔn)的數(shù)據(jù)集仑撞。這與初始統(tǒng)計(jì)數(shù)據(jù)收集的方式相同,在基因組區(qū)域上進(jìn)行并行處理妖滔,然后執(zhí)行最后的文件合并操作隧哮,為每個(gè)樣本生成一個(gè)準(zhǔn)備好后續(xù)分析的文件。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
禁止轉(zhuǎn)載座舍,如需轉(zhuǎn)載請(qǐng)通過(guò)簡(jiǎn)信或評(píng)論聯(lián)系作者沮翔。
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市曲秉,隨后出現(xiàn)的幾起案子采蚀,更是在濱河造成了極大的恐慌疲牵,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件榆鼠,死亡現(xiàn)場(chǎng)離奇詭異纲爸,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)妆够,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門识啦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人责静,你說(shuō)我怎么就攤上這事袁滥。” “怎么了灾螃?”我有些...
    開(kāi)封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵题翻,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我腰鬼,道長(zhǎng)嵌赠,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任熄赡,我火速辦了婚禮姜挺,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘彼硫。我一直安慰自己炊豪,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布拧篮。 她就那樣靜靜地躺著词渤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪串绩。 梳的紋絲不亂的頭發(fā)上缺虐,一...
    開(kāi)封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天,我揣著相機(jī)與錄音礁凡,去河邊找鬼高氮。 笑死,一個(gè)胖子當(dāng)著我的面吹牛顷牌,可吹牛的內(nèi)容都是我干的剪芍。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼窟蓝,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼罪裹!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤坊谁,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后滑臊,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體口芍,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年雇卷,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了鬓椭。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡关划,死狀恐怖小染,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情贮折,我是刑警寧澤裤翩,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站调榄,受9級(jí)特大地震影響踊赠,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜每庆,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一筐带、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧缤灵,春花似錦伦籍、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至利诺,卻和暖如春富蓄,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背慢逾。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工立倍, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人侣滩。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓口注,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親君珠。 傳聞我的和親對(duì)象是個(gè)殘疾皇子寝志,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345