作者:陳美佳
一袍祖、問題描述
基因型數(shù)據(jù)的缺失分為遺傳性缺失和檢測性缺失:
1久免、遺傳性缺失:個體遺傳信息的變異(例如浅辙,這個位點DNA片段真實缺失)導致的基因型缺失。
2阎姥、檢測性缺失:由于檢測技術的局限记舆、錯誤等導致的信息丟失。各類基因型檢測技術都會產(chǎn)生檢測性的基因型缺失呼巴。低深度全基因組重測序(一般平均深度低于10X)泽腮,不可避免會產(chǎn)生大量隨機缺失。
重測序概念:全基因組重測序指在已知某物種基因組序列的基礎上衣赶, 對該物種不同個體的整個基因組序列進行測序诊赊, 差異性分析個體或群體,可以找到大量的變異位點府瞄。
二碧磅、為什么要進行基因型填充
1、有些軟件分析過程中不允許有缺失值遵馆。
2鲸郊、高密度基因分型(或測序)是昂貴的,填充基因型數(shù)據(jù)可以比基因分型便宜得多货邓。增加標記密度秆撮,節(jié)省成本。
三换况、基因型填充的原理
基因型填充基于血統(tǒng)的同一性(IBD)职辨。如果兩個或兩個以上子代的等位基因序列遺傳同一祖先等位基因,并未發(fā)生重組复隆,兩個子代具有相同的等位基因序列拨匆,這就是血統(tǒng)同一性姆涩。因此具有已知親緣關系的個體之間具有共享的單倍型挽拂,單倍型隨祖先一起遺傳,反映連鎖不平衡骨饿。
連鎖不平衡區(qū)塊的存在就意味著我們可以通過構建相關的數(shù)學模型亏栈,來把這樣的連鎖關系求解出來台腥。通過構建基于隱馬爾可夫模型(HMM)等的Phasing算法就可以依據(jù)測序數(shù)據(jù),反推出每個個體最有可能的單倍型绒北。定相(Phasing)后形成的單倍型參考序列集(Reference panel)是基因型填充必須的數(shù)據(jù)材料黎侈。
參考群體完整的基因型信息可以提供單倍型信息,通過對比待填充樣本和參考模板闷游,找到兩者之間共有的單倍型峻汉,然后就可以將匹配上的參考模板中的位點復制到待填充樣本中。
相關概念:
1.連鎖不平衡:兩個等位基因如果恰好在同一條染色體上脐往,那么它們在遺傳給子代的時候就不是隨機分配的了休吠,基本上在一起傳遞,我們就稱兩個基因是存在連鎖關系的业簿,基因在遺傳時出現(xiàn)連鎖的現(xiàn)象就叫做連鎖不平衡瘤礁。
2.單倍型:單倍體基因型的簡稱,指同一染色體上若干個決定同一性狀的緊密連鎖的基因構成的基因型梅尤,單倍型可以指至少兩個基因座或整個染色體柜思。
3.定相:現(xiàn)在流行的NGS測序技術,都是把序列打亂混在一起測序的巷燥,測完之后赡盘,我們是無法直接區(qū)分這些序列中哪一個是父源,哪一個是母源的缰揪。我們通常都只是檢測出基因組上有哪些變異亡脑,以及這些變異的堿基組成(純合、雜合)邀跃,也就是平時所說的基因型(Genotype)霉咨。只有經(jīng)過定相茄厘,才能夠?qū)崿F(xiàn)這個區(qū)分秀鞭。
四汉矿、基因型填充的步驟
1脚牍、從參考模板非缺失的位點中唠亚,總結(jié)這個區(qū)域的基因型規(guī)律想际,并分類悍募。其實就是分析各個區(qū)域的單倍型組成茧彤;
2蒜茴、根據(jù)某樣本缺失位點的上下其他非缺失位點星爪,判斷這個區(qū)域?qū)儆谀姆N單倍型。然后根據(jù)所屬單倍型的基因型補充該樣本的缺失位點粉私;
例如:根據(jù)缺失樣本有限的基因型信息(僅有3個位點)顽腾,就可以判斷這個樣本與參考單倍型集中的哪種單倍型最為相似。然后,將對應的最相似的單倍型賦予給該樣本抄肖,從而讓該樣本獲得完整的基因型久信。
五、兩種基本的填充場景
1漓摩、從一個高密度的基因型參考面板到一個標記密度較低的實驗群體的填充
這種方法依賴于這樣一種假設裙士,即參考群體準確地代表了要填充個體的單倍型群體頻率,因此待填充個體應該從與參考基因型集相同的群體中取樣管毙。我們使用模擬數(shù)據(jù)對500個個體在兩個常染色體上的SNPs進行研究腿椎。應該注意的是,在這個例子中夭咬,我們模擬了連鎖不平衡相對較低的標記(標記間的平均r2=0.05)酥诽。這是有效種群規(guī)模較大的種群的典型情況。
r2表示連鎖不平衡的程度皱埠,當r2=1肮帐,表示連鎖完全不平衡,沒有重組边器;當r2=0训枢,表示連鎖完全平衡,隨機組合忘巧。
我們對數(shù)據(jù)進行分割恒界,以創(chuàng)建兩個個集合。
(1)第一個集合包含一個由100個個體組成的簡化面板砚嘴,我們對其進行填充十酣。對于這些個體,每五個標記保留一個標記的信息际长,其余標記刪除耸采。
(2)剩下的400個個體被放在一個參考集中,在這個參考集中所有的標記都是基因分型的工育。
請注意虾宇,兩個文件中的個體樣本(列)不同。參考面板具有400個個體如绸,目標樣本有100個個體嘱朽,兩者個體名稱不重疊。還要注意怔接,參考面板的標記(行)比填充集多得多搪泳;文件之間紅色的標記是相同的。參考數(shù)據(jù)集中有但在目標集中沒有的標記將被填充并在輸出文件中輸出扼脐。
待填充的目標文件:
參考文件:
現(xiàn)在我們已經(jīng)為Beagle創(chuàng)建了正確的輸入文件岸军,我們需要安裝并運行該軟件。
首先,用戶應該安裝beagle程序文件(帶有.jar擴展名的)凛膏。來自這個網(wǎng)站:
https://faculty.washington.edu/browning/beagle/·beagle.html杨名。
beagle程序文件使用java運行,要運行Beagle脏榆,請在命令提示符下輸入以下命令:
其中[GB]是內(nèi)存池的上限猖毫,單位為千兆字節(jié)(例如Xmx50g),[arguments]是參數(shù)须喂。
.jar文件這是對程序本身的調(diào)用吁断。兩個主要參數(shù):gt:待填充個體的低密度基因型文件和ref:用于指導填充的參考面板基因型文件。impute=TRUE坞生,告訴Beagle執(zhí)行填充仔役,默認為TRUE。out參數(shù):指定輸出文件的前綴是己。
為了將實際基因型與填充的基因型進行比較又兵,我們只需從填充的基因型中減去原始值,對于任何不同于0的值(如果填充值是正確的卒废,則結(jié)果為0)沛厨,我們將值指定為1。然后摔认,我們獲得錯誤率逆皮,即每行錯誤的平均比例。
在本例子中(100個個體参袱、4000個位點被填充)电谣,我們獲得了大約0.67的精確度。錯誤率包括正確但定相錯誤的雜合子 (例如抹蚀,0|1而不是1|0)剿牺。忽略定相的準確性,在這種情況下环壤,精度提高到約0.70牢贸。填充精度將取決于參考群體中的個體數(shù)量、要填充的標記數(shù)量镐捧、它們在基因組中的分布潜索、它們的等位基因頻率以及樣本的整體LD結(jié)構。如前所述懂酱,在當前示例中竹习,數(shù)據(jù)是用低LD生成的,因此填充精度相對較低列牺。
2整陌、僅使用實驗群體本身來填充缺失的基因型
在一些物種中,沒有高密度的參考基因型或序列可用于估計單倍型群體頻率∶诒瑁或者随夸,可用的高密度基因分型樣本可能無法提供目標的特定育種群體中單倍型頻率的合理估計。在這些情況下震放,可以使用僅來自目標群體中的樣本的信息來進行填充宾毒。在某些情況下,基因型數(shù)據(jù)是從相對較低的覆蓋范圍測序中獲得的殿遂,這是由于某些下一代測序平臺的隨機性質(zhì)诈铛,丟失了許多個體的基因型。因此墨礁,研究人員可能會面臨樣本中許多缺失基因型的情況幢竹,但沒有可靠的參考面板來填充。在這種情況下恩静,缺失數(shù)據(jù)的結(jié)構與前面描述的高密度參考面板到低密度目標群體的情況不同焕毫。與低密度基因分型平臺中缺失一組標記不同,缺失數(shù)據(jù)將更接近隨機分布在SNPs和個體之間驶乾。在這種情況下邑飒,填充可以通過僅從當前可用數(shù)據(jù)中推斷單倍型頻率來進行。
這種方法的準確性很大程度上取決于樣本中缺失數(shù)據(jù)的比例和連鎖不平衡的程度轻掩,更廣泛的連鎖不平衡有助于填充的準確性幸乒。
它采用與前一節(jié)相同的初始數(shù)據(jù),但不是將數(shù)據(jù)分成參考面板和密度較低的目標集唇牧,而是將500個個體的整個樣本放在一個公共數(shù)據(jù)集內(nèi)罕扎,并隨機引入20%的缺失數(shù)據(jù)。
前兩個標記的數(shù)據(jù)如下:
請注意丐重,在第一個標記處丟失基因型的個體與在其他標記處丟失基因型的個體是不同的腔召。每個SNP和每個個體都有一個獨特的丟失數(shù)據(jù)的模式。
在本例中扮惦,Beagle僅使用‘ gt ’文件執(zhí)行填充臀蛛,而‘ ref ’填充文件選項未被使用。例如崖蜜,執(zhí)行imputation的參數(shù)為:
由于我們執(zhí)行Beagle時沒有填充參考面板浊仆,所以Beagle僅使用填充基因型文件中提供的數(shù)據(jù)來估計單倍型頻率,我們填充的是相同的樣本豫领。
在這個例子中抡柿,準確率非常低,只有大約43%等恐。由于缺失的數(shù)據(jù)量大洲劣,LD水平低备蚓,單倍型頻率的估計非常困難。因此囱稽,為了提高填充的準確性郊尝,最好先質(zhì)控掉缺失率高的snp,嘗試只填充具有合理數(shù)據(jù)量的位點战惊。
參考資料:
1.群體遺傳學習筆記-基因型缺失數(shù)據(jù)的填充 http://www.reibang.com/p/dafd1e6e4a98
2.GWAS的基因型填充是怎么回事 http://www.360doc.com/content/18/0112/03/50153987_721216942.shtml
3.人類基因組的Phasing原理是什么流昏?http://www.reibang.com/p/a30de54b83c3
4.《Genetic Data Analysis for Plant and Animal Breeding》Chapter 10:Imputing Missing Genotypes
作者:Fikret Isik ? James Holland ? Christian Maltecca
資料來源于網(wǎng)絡,如有侵權样傍,請聯(lián)系横缔,刪