Genotype Imputation是在高通量測(cè)序中常出現(xiàn)的定義均驶,按照義譯就是基因型填充隶债。要真正理解imputation這個(gè)概念回俐,我們就需要先理解基因型缺失(genotype missing)忘瓦。
基因型缺失的定義
在重測(cè)序類的技術(shù)中,有一個(gè)關(guān)鍵的因素罚拟,就是測(cè)序數(shù)據(jù)對(duì)基因組的覆蓋度,在上一章測(cè)序技術(shù)里面有提到。樣本中沒(méi)有被測(cè)序數(shù)據(jù)覆蓋到的區(qū)域慷蠕,基因型就屬于未知的,我們將之稱為缺失位點(diǎn)。例如下圖中的個(gè)體是二倍體,在21個(gè)位點(diǎn)中僅有3個(gè)位點(diǎn)被檢測(cè)到掌测,其他標(biāo)注為“.”的位點(diǎn)都屬于缺失位點(diǎn)。
具體來(lái)說(shuō)赵颅,基因型數(shù)據(jù)的缺失又分為遺傳性缺失和檢測(cè)性缺失。前者是個(gè)體遺傳信息的變異(例如列肢,這個(gè)位點(diǎn)DNA片段真實(shí)缺失)導(dǎo)致的基因型缺失。而后者晒喷,則是由于檢測(cè)技術(shù)的局限、錯(cuò)誤等導(dǎo)致的信息丟失渤昌。各類基因型檢測(cè)技術(shù)都會(huì)產(chǎn)生檢測(cè)性的基因型缺失。但我們要認(rèn)識(shí)一點(diǎn)娘摔,基因型缺失是相對(duì)概念怜瞒,如果缺失是“無(wú)”霜运,那么肯定是和“有”比較出來(lái)的。
常見的描述為缺失(missing)的情形包括:這個(gè)基因位點(diǎn)在群體中其他樣本上(可以是部分樣本)檢測(cè)到了瓣距,而在A樣本中沒(méi)有檢測(cè)到,就認(rèn)為這是A樣本缺失位點(diǎn)够话。這個(gè)位點(diǎn)理論上該被檢測(cè)到(例如钙态,SNP 芯片中有探針覆蓋的位點(diǎn))而實(shí)際上沒(méi)有被檢測(cè)到拴孤,也會(huì)被定義為缺失位點(diǎn)化漆。這個(gè)基因型在A技術(shù)中可以檢測(cè)到璧帝,但B技術(shù)檢測(cè)不到窖贤,那么也可以被定義為缺失。
下面我們羅列一下各類技術(shù)的缺失來(lái)源豌熄。
1.全基因組重測(cè)序技術(shù)
全基因組重測(cè)序理論上應(yīng)該覆蓋整個(gè)基因組崖咨,因此未覆蓋的區(qū)域都可以被定義為缺失。那么群體研究中的低深度測(cè)序(一般平均深度低于10X)心包,不可避免會(huì)產(chǎn)生大量隨機(jī)缺失。
2.簡(jiǎn)化基因組測(cè)序
簡(jiǎn)化基因組測(cè)序是通過(guò)酶切柿隙,并富集限制性內(nèi)切酶周邊的片段并進(jìn)行測(cè)序的策略盏求。針對(duì)簡(jiǎn)化基因組,我們稱的缺失一般指的是沒(méi)有被檢測(cè)到的酶切片段相關(guān)的位點(diǎn)碎罚。簡(jiǎn)化基因組的缺失磅废,主要與酶切效率有關(guān)。酶切效率越高荆烈,缺失率越低拯勉。
3.外顯子測(cè)序以及目標(biāo)區(qū)域捕獲測(cè)序
同簡(jiǎn)化基因組測(cè)序類似,基于探針雜交的DNA捕獲以及測(cè)序技術(shù),同樣會(huì)產(chǎn)生大量的缺失谜喊。這種缺失主要是由于探針雜交捕獲的效率所致潭兽。
4.SNP芯片
SNP芯片利用芯片雜交后的熒光信號(hào),來(lái)判斷某個(gè)位點(diǎn)的基因型斗遏。SNP芯片同樣也會(huì)產(chǎn)生大量缺失山卦。但在實(shí)際的研究中,SNP 芯片主要面臨的問(wèn)題是芯片型號(hào)不同诵次,甚至來(lái)源不同的廠商账蓉,那么芯片中包含的SNP位點(diǎn)也不同。當(dāng)來(lái)源不同的數(shù)據(jù)一起分析的時(shí)候逾一,將面臨數(shù)據(jù)不一致的問(wèn)題铸本。簡(jiǎn)單說(shuō)來(lái),就是你有的我沒(méi)有遵堵,我有的你沒(méi)有箱玷。如下圖,Affymetrix和illuminate兩大SNP 芯片廠商生產(chǎn)的人類芯片就使用的是不同的SNP集陌宿,當(dāng)放在一起分析的時(shí)候?qū)⒚媾RSNP不一致的問(wèn)題锡足。
最后,再次強(qiáng)調(diào)基因型缺失是1個(gè)相對(duì)性的概念壳坪。以上缺失的概念都是針對(duì)同種技術(shù)的比較舶得。不同的技術(shù)比較,也可以定義為缺失爽蝴。例如沐批,同樣一份樣本,我們使用全部以上4種技術(shù)檢測(cè)蝎亚。如果以全基因組高深度測(cè)序(>30X)為參照標(biāo)準(zhǔn)九孩,后續(xù)的3種技術(shù)都有大量位點(diǎn)沒(méi)有檢測(cè)到,處于基因型缺失的狀態(tài)颖对。
缺失的判斷也有很簡(jiǎn)單的計(jì)算方法捻撑,就是缺失率(missing rate)磨隘。這個(gè)評(píng)價(jià)又分為樣本水平的缺失率和位點(diǎn)水平的缺失率缤底。例如下圖,0番捂、1个唧、2 分別代表三種檢測(cè)到的基因型,圖中缺失位點(diǎn)使用“设预?”表示徙歼。那么樣本1的缺失率=20%(總體10個(gè)位點(diǎn),有兩個(gè)位點(diǎn)缺失),而位點(diǎn)2的缺失率=60%(總體5個(gè)位點(diǎn)魄梯,有3個(gè)位點(diǎn)缺失)桨螺。
基因型缺失的影響
基因型缺失最直接的影響就是這個(gè)位置的信息缺失,從而影響下游分析(包括遺傳圖譜構(gòu)建酿秸,QTL定位灭翔,選擇壓力分析,GWAS分析等)的信息完整性和準(zhǔn)確性辣苏。例如肝箱,(b)中紅色的點(diǎn)是(a)中缺失的位點(diǎn)。而與性狀關(guān)聯(lián)的SNP位點(diǎn)稀蟋,恰恰位于虛線所在的區(qū)域內(nèi)煌张。這些顯著位點(diǎn)在(a)中是缺失的,所以(a)沒(méi)有檢測(cè)到關(guān)聯(lián)信號(hào)退客,從丟失了非常關(guān)鍵的信息
所以骏融,基因型缺失最大的風(fēng)險(xiǎn)就是信息丟失。基因型缺失對(duì)GWAS分析萌狂、選擇壓力分析影響都比較大绎谦。這類研究中,重測(cè)序技術(shù)相比其他三種技術(shù)粥脚,最大的優(yōu)勢(shì)就是信息完整窃肠。
但某些研究對(duì)標(biāo)記密度要求不是那么高,缺失的影響則較小刷允。例如冤留,對(duì)于遺傳圖譜類構(gòu)建,通常幾千個(gè)標(biāo)記就足以保證檢測(cè)所有的染色體重組事件树灶。而簡(jiǎn)化基因組測(cè)序通诚伺可以獲得數(shù)萬(wàn)個(gè)標(biāo)記,我們通常會(huì)將高缺失率的位點(diǎn)直接過(guò)濾放棄天通,只保留剩余的高質(zhì)量的低缺失率位點(diǎn)(通常依然有幾千個(gè))用于下游分析泊窘,保證重組率計(jì)算的準(zhǔn)確性。
應(yīng)對(duì)數(shù)據(jù)缺失的方法——基因型填充
盡管基因型缺失有種種不利影響像寒,但我們卻無(wú)法完全避免烘豹,只能使用生物信息的策略,來(lái)減少缺失的影響诺祸。這個(gè)方法就是基因型填充(imputation)携悯。
Imputation英文的原意應(yīng)該是歸罪、歸屬筷笨。而imputation在這里指代的意思是對(duì)這個(gè)位點(diǎn)的基因型規(guī)律進(jìn)行總結(jié)憔鬼,然后對(duì)缺失位點(diǎn)歸到某類中龟劲,賦予其一個(gè)最可能的基因型。所以轴或,我將之稱為缺失填充昌跌。常見imputation的基本邏輯包括兩步:
- 從目標(biāo)位點(diǎn)/區(qū)域非缺失的位點(diǎn)中,總結(jié)這個(gè)區(qū)域的基因型規(guī)律照雁,并分類避矢。其實(shí)就是分析各個(gè)區(qū)域的單體型組成。
- 根據(jù)某樣本缺失位點(diǎn)的上下其他非缺失位點(diǎn)囊榜,判斷這個(gè)區(qū)域?qū)儆谀姆N單倍型审胸。然后根據(jù)所屬單倍型的基因型補(bǔ)充該樣本的缺失位點(diǎn)。
其原理:基因型填充的最初構(gòu)想基于家系樣本的遺傳特性卸勺。具有已知親緣關(guān)系的個(gè)體之間具有共享的單體型(haplotype)砂沛,這些由有限個(gè)遺傳標(biāo)記所構(gòu)成的單體型隨祖先一起遺傳,反映連鎖不平衡曙求。
因此碍庵,在具有相同單體型的家系中,遺傳標(biāo)記少的樣本可以參照遺傳標(biāo)記多的樣本進(jìn)行基因型填充悟狱。對(duì)于沒(méi)有親緣關(guān)系的樣本静浴,以上理論也基本適用,主要的差別在于無(wú)血緣關(guān)系的樣本之間共享的單體型比家系樣本之間的要短很多挤渐。對(duì)無(wú)親緣關(guān)系樣本進(jìn)行基因型填充需要一個(gè)高密度遺傳標(biāo)記構(gòu)成的單體型圖譜作為參照苹享。通過(guò)對(duì)比待填充樣本和參考模板,找到兩者之間共有的單體型浴麻,然后就可以將匹配上的參考模板中的位點(diǎn)復(fù)制到目標(biāo)數(shù)據(jù)集中得问。
在圖a中,那個(gè)有大量缺失基因型的個(gè)體就是圖1中的個(gè)體软免。圖中下半部分由多個(gè)個(gè)體構(gòu)成的參考單倍型集(reference haploypes)宫纬。這些參考集的基因型都是完整的。從這些參考數(shù)據(jù)集中膏萧,我們可以推斷整個(gè)群體的單倍型構(gòu)成漓骚。然后,根據(jù)缺失樣本有限的基因型信息(僅有3個(gè)位點(diǎn))榛泛,就可以判斷這個(gè)樣本與參考單倍型集中的哪種單倍型最為相似(圖中分別對(duì)應(yīng)紫色蝌蹂、綠色、黃色三種單倍型)挟鸠。然后叉信,將對(duì)應(yīng)的最相似的單倍型賦予給該樣本亩冬,從而讓該樣本獲得完整的基因型艘希,圖b
基因型填充常用軟件
目前,隨著計(jì)算生物學(xué)和生物信息學(xué)的發(fā)展,有很多算法和軟件都有能力完成基因型填充的任務(wù)硼身。
這些方法基本可以分為兩大類:
(i)計(jì)算密集型,比如IMPUTE、 IMPUTE2覆享、MACH佳遂、 和fastPHASE/BIMBAM。這種類型的方法在填充的過(guò)程中充分考慮到全部可以觀察到的基因型信息撒顿,使得對(duì)缺失值的估算更加精確丑罪;但以上大部分軟件都是針對(duì)人類的開發(fā)的。人類種群的遺傳特性是個(gè)體雜合率較高凤壁、近交率低吩屹、系譜關(guān)系來(lái)源隨機(jī)。很多植物拧抖,尤其作物的遺傳特性則和人類相反煤搜。以玉米為例狸棍,玉米在育種過(guò)程中稽荧,會(huì)伴隨大量的自交,因此純合度較高系忙,而且系譜關(guān)系(雜交方式)往往可控淌哟。以上針對(duì)人類學(xué)開發(fā)的軟件就未必適用了迹卢。如果是遺傳特性與玉米類似的植物的GBS數(shù)據(jù),可以采用Tassel中包含的imputation模塊徒仓。
(ii)計(jì)算高效型腐碱,比如PLINK、TUNA掉弛、WHAP和BEAGLE喻杈。此種算法僅僅關(guān)注與特定位點(diǎn)相鄰的一小部分標(biāo)記的基因型,因此在計(jì)算上更加快捷狰晚。表1列出了4種常見的基因型填充軟件的特性
小結(jié)
對(duì)于人類的遺傳研究筒饰,由于其條件與研究已經(jīng)非常充分,缺失數(shù)據(jù)填充是很有必要的一步壁晒。對(duì)于其他物種瓷们,在允許的條件下,可以借助GBS或者一些測(cè)得比較好的SNP數(shù)據(jù)庫(kù)去填充缺失的數(shù)據(jù)秒咐,如果條件不理想且自身雜交比較復(fù)雜谬晕,這步可以跳過(guò)。
轉(zhuǎn)自整理于:奧迪基因 http://www.omicshare.com/forum/thread-1293-1-1.html