群體遺傳學(xué)習(xí)筆記-基因型缺失數(shù)據(jù)的填充

Genotype Imputation是在高通量測(cè)序中常出現(xiàn)的定義均驶，按照義譯就是基因型填充隶债。要真正理解imputation這個(gè)概念回俐，我們就需要先理解基因型缺失（genotype missing）忘瓦。

基因型缺失的定義

在重測(cè)序類的技術(shù)中，有一個(gè)關(guān)鍵的因素罚拟，就是測(cè)序數(shù)據(jù)對(duì)基因組的覆蓋度，在上一章測(cè)序技術(shù)里面有提到。樣本中沒(méi)有被測(cè)序數(shù)據(jù)覆蓋到的區(qū)域慷蠕，基因型就屬于未知的，我們將之稱為缺失位點(diǎn)。例如下圖中的個(gè)體是二倍體，在21個(gè)位點(diǎn)中僅有3個(gè)位點(diǎn)被檢測(cè)到掌测，其他標(biāo)注為“.”的位點(diǎn)都屬于缺失位點(diǎn)。

具體來(lái)說(shuō)赵颅，基因型數(shù)據(jù)的缺失又分為遺傳性缺失和檢測(cè)性缺失。前者是個(gè)體遺傳信息的變異（例如列肢，這個(gè)位點(diǎn)DNA片段真實(shí)缺失）導(dǎo)致的基因型缺失。而后者晒喷，則是由于檢測(cè)技術(shù)的局限、錯(cuò)誤等導(dǎo)致的信息丟失渤昌。各類基因型檢測(cè)技術(shù)都會(huì)產(chǎn)生檢測(cè)性的基因型缺失。但我們要認(rèn)識(shí)一點(diǎn)娘摔，基因型缺失是相對(duì)概念怜瞒，如果缺失是“無(wú)”霜运，那么肯定是和“有”比較出來(lái)的。

常見的描述為缺失（missing）的情形包括：這個(gè)基因位點(diǎn)在群體中其他樣本上（可以是部分樣本）檢測(cè)到了瓣距，而在A樣本中沒(méi)有檢測(cè)到，就認(rèn)為這是A樣本缺失位點(diǎn)够话。這個(gè)位點(diǎn)理論上該被檢測(cè)到（例如钙态，SNP 芯片中有探針覆蓋的位點(diǎn)）而實(shí)際上沒(méi)有被檢測(cè)到拴孤，也會(huì)被定義為缺失位點(diǎn)化漆。這個(gè)基因型在A技術(shù)中可以檢測(cè)到璧帝，但B技術(shù)檢測(cè)不到窖贤，那么也可以被定義為缺失。

下面我們羅列一下各類技術(shù)的缺失來(lái)源豌熄。

1.全基因組重測(cè)序技術(shù)

全基因組重測(cè)序理論上應(yīng)該覆蓋整個(gè)基因組崖咨，因此未覆蓋的區(qū)域都可以被定義為缺失。那么群體研究中的低深度測(cè)序（一般平均深度低于10X）心包，不可避免會(huì)產(chǎn)生大量隨機(jī)缺失。

2.簡(jiǎn)化基因組測(cè)序

簡(jiǎn)化基因組測(cè)序是通過(guò)酶切柿隙，并富集限制性內(nèi)切酶周邊的片段并進(jìn)行測(cè)序的策略盏求。針對(duì)簡(jiǎn)化基因組，我們稱的缺失一般指的是沒(méi)有被檢測(cè)到的酶切片段相關(guān)的位點(diǎn)碎罚。簡(jiǎn)化基因組的缺失磅废，主要與酶切效率有關(guān)。酶切效率越高荆烈，缺失率越低拯勉。

3.外顯子測(cè)序以及目標(biāo)區(qū)域捕獲測(cè)序

同簡(jiǎn)化基因組測(cè)序類似，基于探針雜交的DNA捕獲以及測(cè)序技術(shù)，同樣會(huì)產(chǎn)生大量的缺失谜喊。這種缺失主要是由于探針雜交捕獲的效率所致潭兽。

4.SNP芯片

SNP芯片利用芯片雜交后的熒光信號(hào)，來(lái)判斷某個(gè)位點(diǎn)的基因型斗遏。SNP芯片同樣也會(huì)產(chǎn)生大量缺失山卦。但在實(shí)際的研究中，SNP 芯片主要面臨的問(wèn)題是芯片型號(hào)不同诵次，甚至來(lái)源不同的廠商账蓉，那么芯片中包含的SNP位點(diǎn)也不同。當(dāng)來(lái)源不同的數(shù)據(jù)一起分析的時(shí)候逾一，將面臨數(shù)據(jù)不一致的問(wèn)題铸本。簡(jiǎn)單說(shuō)來(lái)，就是你有的我沒(méi)有遵堵，我有的你沒(méi)有箱玷。如下圖，Affymetrix和illuminate兩大SNP 芯片廠商生產(chǎn)的人類芯片就使用的是不同的SNP集陌宿，當(dāng)放在一起分析的時(shí)候?qū)⒚媾RSNP不一致的問(wèn)題锡足。

最后，再次強(qiáng)調(diào)基因型缺失是1個(gè)相對(duì)性的概念壳坪。以上缺失的概念都是針對(duì)同種技術(shù)的比較舶得。不同的技術(shù)比較，也可以定義為缺失爽蝴。例如沐批，同樣一份樣本，我們使用全部以上4種技術(shù)檢測(cè)蝎亚。如果以全基因組高深度測(cè)序（>30X）為參照標(biāo)準(zhǔn)九孩，后續(xù)的3種技術(shù)都有大量位點(diǎn)沒(méi)有檢測(cè)到，處于基因型缺失的狀態(tài)颖对。

缺失的判斷也有很簡(jiǎn)單的計(jì)算方法捻撑，就是缺失率（missing rate）磨隘。這個(gè)評(píng)價(jià)又分為樣本水平的缺失率和位點(diǎn)水平的缺失率缤底。例如下圖，0番捂、1个唧、2 分別代表三種檢測(cè)到的基因型，圖中缺失位點(diǎn)使用“设预？”表示徙歼。那么樣本1的缺失率=20%（總體10個(gè)位點(diǎn)，有兩個(gè)位點(diǎn)缺失），而位點(diǎn)2的缺失率=60%（總體5個(gè)位點(diǎn)魄梯，有3個(gè)位點(diǎn)缺失）桨螺。

基因型缺失的影響

基因型缺失最直接的影響就是這個(gè)位置的信息缺失，從而影響下游分析（包括遺傳圖譜構(gòu)建酿秸，QTL定位灭翔，選擇壓力分析，GWAS分析等）的信息完整性和準(zhǔn)確性辣苏。例如肝箱，（b）中紅色的點(diǎn)是（a）中缺失的位點(diǎn)。而與性狀關(guān)聯(lián)的SNP位點(diǎn)稀蟋，恰恰位于虛線所在的區(qū)域內(nèi)煌张。這些顯著位點(diǎn)在（a）中是缺失的，所以（a）沒(méi)有檢測(cè)到關(guān)聯(lián)信號(hào)退客，從丟失了非常關(guān)鍵的信息

所以骏融，基因型缺失最大的風(fēng)險(xiǎn)就是信息丟失。基因型缺失對(duì)GWAS分析萌狂、選擇壓力分析影響都比較大绎谦。這類研究中，重測(cè)序技術(shù)相比其他三種技術(shù)粥脚，最大的優(yōu)勢(shì)就是信息完整窃肠。

但某些研究對(duì)標(biāo)記密度要求不是那么高，缺失的影響則較小刷允。例如冤留，對(duì)于遺傳圖譜類構(gòu)建，通常幾千個(gè)標(biāo)記就足以保證檢測(cè)所有的染色體重組事件树灶。而簡(jiǎn)化基因組測(cè)序通诚伺可以獲得數(shù)萬(wàn)個(gè)標(biāo)記，我們通常會(huì)將高缺失率的位點(diǎn)直接過(guò)濾放棄天通，只保留剩余的高質(zhì)量的低缺失率位點(diǎn)（通常依然有幾千個(gè)）用于下游分析泊窘，保證重組率計(jì)算的準(zhǔn)確性。

應(yīng)對(duì)數(shù)據(jù)缺失的方法——基因型填充

盡管基因型缺失有種種不利影響像寒，但我們卻無(wú)法完全避免烘豹，只能使用生物信息的策略，來(lái)減少缺失的影響诺祸。這個(gè)方法就是基因型填充（imputation）携悯。

Imputation英文的原意應(yīng)該是歸罪、歸屬筷笨。而imputation在這里指代的意思是對(duì)這個(gè)位點(diǎn)的基因型規(guī)律進(jìn)行總結(jié)憔鬼，然后對(duì)缺失位點(diǎn)歸到某類中龟劲，賦予其一個(gè)最可能的基因型。所以轴或，我將之稱為缺失填充昌跌。常見imputation的基本邏輯包括兩步：

從目標(biāo)位點(diǎn)/區(qū)域非缺失的位點(diǎn)中，總結(jié)這個(gè)區(qū)域的基因型規(guī)律照雁，并分類避矢。其實(shí)就是分析各個(gè)區(qū)域的單體型組成。
根據(jù)某樣本缺失位點(diǎn)的上下其他非缺失位點(diǎn)囊榜，判斷這個(gè)區(qū)域?qū)儆谀姆N單倍型审胸。然后根據(jù)所屬單倍型的基因型補(bǔ)充該樣本的缺失位點(diǎn)。

其原理：基因型填充的最初構(gòu)想基于家系樣本的遺傳特性卸勺。具有已知親緣關(guān)系的個(gè)體之間具有共享的單體型（haplotype）砂沛，這些由有限個(gè)遺傳標(biāo)記所構(gòu)成的單體型隨祖先一起遺傳，反映連鎖不平衡曙求。

因此碍庵，在具有相同單體型的家系中，遺傳標(biāo)記少的樣本可以參照遺傳標(biāo)記多的樣本進(jìn)行基因型填充悟狱。對(duì)于沒(méi)有親緣關(guān)系的樣本静浴，以上理論也基本適用，主要的差別在于無(wú)血緣關(guān)系的樣本之間共享的單體型比家系樣本之間的要短很多挤渐。對(duì)無(wú)親緣關(guān)系樣本進(jìn)行基因型填充需要一個(gè)高密度遺傳標(biāo)記構(gòu)成的單體型圖譜作為參照苹享。通過(guò)對(duì)比待填充樣本和參考模板，找到兩者之間共有的單體型浴麻，然后就可以將匹配上的參考模板中的位點(diǎn)復(fù)制到目標(biāo)數(shù)據(jù)集中得问。

在圖a中，那個(gè)有大量缺失基因型的個(gè)體就是圖1中的個(gè)體软免。圖中下半部分由多個(gè)個(gè)體構(gòu)成的參考單倍型集（reference haploypes）宫纬。這些參考集的基因型都是完整的。從這些參考數(shù)據(jù)集中膏萧，我們可以推斷整個(gè)群體的單倍型構(gòu)成漓骚。然后，根據(jù)缺失樣本有限的基因型信息（僅有3個(gè)位點(diǎn)）榛泛，就可以判斷這個(gè)樣本與參考單倍型集中的哪種單倍型最為相似（圖中分別對(duì)應(yīng)紫色蝌蹂、綠色、黃色三種單倍型）挟鸠。然后叉信，將對(duì)應(yīng)的最相似的單倍型賦予給該樣本亩冬，從而讓該樣本獲得完整的基因型艘希，圖b

基因型填充常用軟件

目前,隨著計(jì)算生物學(xué)和生物信息學(xué)的發(fā)展,有很多算法和軟件都有能力完成基因型填充的任務(wù)硼身。

這些方法基本可以分為兩大類：

（i）計(jì)算密集型,比如IMPUTE、 IMPUTE2覆享、MACH佳遂、和fastPHASE/BIMBAM。這種類型的方法在填充的過(guò)程中充分考慮到全部可以觀察到的基因型信息撒顿，使得對(duì)缺失值的估算更加精確丑罪；但以上大部分軟件都是針對(duì)人類的開發(fā)的。人類種群的遺傳特性是個(gè)體雜合率較高凤壁、近交率低吩屹、系譜關(guān)系來(lái)源隨機(jī)。很多植物拧抖，尤其作物的遺傳特性則和人類相反煤搜。以玉米為例狸棍，玉米在育種過(guò)程中稽荧，會(huì)伴隨大量的自交，因此純合度較高系忙，而且系譜關(guān)系（雜交方式）往往可控淌哟。以上針對(duì)人類學(xué)開發(fā)的軟件就未必適用了迹卢。如果是遺傳特性與玉米類似的植物的GBS數(shù)據(jù)，可以采用Tassel中包含的imputation模塊徒仓。

（ii）計(jì)算高效型腐碱，比如PLINK、TUNA掉弛、WHAP和BEAGLE喻杈。此種算法僅僅關(guān)注與特定位點(diǎn)相鄰的一小部分標(biāo)記的基因型，因此在計(jì)算上更加快捷狰晚。表1列出了4種常見的基因型填充軟件的特性

小結(jié)

對(duì)于人類的遺傳研究筒饰，由于其條件與研究已經(jīng)非常充分，缺失數(shù)據(jù)填充是很有必要的一步壁晒。對(duì)于其他物種瓷们，在允許的條件下，可以借助GBS或者一些測(cè)得比較好的SNP數(shù)據(jù)庫(kù)去填充缺失的數(shù)據(jù)秒咐，如果條件不理想且自身雜交比較復(fù)雜谬晕，這步可以跳過(guò)。

轉(zhuǎn)自整理于：奧迪基因 http://www.omicshare.com/forum/thread-1293-1-1.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末携取，一起剝皮案震驚了整個(gè)濱河市攒钳，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌雷滋，老刑警劉巖不撑，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件文兢，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡焕檬，警方通過(guò)查閱死者的電腦和手機(jī)姆坚，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)实愚，“玉大人兼呵，你說(shuō)我怎么就攤上這事±扒茫” “怎么了击喂？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)碰辅。經(jīng)常有香客問(wèn)我茫负，道長(zhǎng)，這世上最難降的妖魔是什么乎赴？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任忍法，我火速辦了婚禮，結(jié)果婚禮上榕吼，老公的妹妹穿的比我還像新娘饿序。我一直安慰自己，他們只是感情好羹蚣，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布原探。她就那樣靜靜地躺著，像睡著了一般顽素。火紅的嫁衣襯著肌膚如雪咽弦。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說(shuō)
那天胁出，我揣著相機(jī)與錄音型型，去河邊找鬼。笑死全蝶，一個(gè)胖子當(dāng)著我的面吹牛闹蒜，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播抑淫，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼绷落，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了始苇？” 一聲冷哼從身側(cè)響起砌烁，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎催式，沒(méi)想到半個(gè)月后函喉，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體避归，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年函似，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了槐脏。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片喉童。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡撇寞，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出堂氯，到底是詐尸還是另有隱情蔑担，我是刑警寧澤，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布咽白，位于F島的核電站啤握，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏晶框。R本人自食惡果不足惜排抬，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望授段。院中可真熱鬧蹲蒲，春花似錦、人聲如沸侵贵。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)窍育。三九已至卡睦，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間漱抓，已是汗流浹背表锻。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乞娄，地道東北人浩嫌。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像补胚，于是被迫代替她去往敵國(guó)和親码耐。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345