群體遺傳學(xué)習(xí)筆記-基因型缺失數(shù)據(jù)的填充

Genotype Imputation是在高通量測(cè)序中常出現(xiàn)的定義均驶,按照義譯就是基因型填充隶债。要真正理解imputation這個(gè)概念回俐,我們就需要先理解基因型缺失(genotype missing)忘瓦。

基因型缺失的定義

在重測(cè)序類的技術(shù)中,有一個(gè)關(guān)鍵的因素罚拟,就是測(cè)序數(shù)據(jù)對(duì)基因組的覆蓋度,在上一章測(cè)序技術(shù)里面有提到。樣本中沒(méi)有被測(cè)序數(shù)據(jù)覆蓋到的區(qū)域慷蠕,基因型就屬于未知的,我們將之稱為缺失位點(diǎn)。例如下圖中的個(gè)體是二倍體,在21個(gè)位點(diǎn)中僅有3個(gè)位點(diǎn)被檢測(cè)到掌测,其他標(biāo)注為“.”的位點(diǎn)都屬于缺失位點(diǎn)。


具體來(lái)說(shuō)赵颅,基因型數(shù)據(jù)的缺失又分為遺傳性缺失和檢測(cè)性缺失。前者是個(gè)體遺傳信息的變異(例如列肢,這個(gè)位點(diǎn)DNA片段真實(shí)缺失)導(dǎo)致的基因型缺失。而后者晒喷,則是由于檢測(cè)技術(shù)的局限、錯(cuò)誤等導(dǎo)致的信息丟失渤昌。各類基因型檢測(cè)技術(shù)都會(huì)產(chǎn)生檢測(cè)性的基因型缺失。但我們要認(rèn)識(shí)一點(diǎn)娘摔,基因型缺失是相對(duì)概念怜瞒,如果缺失是“無(wú)”霜运,那么肯定是和“有”比較出來(lái)的。

常見的描述為缺失(missing)的情形包括:這個(gè)基因位點(diǎn)在群體中其他樣本上(可以是部分樣本)檢測(cè)到了瓣距,而在A樣本中沒(méi)有檢測(cè)到,就認(rèn)為這是A樣本缺失位點(diǎn)够话。這個(gè)位點(diǎn)理論上該被檢測(cè)到(例如钙态,SNP 芯片中有探針覆蓋的位點(diǎn))而實(shí)際上沒(méi)有被檢測(cè)到拴孤,也會(huì)被定義為缺失位點(diǎn)化漆。這個(gè)基因型在A技術(shù)中可以檢測(cè)到璧帝,但B技術(shù)檢測(cè)不到窖贤,那么也可以被定義為缺失。

下面我們羅列一下各類技術(shù)的缺失來(lái)源豌熄。

1.全基因組重測(cè)序技術(shù)

全基因組重測(cè)序理論上應(yīng)該覆蓋整個(gè)基因組崖咨,因此未覆蓋的區(qū)域都可以被定義為缺失。那么群體研究中的低深度測(cè)序(一般平均深度低于10X)心包,不可避免會(huì)產(chǎn)生大量隨機(jī)缺失

2.簡(jiǎn)化基因組測(cè)序

簡(jiǎn)化基因組測(cè)序是通過(guò)酶切柿隙,并富集限制性內(nèi)切酶周邊的片段并進(jìn)行測(cè)序的策略盏求。針對(duì)簡(jiǎn)化基因組,我們稱的缺失一般指的是沒(méi)有被檢測(cè)到的酶切片段相關(guān)的位點(diǎn)碎罚。簡(jiǎn)化基因組的缺失磅废,主要與酶切效率有關(guān)。酶切效率越高荆烈,缺失率越低拯勉。

3.外顯子測(cè)序以及目標(biāo)區(qū)域捕獲測(cè)序

同簡(jiǎn)化基因組測(cè)序類似,基于探針雜交的DNA捕獲以及測(cè)序技術(shù),同樣會(huì)產(chǎn)生大量的缺失谜喊。這種缺失主要是由于探針雜交捕獲的效率所致潭兽。

4.SNP芯片

SNP芯片利用芯片雜交后的熒光信號(hào),來(lái)判斷某個(gè)位點(diǎn)的基因型斗遏。SNP芯片同樣也會(huì)產(chǎn)生大量缺失山卦。但在實(shí)際的研究中,SNP 芯片主要面臨的問(wèn)題是芯片型號(hào)不同诵次,甚至來(lái)源不同的廠商账蓉,那么芯片中包含的SNP位點(diǎn)也不同。當(dāng)來(lái)源不同的數(shù)據(jù)一起分析的時(shí)候逾一,將面臨數(shù)據(jù)不一致的問(wèn)題铸本。簡(jiǎn)單說(shuō)來(lái),就是你有的我沒(méi)有遵堵,我有的你沒(méi)有箱玷。如下圖,Affymetrix和illuminate兩大SNP 芯片廠商生產(chǎn)的人類芯片就使用的是不同的SNP集陌宿,當(dāng)放在一起分析的時(shí)候?qū)⒚媾RSNP不一致的問(wèn)題锡足。

最后,再次強(qiáng)調(diào)基因型缺失是1個(gè)相對(duì)性的概念壳坪。以上缺失的概念都是針對(duì)同種技術(shù)的比較舶得。不同的技術(shù)比較,也可以定義為缺失爽蝴。例如沐批,同樣一份樣本,我們使用全部以上4種技術(shù)檢測(cè)蝎亚。如果以全基因組高深度測(cè)序(>30X)為參照標(biāo)準(zhǔn)九孩,后續(xù)的3種技術(shù)都有大量位點(diǎn)沒(méi)有檢測(cè)到,處于基因型缺失的狀態(tài)颖对。

缺失的判斷也有很簡(jiǎn)單的計(jì)算方法捻撑,就是缺失率(missing rate)磨隘。這個(gè)評(píng)價(jià)又分為樣本水平的缺失率和位點(diǎn)水平的缺失率缤底。例如下圖,0番捂、1个唧、2 分別代表三種檢測(cè)到的基因型,圖中缺失位點(diǎn)使用“设预?”表示徙歼。那么樣本1的缺失率=20%(總體10個(gè)位點(diǎn),有兩個(gè)位點(diǎn)缺失),而位點(diǎn)2的缺失率=60%(總體5個(gè)位點(diǎn)魄梯,有3個(gè)位點(diǎn)缺失)桨螺。

基因型缺失的影響

基因型缺失最直接的影響就是這個(gè)位置的信息缺失,從而影響下游分析(包括遺傳圖譜構(gòu)建酿秸,QTL定位灭翔,選擇壓力分析,GWAS分析等)的信息完整性和準(zhǔn)確性辣苏。例如肝箱,(b)中紅色的點(diǎn)是(a)中缺失的位點(diǎn)。而與性狀關(guān)聯(lián)的SNP位點(diǎn)稀蟋,恰恰位于虛線所在的區(qū)域內(nèi)煌张。這些顯著位點(diǎn)在(a)中是缺失的,所以(a)沒(méi)有檢測(cè)到關(guān)聯(lián)信號(hào)退客,從丟失了非常關(guān)鍵的信息

所以骏融,基因型缺失最大的風(fēng)險(xiǎn)就是信息丟失。基因型缺失對(duì)GWAS分析萌狂、選擇壓力分析影響都比較大绎谦。這類研究中,重測(cè)序技術(shù)相比其他三種技術(shù)粥脚,最大的優(yōu)勢(shì)就是信息完整窃肠。

但某些研究對(duì)標(biāo)記密度要求不是那么高,缺失的影響則較小刷允。例如冤留,對(duì)于遺傳圖譜類構(gòu)建,通常幾千個(gè)標(biāo)記就足以保證檢測(cè)所有的染色體重組事件树灶。而簡(jiǎn)化基因組測(cè)序通诚伺可以獲得數(shù)萬(wàn)個(gè)標(biāo)記,我們通常會(huì)將高缺失率的位點(diǎn)直接過(guò)濾放棄天通,只保留剩余的高質(zhì)量的低缺失率位點(diǎn)(通常依然有幾千個(gè))用于下游分析泊窘,保證重組率計(jì)算的準(zhǔn)確性。

應(yīng)對(duì)數(shù)據(jù)缺失的方法——基因型填充

盡管基因型缺失有種種不利影響像寒,但我們卻無(wú)法完全避免烘豹,只能使用生物信息的策略,來(lái)減少缺失的影響诺祸。這個(gè)方法就是基因型填充(imputation)携悯。

Imputation英文的原意應(yīng)該是歸罪、歸屬筷笨。而imputation在這里指代的意思是對(duì)這個(gè)位點(diǎn)的基因型規(guī)律進(jìn)行總結(jié)憔鬼,然后對(duì)缺失位點(diǎn)歸到某類中龟劲,賦予其一個(gè)最可能的基因型。所以轴或,我將之稱為缺失填充昌跌。常見imputation的基本邏輯包括兩步:

  1. 從目標(biāo)位點(diǎn)/區(qū)域非缺失的位點(diǎn)中,總結(jié)這個(gè)區(qū)域的基因型規(guī)律照雁,并分類避矢。其實(shí)就是分析各個(gè)區(qū)域的單體型組成。
  2. 根據(jù)某樣本缺失位點(diǎn)的上下其他非缺失位點(diǎn)囊榜,判斷這個(gè)區(qū)域?qū)儆谀姆N單倍型审胸。然后根據(jù)所屬單倍型的基因型補(bǔ)充該樣本的缺失位點(diǎn)。

其原理:基因型填充的最初構(gòu)想基于家系樣本的遺傳特性卸勺。具有已知親緣關(guān)系的個(gè)體之間具有共享的單體型(haplotype)砂沛,這些由有限個(gè)遺傳標(biāo)記所構(gòu)成的單體型隨祖先一起遺傳,反映連鎖不平衡曙求。

因此碍庵,在具有相同單體型的家系中,遺傳標(biāo)記少的樣本可以參照遺傳標(biāo)記多的樣本進(jìn)行基因型填充悟狱。對(duì)于沒(méi)有親緣關(guān)系的樣本静浴,以上理論也基本適用,主要的差別在于無(wú)血緣關(guān)系的樣本之間共享的單體型比家系樣本之間的要短很多挤渐。對(duì)無(wú)親緣關(guān)系樣本進(jìn)行基因型填充需要一個(gè)高密度遺傳標(biāo)記構(gòu)成的單體型圖譜作為參照苹享。通過(guò)對(duì)比待填充樣本和參考模板,找到兩者之間共有的單體型浴麻,然后就可以將匹配上的參考模板中的位點(diǎn)復(fù)制到目標(biāo)數(shù)據(jù)集中得问。

在圖a中,那個(gè)有大量缺失基因型的個(gè)體就是圖1中的個(gè)體软免。圖中下半部分由多個(gè)個(gè)體構(gòu)成的參考單倍型集(reference haploypes)宫纬。這些參考集的基因型都是完整的。從這些參考數(shù)據(jù)集中膏萧,我們可以推斷整個(gè)群體的單倍型構(gòu)成漓骚。然后,根據(jù)缺失樣本有限的基因型信息(僅有3個(gè)位點(diǎn))榛泛,就可以判斷這個(gè)樣本與參考單倍型集中的哪種單倍型最為相似(圖中分別對(duì)應(yīng)紫色蝌蹂、綠色、黃色三種單倍型)挟鸠。然后叉信,將對(duì)應(yīng)的最相似的單倍型賦予給該樣本亩冬,從而讓該樣本獲得完整的基因型艘希,圖b

基因型填充常用軟件

目前,隨著計(jì)算生物學(xué)和生物信息學(xué)的發(fā)展,有很多算法和軟件都有能力完成基因型填充的任務(wù)硼身。

這些方法基本可以分為兩大類:

(i)計(jì)算密集型,比如IMPUTE、 IMPUTE2覆享、MACH佳遂、 和fastPHASE/BIMBAM。這種類型的方法在填充的過(guò)程中充分考慮到全部可以觀察到的基因型信息撒顿,使得對(duì)缺失值的估算更加精確丑罪;但以上大部分軟件都是針對(duì)人類的開發(fā)的。人類種群的遺傳特性是個(gè)體雜合率較高凤壁、近交率低吩屹、系譜關(guān)系來(lái)源隨機(jī)。很多植物拧抖,尤其作物的遺傳特性則和人類相反煤搜。以玉米為例狸棍,玉米在育種過(guò)程中稽荧,會(huì)伴隨大量的自交,因此純合度較高系忙,而且系譜關(guān)系(雜交方式)往往可控淌哟。以上針對(duì)人類學(xué)開發(fā)的軟件就未必適用了迹卢。如果是遺傳特性與玉米類似的植物的GBS數(shù)據(jù),可以采用Tassel中包含的imputation模塊徒仓。

(ii)計(jì)算高效型腐碱,比如PLINK、TUNA掉弛、WHAP和BEAGLE喻杈。此種算法僅僅關(guān)注與特定位點(diǎn)相鄰的一小部分標(biāo)記的基因型,因此在計(jì)算上更加快捷狰晚。表1列出了4種常見的基因型填充軟件的特性

小結(jié)

對(duì)于人類的遺傳研究筒饰,由于其條件與研究已經(jīng)非常充分,缺失數(shù)據(jù)填充是很有必要的一步壁晒。對(duì)于其他物種瓷们,在允許的條件下,可以借助GBS或者一些測(cè)得比較好的SNP數(shù)據(jù)庫(kù)去填充缺失的數(shù)據(jù)秒咐,如果條件不理想且自身雜交比較復(fù)雜谬晕,這步可以跳過(guò)。

轉(zhuǎn)自整理于:奧迪基因 http://www.omicshare.com/forum/thread-1293-1-1.html

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末携取,一起剝皮案震驚了整個(gè)濱河市攒钳,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌雷滋,老刑警劉巖不撑,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件文兢,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡焕檬,警方通過(guò)查閱死者的電腦和手機(jī)姆坚,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)实愚,“玉大人兼呵,你說(shuō)我怎么就攤上這事±扒茫” “怎么了击喂?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)碰辅。 經(jīng)常有香客問(wèn)我茫负,道長(zhǎng),這世上最難降的妖魔是什么乎赴? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任忍法,我火速辦了婚禮,結(jié)果婚禮上榕吼,老公的妹妹穿的比我還像新娘饿序。我一直安慰自己,他們只是感情好羹蚣,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布原探。 她就那樣靜靜地躺著,像睡著了一般顽素。 火紅的嫁衣襯著肌膚如雪咽弦。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天胁出,我揣著相機(jī)與錄音型型,去河邊找鬼。 笑死全蝶,一個(gè)胖子當(dāng)著我的面吹牛闹蒜,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播抑淫,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼绷落,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了始苇?” 一聲冷哼從身側(cè)響起砌烁,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎催式,沒(méi)想到半個(gè)月后函喉,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體避归,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年函似,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了槐脏。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片喉童。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡撇寞,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出堂氯,到底是詐尸還是另有隱情蔑担,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布咽白,位于F島的核電站啤握,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏晶框。R本人自食惡果不足惜排抬,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望授段。 院中可真熱鬧蹲蒲,春花似錦、人聲如沸侵贵。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)窍育。三九已至卡睦,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間漱抓,已是汗流浹背表锻。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留乞娄,地道東北人浩嫌。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像补胚,于是被迫代替她去往敵國(guó)和親码耐。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 重測(cè)序技術(shù)簡(jiǎn)介 全基因組重測(cè)序(Resequencing)是對(duì)已知參考基因組序列的物種進(jìn)行不同個(gè)體間的基因組測(cè)序溶其,...
    lakeseafly閱讀 9,865評(píng)論 1 54
  • 非常優(yōu)秀的研究總結(jié)骚腥,值得學(xué)習(xí)領(lǐng)會(huì)和思考。因?yàn)樽謹(jǐn)?shù)太多瓶逃,可以去作者的博文地址http://www.huangshuj...
    王詩(shī)翔閱讀 4,171評(píng)論 1 24
  • 遺傳群體所用的技術(shù) 簡(jiǎn)化基因組 簡(jiǎn)化基因組(Reduced-Representation Genome Seque...
    JoJomjchen閱讀 5,126評(píng)論 0 16
  • 索引 數(shù)據(jù)庫(kù)中的查詢操作非常普遍,索引就是提升查找速度的一種手段 索引的類型 從數(shù)據(jù)結(jié)構(gòu)角度分 1.B+索引:傳統(tǒng)...
    一凡呀閱讀 2,859評(píng)論 0 8
  • 人人都知道中國(guó)有八大菜系契沫,廣州的面細(xì)細(xì)品味带猴,大抵也可分四大品種: 歐成記銀絲面,竹園竹升面懈万,婆婆寬面拴清,堅(jiān)記伊府面。...
    七辻屋賣饅頭的閱讀 1,239評(píng)論 2 0