人類基因組的Phasing原理是什么帆赢?

人類基因組的Phasing原理是什么?
什么是Phasing线梗?

Phasing椰于,或者說Genotype Phasing,它的中文名有很多:基因定相仪搔、基因分型瘾婿、單倍體分型、單倍體構建等在不同的語境下都有人說過烤咧。但不管如何偏陪,所謂Phasing就是要把一個二倍體(甚至是多倍體)基因組上的等位基因(或者雜合位點),按照其親本正確地定位到父親或者母親的染色體上髓削,最終使得所有來自同一個親本的等位基因都能夠排列在同一條染色體里面竹挡。

現(xiàn)在流行的NGS測序技術,都是把序列打亂混在一起測序的立膛,測完之后揪罕,我們是無法直接區(qū)分這些序列中哪一個是父源,哪一個是母源的宝泵。我們通常都只是檢測出基因組上有哪些變異好啰,以及這些變異的堿基組成(純合、雜合)儿奶,也就是平時所說的基因型(Genotype)框往。只有經(jīng)過Phasing,才能夠?qū)崿F(xiàn)這個區(qū)分(圖1)闯捎。

image

圖1. 變異位點經(jīng)過Phasing和不經(jīng)過Phasing的示意圖椰弊。右上圖代表通常的Genotype,右下圖代表Phasing之后的情況瓤鼻,實現(xiàn)了親本的區(qū)分秉版。

為什么要Phasing

因為Phasing很重要。Phasing的重要性可以分為兩個方面茬祷。一方面, Phasing與遺傳變異的功能詮釋密切相關清焕。這體現(xiàn)在遺傳咨詢師或者科學家需了解基因突變的相位后, 才能更好地判斷基因突變是否會產(chǎn)生臨床表型。比如在一個基因上發(fā)生多個Loss of function variants(LOF),通常當這些變異出于不同的單倍型時(這稱為trans-configuration)秸妥,即兩個拷貝的姐妹基因都發(fā)生了變異, 才會導致基因表達計量(Gene expression dosage)的錯誤且產(chǎn)生危害滚停。而當它們出于同一個單倍型時(這稱為cis-configuration),因為還有一個正持嗑澹拷貝的基因(作為備胎), 基因表達很可能不會發(fā)生改變也不會產(chǎn)生危害键畴。

另一方面, Phasing在遺傳學研究中也有諸多應用,具體如下:

  • 第一影晓、人群Phasing后形成的單倍型參考序列集(Reference panel)是基因型推斷(Imputation)必須的數(shù)據(jù)材料镰吵。而基因型推斷(Imputation)是基因型-表型關聯(lián)分析研究中必不可少的環(huán)節(jié)檩禾。高質(zhì)量的Reference Panel能提升關聯(lián)分析的統(tǒng)計功效挂签;

  • 第二、除了Reference Panel的制造需要使用Phasing技術之外盼产,對被研究的對象進行預先Phasing(Pre-phasing)也可以極大地提高基因型推斷(Imputation)的準確性饵婆;

  • 第三、使用多個位點組成的Haplotype戏售,而不是簡單的單位點基因型, 可實現(xiàn)群體遺傳歷史的推斷侨核;

  • 第四、可通過Phased后的家系人群單倍型序列灌灾,估算染色體重組率搓译、重組熱點等重要遺傳參數(shù);

  • 第五锋喜、Phasing可用于探測頻發(fā)突變些己、選擇信號以及基因表達的順勢調(diào)控。

Phasing說起來容易嘿般,做起來卻很難

雖然Phasing理解起來并不難段标,但實現(xiàn)起來卻不容易,即使在理論上也是如此炉奴。這需要相關的統(tǒng)計學和計算機算法技術逼庞,求解的過程往往還是一個NP問題。目前通常采用馬爾科夫鏈蒙特卡洛算法來完成瞻赶,因此赛糟,Phasing算法本身基本都是計算密集型的,做起來也比較耗時間砸逊,有時即使是在超算集群中也得跑很長時間璧南。

Phasing的方法有哪些

Phasing的方法總結起來主要有三個:家系分型(Related individuals Phasing)、群體LD分型(LD Phasing)和物理分型(Physical Phasing)下面我就來逐一展開對其方法進行說明痹兜。

目前穆咐,基因定相****最準確的方法****是利用家系數(shù)據(jù)來實現(xiàn)。具體來說,就是除了被研究的這個個體之外对湃,同時對其父親和母親的基因組進行測序崖叫。有了這三個人的數(shù)據(jù)之后,就可以很容易地區(qū)分出這個樣本的兩個單倍體拍柒。為了便于理解心傀,我打個比方,比如我們知道他/她的基因組某一個位置上的基因型是AB拆讯,而父親的基因型是AA脂男,母親的基因型是BB,那么我們就可以清楚地知道他/她這個基因上的A是來自于父親染色體种呐,而B則是屬于母親染色體的宰翅,更多的具體情況可以參看下面這個示意圖。

image

圖2. 家系數(shù)據(jù)實現(xiàn)對子/女基因組的Phasing示意圖

這個方法的一大優(yōu)點就是定相(Phasing)的過程非常直接爽室、簡單汁讼,不需要進行復雜的統(tǒng)計學計算,就可以準確地實現(xiàn)長距離的定相阔墩,并且還能夠知道每一個基因型的親本來源到底是什么嘿架,比如在上面的例子中,我們可以知道A和B分別屬于父本和母本(如上圖)啸箫。這個親本來源的問題對于研究或者治療許多復雜疾病的意義是十分重大的耸彪,比如最近發(fā)表在《Science》上的一個研究中發(fā)現(xiàn),影響小孩發(fā)生孤獨癥(也稱自閉癥)的基因突變中父親的影響更大忘苛,除此之外還有很多母源或者父源性的疾膊跄取(這里面其實還涉及到Transmitted和Non-Transmitted Chromosome的問題),這些類型的結果如果沒有家系的數(shù)據(jù)是無法得出的柑土。

對于這個方法來說蜀肘,家系越龐大它的Phasing效果會越好。萬一很不幸我們沒能湊齊一家三口(Trio樣本)僅有雙樣本的情況稽屏,也不用灰心扮宠,雖然效果會差一些,但還是會比沒有任何族譜信息的數(shù)據(jù)要好狐榔。

家系Phasing的這個方法雖有很多難以比擬的好處坛增,但也有一些比較明顯的缺點。比如薄腻,我們?yōu)榱藢@個人進行定相分析收捣,就不得不多測另外兩個人的基因組。這一方面大大增加了原有的成本庵楷;另一方面則是有些人由于各種各樣的原因已經(jīng)難以獲取其雙親的樣本數(shù)據(jù)了罢艾;另外楣颠,這個方法其實也無法完成對該個體所有變異的完全定相,比如當碰到父咐蚯、母和子/女都是雜合突變的位點時童漩,就無法區(qū)分了。這樣的位點雖然在基因組上不是最主要的春锋,但是也大約占到了總變異位點數(shù)的13%左右矫膨,或者說有大約五分之一的雜合突變位點注意只是占所有雜合的比例)是這種不可Phasing的狀態(tài),詳細的分類情況可以參考下表:

image

表1. 能夠被Phasing和不能夠被Phasing的SNPs位點分類

LD Phasing是另外一個非常常用的基因定相方法期奔,它是利用群體中大量無血緣關系的個體侧馅,依據(jù)基本的連鎖不平衡(Linkage disequilibrium,LD)遺傳原理和相關數(shù)學模型呐萌,推斷群體中每個個體的單倍體的方法馁痴,因此它也是計算量最大的一個。

我們知道人這個物種在減數(shù)分裂產(chǎn)生生殖細胞的過程中姐妹染色單體會發(fā)生重組搁胆,這個重組的發(fā)生率每代大約是10^-8弥搞,雖然很低,但是隨著一代接一代不斷地繁衍下去渠旁,經(jīng)過足夠長的時間之后(比如說無窮!無窮船逮!無窮顾腊!)。

image

那么從理論上來講挖胃,來自同一祖先的兩條染色就會被均勻地重組一個遍杂靶。然而,遺憾的是我們現(xiàn)代人還是Too Youg Too Simple酱鸭!從最早的證據(jù)來看現(xiàn)代人的共同祖先大概起源于15萬-19萬年前(第三次走出非洲的時間)吗垮,所以至今我們也不過才經(jīng)歷了6,000-7,600代而已。

這么少的代數(shù)也就意味著染色體的重組其實還很有限凹髓,因此人類基因組中許多相鄰的區(qū)域往往都是“黏”在一起遺傳下去的烁登,這也就是所謂的存在連鎖不平衡的遺傳現(xiàn)象,這些“黏”在一起的區(qū)塊稱為“連鎖不平衡區(qū)塊”(LD Block)蔚舀。

常見變異——那些在人群中頻率占比達到5%以上的變異——所存在的連鎖不平衡區(qū)塊(LD Block饵沧,Tajima’s D > 0.5)的長度大多集中在50Kbp-60Kbp。并且LD區(qū)塊的長度在不同的人群中是不同的赌躺,比如狼牺,非洲人的LD區(qū)塊就比歐洲人和亞洲人的更短。為什么呢礼患?這是因為非洲人比歐洲人或者亞洲人都要更古老是钥,他們的基因組相比于另外的兩個人群發(fā)生了更多次數(shù)的重組掠归,所以LD區(qū)塊的長度就更短了。

LD區(qū)塊的存在就意味著我們可以通過構建相關的數(shù)學模型悄泥,來把這樣的連鎖關系求解出來拂到。在開展大規(guī)模的基因組研究計劃時(如Hapmap、國際千人基因組码泞、Haplotype reference consortium以及各國家的國家基因組計劃)兄旬,通過構建基于隱馬爾可夫模型(HMM)等的Phasing算法就可以依據(jù)測序數(shù)據(jù)或者芯片數(shù)據(jù),反推出每個個體最有可能的單倍體余寥,完成Phasing领铐。

目前,適合于以上兩種Phasing方法(家系和LD Phasing)的最好工具是Beagle和Shapeit宋舷。這兩個工具都同時包含了用于家系(Related individual Phasing)和LD Phasing的模塊绪撵。并且都可以用于測序數(shù)據(jù)和芯片數(shù)據(jù),但其中的差別在此不贅述祝蝠。

回過頭來想想LD Phasing方法的缺點是什么音诈?其實通過上面的介紹,我想大家或多或少也注意到了绎狭,由于這個方法需要依據(jù)群體的信息细溅,那么它所能夠Phasing的精度就會受到群體的制約。通常來說它只能針對群體中常見的變異(如頻率在5%以上的變異)儡嘶,在這方面它的效果確實非常棒喇聊,很多基因檢測公司甚至會把這個作為公司產(chǎn)品的買點,但對于罕見突變和個體特有的變異就不行了蹦狂。雖然隨著人群基數(shù)的增大誓篱,它所能夠Phasing的變異范圍也會隨著不斷增加,比如從只能Phasing 5%以上頻率的變異凯楔,增大到能夠Phasing 1%以上頻率的變異窜骄,但說到底它還是難以實現(xiàn)對一個個體單倍體的完全定相。

那么摆屯,到底該怎么做才能實現(xiàn)完全定相呢邻遏?

正所謂,求人不如求己鸥拧。由于有了以上的種種限制党远,于是科學家們就研發(fā)了第三類方法:****Physical Phasing——物理定相(或叫物理分型)」。它不需要家系數(shù)據(jù)富弦,也不借助LD關系沟娱,完全依賴自身的測序數(shù)據(jù),就可以完成基因的定相腕柜。

我們都知道在第二代或者三代測序中济似,一條read矫废、一對reads或者一個clone上的每一個堿基都必定來自同一個染色體(也就是同一個單倍體。對于每一個這樣的測序片段而言砰蠢,它本身就是某一個單倍體的一個“局部”蓖扑,因此現(xiàn)在的問題就變成了要如何把這些一個一個的小”局部“連成一個整體,接出完整的單倍體台舱,從而實現(xiàn)定相律杠,這就是Physical Phasing。而且如果測序序列足夠長(比如三代測序數(shù)據(jù))竞惋,深度足夠深柜去,那么它就能夠?qū)崿F(xiàn)個體的完全定相,而且有必要的話還可以同時把這兩個單倍體的完整DNA序列組裝出來拆宛,形成姐妹染色單體嗓奢,這兩個優(yōu)點是另外兩個方法難以比擬的。

長序列可以來自特殊建庫浑厚,如長度約是40Kbp的Fosmid建庫后的測序和組裝股耽,或者是華大測序儀的Long Fragment Read(LFR)測序技術,當然也可以是第三代測序的數(shù)據(jù)钳幅。

這也是我(礦工)在華大基因深度負責的第一個研究課題(我的博士論文也是基于該課題)物蝙。當時這一塊還比較空白,第三代測序技術也還不是很成熟贡这,當時為了獲得長序列茬末,我們采用了基于Fosmid構建大長度克隆片段然后進行二代測序并組裝的方法(如下圖),成果發(fā)表在2015年的《Nature Biotechnology》上盖矫,我也是共同第一作者。

image

圖3. 基于Fosmid和二代測序技術相結合的de novo Phasing方法

由于我當時已經(jīng)為課題中的一些細節(jié)寫過兩篇文章击奶,因此這里就不再展開辈双,感興趣的話你也可以查看本文最后的推薦閱讀,這里我只介紹物理定相的基本原理柜砾∨韧總的來說,要把局部的小片段連成一個大片段痰驱,從而實現(xiàn)Phasing证芭,這個過程要做的好就需要充分借助小片段上的雜合SNPs作為區(qū)分的標記。通過每個雜合位點上各個小片段中所含堿基的異同和彼此之間的重疊關系担映,我們可以把絕大部分的小片段分成兩類废士,然后通過一系列的連接、二分圖構建蝇完、二分圖求解和重新組裝等方法官硝,最后就可以把小片段逐步連成大片段矗蕊,從而構建出單倍體了,如下圖氢架。

請橫著看

image

圖3.物理定相示意圖

物理定相的方法傻咖,往往要求每個片段中都能包含較多的雜合SNPs位點,但由于人類基因組中雜合SNPs位點之間的距離普遍在1.5Kbp左右——還是比較長的岖研,因此測序片段本身就要足夠長卿操,這就需要使用包括三代測序技術在內(nèi)的一些測序方法,因此它的成本會比較高孙援。我目前所知道的在Physica Phasing方面做得比較好的機構中害淤,除了我們自己當時的小組之外,還有德國的馬克普朗克研究所( Max Planck Institute)Margret教授團隊和華大基因Brock Peter博士所在的研究組赃磨,他們建立了LFR的實驗和信息方法筝家。

小結

關于Phasing原理的介紹到此就告一段落了,這里在介紹LD Phasing和物理定相的時候沒有從數(shù)學原理方面去展開邻辉,希望可以看起來比較通俗易懂溪王,并且所有的Phasing算法都只對二倍體基因組比較有效,多倍體更加困難值骇。在實際的項目中莹菱,我們還是需要根據(jù)樣本的特點、測序策略和結果預期吱瘩,有針對性地選擇其中的一種或者多種進行組合道伟,從而達到最有效的Phasing效果,評價Phasing效果好壞的指標有兩個:

第一使碾,能夠被Phasing的變異位點越多越好蜜徽;

第二,正確被Phasing的位點數(shù)占比越高越好票摇。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末拘鞋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子矢门,更是在濱河造成了極大的恐慌盆色,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,188評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件祟剔,死亡現(xiàn)場離奇詭異隔躲,居然都是意外死亡,警方通過查閱死者的電腦和手機物延,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,464評論 3 395
  • 文/潘曉璐 我一進店門宣旱,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人教届,你說我怎么就攤上這事响鹃〖菟” “怎么了?”我有些...
    開封第一講書人閱讀 165,562評論 0 356
  • 文/不壞的土叔 我叫張陵买置,是天一觀的道長粪糙。 經(jīng)常有香客問我,道長忿项,這世上最難降的妖魔是什么蓉冈? 我笑而不...
    開封第一講書人閱讀 58,893評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮轩触,結果婚禮上寞酿,老公的妹妹穿的比我還像新娘。我一直安慰自己脱柱,他們只是感情好伐弹,可當我...
    茶點故事閱讀 67,917評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著榨为,像睡著了一般惨好。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上随闺,一...
    開封第一講書人閱讀 51,708評論 1 305
  • 那天日川,我揣著相機與錄音,去河邊找鬼矩乐。 笑死龄句,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的散罕。 我是一名探鬼主播分歇,決...
    沈念sama閱讀 40,430評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼欧漱!你這毒婦竟也來了卿樱?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,342評論 0 276
  • 序言:老撾萬榮一對情侶失蹤硫椰,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后萨蚕,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體靶草,經(jīng)...
    沈念sama閱讀 45,801評論 1 317
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,976評論 3 337
  • 正文 我和宋清朗相戀三年岳遥,在試婚紗的時候發(fā)現(xiàn)自己被綠了奕翔。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,115評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡浩蓉,死狀恐怖派继,靈堂內(nèi)的尸體忽然破棺而出宾袜,到底是詐尸還是另有隱情,我是刑警寧澤驾窟,帶...
    沈念sama閱讀 35,804評論 5 346
  • 正文 年R本政府宣布庆猫,位于F島的核電站,受9級特大地震影響绅络,放射性物質(zhì)發(fā)生泄漏月培。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,458評論 3 331
  • 文/蒙蒙 一恩急、第九天 我趴在偏房一處隱蔽的房頂上張望杉畜。 院中可真熱鬧,春花似錦衷恭、人聲如沸此叠。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,008評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽灭袁。三九已至,卻和暖如春牙丽,著一層夾襖步出監(jiān)牢的瞬間简卧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,135評論 1 272
  • 我被黑心中介騙來泰國打工烤芦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留举娩,地道東北人。 一個月前我還...
    沈念sama閱讀 48,365評論 3 373
  • 正文 我出身青樓构罗,卻偏偏與公主長得像铜涉,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子遂唧,可洞房花燭夜當晚...
    茶點故事閱讀 45,055評論 2 355

推薦閱讀更多精彩內(nèi)容