單體型組裝入門介紹

作者：Arno
審稿：童蒙
編輯：angelica

概念

01 同源染色體

在介紹單體型之前尖奔，先來(lái)了解幾個(gè)概念，即

同源染色體
非同源染色體
姐妹染色單體

減數(shù)第一次分裂前期發(fā)生聯(lián)會(huì)現(xiàn)象的一條來(lái)自于父本复局，一條來(lái)自于母本菜谣，形態(tài)、結(jié)構(gòu)基本相同的染色體互為同源染色體是嗜，除了互為同源染色體的解取，其他染色體互為非同源染色體步责，姐妹染色單體是一條染色體復(fù)制之后產(chǎn)生的，兩條姐妹染色單體只有一個(gè)著絲點(diǎn)禀苦，而且形態(tài)大小相同蔓肯。

02 單體型

單體型（Haplotype,haploid genotype）是個(gè)體組織中，完全遺傳自父母雙方中一個(gè)親本的一系列遺傳變異位點(diǎn)的組合振乏，又稱單倍體型或者單倍型蔗包。往往擁有特定SNP的個(gè)體通常在附近某一特定變異位點(diǎn)擁有特定等位基因，這種關(guān)系叫做連鎖不平衡（linkage disequilibrium,LD）慧邮，同一染色體上的這種情況的集合即為單體型调限。
目前對(duì)于常規(guī)的2倍體基因組組裝軟件，一般會(huì)忽略同源染色體之間的差異误澳，最終往往得到同源染色體嵌合的假單倍體序列基因組耻矮，這對(duì)于基因組組裝的后續(xù)，如注釋忆谓、進(jìn)化等方面的研究都存在一定的影響裆装。因此，為了獲得更精準(zhǔn)陪毡，更完整的基因組米母，越來(lái)越多的研究開(kāi)始組裝單體型的基因組勾扭。

應(yīng)用

單體型目前應(yīng)用在醫(yī)學(xué)毡琉、農(nóng)業(yè)、群體遺傳學(xué)等各個(gè)方向妙色。

在醫(yī)學(xué)上桅滋，通過(guò)構(gòu)建區(qū)域的單體型基因組片段，來(lái)更好的研究某些連鎖不平衡的基因位點(diǎn)身辨，也可以幫助發(fā)現(xiàn)高度復(fù)雜的變異丐谋，如嵌套的結(jié)構(gòu)變異、倒位及復(fù)雜的變異重排等煌珊，探索致病的機(jī)理号俐，來(lái)尋找疾病治療的新方法；
在農(nóng)作物的遺傳育種方面定庵，通過(guò)單體型基因組吏饿，可以挖掘優(yōu)異的關(guān)聯(lián)的等位基因變異踪危，探索雜種優(yōu)勢(shì)理論；
在群體遺傳學(xué)上通過(guò)分析等位基因間差異猪落，更精確的追蹤個(gè)體親緣關(guān)系贞远，了解生物遷移模式和進(jìn)化歷史等生物學(xué)問(wèn)題。

研究技術(shù)

目前單體型分析的方法主要有3大類笨忌。
第一類是間接推斷法
通過(guò)構(gòu)建一些關(guān)聯(lián)群體的基因池或者根據(jù)同一家族眾多個(gè)體的基因型信息蓝仲，結(jié)合連鎖不平衡的遺傳原理，利用相關(guān)數(shù)學(xué)模型對(duì)待測(cè)群體進(jìn)行分析推斷官疲，主要包括群體推斷法和家族推斷法袱结，這類方法的錯(cuò)誤率較高，能達(dá)到19%-48%袁余。

第二類是直接實(shí)驗(yàn)法
使用特殊的實(shí)驗(yàn)方法在一段有限的染色體區(qū)域或單染色體上獲得精確的單倍型信息擎勘，包括單分子稀釋法、染色體微切割及流式分離等方法颖榜，這種方法準(zhǔn)確率高棚饵，但是過(guò)程繁瑣、實(shí)驗(yàn)周期長(zhǎng)掩完、費(fèi)用也較高噪漾。

第三類是基于單體型的組裝方法
主要有兩種方法，一種是有親本數(shù)據(jù)時(shí)且蓬，在組裝時(shí)參考親本的數(shù)據(jù)進(jìn)行分型欣硼，組裝出兩套單體型的基因組，另外一種方法是基于變異信息恶阴，將組裝的reads分成單體型的兩套诈胜，再分別進(jìn)行組裝。

目前隨著三代測(cè)序技術(shù)的發(fā)展冯事，基因組組裝較之前已經(jīng)突飛猛進(jìn)焦匈，尤其是PacBio的HiFi測(cè)序，在保證測(cè)序長(zhǎng)度的同時(shí)昵仅，將堿基準(zhǔn)確度提升到了二代測(cè)序的水平缓熟，因此直接使用高深度測(cè)序的方法進(jìn)行單體型的組裝也是非常火熱的方向摔笤。

單體型組裝技術(shù)

01 基于親本數(shù)據(jù)的主流單體型組裝思路

一類是在組裝過(guò)程中够滑，基于親本的二代測(cè)序數(shù)據(jù)、HiC數(shù)據(jù)或者10X linked reads測(cè)序數(shù)據(jù)等吕世，對(duì)組裝進(jìn)行分型輸出彰触，如李恒他們開(kāi)發(fā)的hifiasm軟件。當(dāng)沒(méi)有親本數(shù)據(jù)命辖，會(huì)將區(qū)分不開(kāi)的buble數(shù)據(jù)全部輸出到一個(gè)主要的組裝輸出結(jié)果中况毅，即primary assembly晚伙，而另外一個(gè)結(jié)果為Alternate assembly，這樣primary assembly會(huì)存在一些無(wú)法區(qū)分的冗余或嵌合序列俭茧；而當(dāng)有其他輔助數(shù)據(jù)時(shí)咆疗，會(huì)以此為參考對(duì)buble數(shù)據(jù)進(jìn)行分型輸出，其結(jié)果相對(duì)準(zhǔn)確母债。

另外一種基于親本的單體型組裝思路為trio binning的策略午磁，直接利用親本的數(shù)據(jù)將子代的測(cè)序數(shù)據(jù)進(jìn)行拆分，拆分成父系遺傳的序列和母系遺傳的序列毡们，然后分別進(jìn)行組裝迅皇，組裝遺傳自母本和父本的基因組。

02 不基于親本數(shù)據(jù)的主流單體型組裝思路

當(dāng)沒(méi)有親本數(shù)據(jù)時(shí)衙熔，單體型組裝思路為登颓，首先按照常規(guī)組裝方法組裝出未分型的scaffolds數(shù)據(jù)，然后再使用PacBio的hifi數(shù)據(jù)或者ONT的長(zhǎng)reads數(shù)據(jù)回比到組裝的基因組上红氯，call SNPs ,然后再利用分型軟件如Whatshap或者HapCut2等框咙，對(duì)SNPs進(jìn)行分型，基于分型的數(shù)據(jù)將原始的長(zhǎng)reads測(cè)序數(shù)據(jù)分開(kāi)兩堆痢甘，再分別進(jìn)行組裝喇嘱，從而得到兩套獨(dú)立的單體型基因組。

總結(jié)

通過(guò)這篇文章塞栅，相信大家有了一定的了解了者铜，請(qǐng)后續(xù)繼續(xù)關(guān)注我們吧，還會(huì)有更多的組裝干貨分享放椰。

參考文獻(xiàn)

https://mp.weixin.qq.com/s/6qm18N5U_uMymhY48u70Gw
Lawson DJ, et al. Inference of population structure using dense haplotype data. PLoS Genet. 2012 Jan;8(1):e1002453.
Song S, et al. Modeling Human Population Separation History Using Physically Phased Genomes. Genetics. 2017 Jan;205(1):385-395.
Nilsen KT, et al. High density mapping and haplotype analysis of the major stem-solidness locus SSt1 in durum and common wheat. PLoS One. 2017 Apr 11;12(4):e0175285.
Cheng H, et al. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm. Nat Methods. 2021 Feb;18(2):170-175.
Yang, C., Zhou, Y., Marcus, S. et al. Evolutionary and biomedical insights from a marmoset diploid genome assembly. Nature (2021).

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末作烟，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子砾医，更是在濱河造成了極大的恐慌拿撩，老刑警劉巖，帶你破解...
沈念sama閱讀 219,270評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件藻烤，死亡現(xiàn)場(chǎng)離奇詭異绷雏，居然都是意外死亡头滔，警方通過(guò)查閱死者的電腦和手機(jī)怖亭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,489評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)坤检，“玉大人兴猩，你說(shuō)我怎么就攤上這事≡缧” “怎么了倾芝？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵讨勤，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我晨另，道長(zhǎng)潭千，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任借尿，我火速辦了婚禮刨晴，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘路翻。我一直安慰自己狈癞，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,928評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布茂契。她就那樣靜靜地躺著蝶桶，像睡著了一般。火紅的嫁衣襯著肌膚如雪掉冶。梳的紋絲不亂的頭發(fā)上真竖，一...
開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音厌小，去河邊找鬼疼邀。笑死，一個(gè)胖子當(dāng)著我的面吹牛召锈，可吹牛的內(nèi)容都是我干的旁振。我是一名探鬼主播，決...
沈念sama閱讀 40,442評(píng)論 3贊 420
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼涨岁，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼拐袜！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起梢薪，我...
開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤蹬铺，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后秉撇，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體甜攀，經(jīng)...
沈念sama閱讀 45,802評(píng)論 1贊 317
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,984評(píng)論 3贊 337
?白月光啟示錄
正文我和宋清朗相戀三年琐馆，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了规阀。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,117評(píng)論 1贊 351
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡瘦麸，死狀恐怖谁撼，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情滋饲，我是刑警寧澤厉碟，帶...
沈念sama閱讀 35,810評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布喊巍，位于F島的核電站，受9級(jí)特大地震影響箍鼓，放射性物質(zhì)發(fā)生泄漏崭参。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,462評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一款咖、第九天我趴在偏房一處隱蔽的房頂上張望阵翎。院中可真熱鬧，春花似錦之剧、人聲如沸郭卫。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0贊 22
一樁弒父案背稼，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)贰军。三九已至，卻和暖如春蟹肘，著一層夾襖步出監(jiān)牢的瞬間词疼，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工帘腹，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贰盗，地道東北人。一個(gè)月前我還...
沈念sama閱讀 48,377評(píng)論 3贊 373
代替公主和親
正文我出身青樓阳欲，卻偏偏與公主長(zhǎng)得像舵盈，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子球化，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,060評(píng)論 2贊 355