作者:Arno
審稿:童蒙
編輯:angelica
概念
01 同源染色體
在介紹單體型之前尖奔,先來(lái)了解幾個(gè)概念,即
- 同源染色體
- 非同源染色體
- 姐妹染色單體
減數(shù)第一次分裂前期發(fā)生聯(lián)會(huì)現(xiàn)象的一條來(lái)自于父本复局,一條來(lái)自于母本菜谣,形態(tài)、結(jié)構(gòu)基本相同的染色體互為同源染色體是嗜,除了互為同源染色體的解取,其他染色體互為非同源染色體步责,姐妹染色單體是一條染色體復(fù)制之后產(chǎn)生的,兩條姐妹染色單體只有一個(gè)著絲點(diǎn)禀苦,而且形態(tài)大小相同蔓肯。
02 單體型
單體型(Haplotype,haploid genotype)是個(gè)體組織中,完全遺傳自父母雙方中一個(gè)親本的一系列遺傳變異位點(diǎn)的組合振乏,又稱單倍體型或者單倍型蔗包。往往擁有特定SNP的個(gè)體通常在附近某一特定變異位點(diǎn)擁有特定等位基因,這種關(guān)系叫做連鎖不平衡(linkage disequilibrium,LD)慧邮,同一染色體上的這種情況的集合即為單體型调限。
目前對(duì)于常規(guī)的2倍體基因組組裝軟件,一般會(huì)忽略同源染色體之間的差異误澳,最終往往得到同源染色體嵌合的假單倍體序列基因組耻矮,這對(duì)于基因組組裝的后續(xù),如注釋忆谓、進(jìn)化等方面的研究都存在一定的影響裆装。因此,為了獲得更精準(zhǔn)陪毡,更完整的基因組米母,越來(lái)越多的研究開(kāi)始組裝單體型的基因組勾扭。
應(yīng)用
單體型目前應(yīng)用在醫(yī)學(xué)毡琉、農(nóng)業(yè)、群體遺傳學(xué)等各個(gè)方向妙色。
- 在醫(yī)學(xué)上桅滋,通過(guò)構(gòu)建區(qū)域的單體型基因組片段,來(lái)更好的研究某些連鎖不平衡的基因位點(diǎn)身辨,也可以幫助發(fā)現(xiàn)高度復(fù)雜的變異丐谋,如嵌套的結(jié)構(gòu)變異、倒位及復(fù)雜的變異重排等煌珊,探索致病的機(jī)理号俐,來(lái)尋找疾病治療的新方法;
- 在農(nóng)作物的遺傳育種方面定庵,通過(guò)單體型基因組吏饿,可以挖掘優(yōu)異的關(guān)聯(lián)的等位基因變異踪危,探索雜種優(yōu)勢(shì)理論;
- 在群體遺傳學(xué)上通過(guò)分析等位基因間差異猪落,更精確的追蹤個(gè)體親緣關(guān)系贞远,了解生物遷移模式和進(jìn)化歷史等生物學(xué)問(wèn)題。
研究技術(shù)
目前單體型分析的方法主要有3大類笨忌。
第一類是間接推斷法
通過(guò)構(gòu)建一些關(guān)聯(lián)群體的基因池或者根據(jù)同一家族眾多個(gè)體的基因型信息蓝仲,結(jié)合連鎖不平衡的遺傳原理,利用相關(guān)數(shù)學(xué)模型對(duì)待測(cè)群體進(jìn)行分析推斷官疲,主要包括群體推斷法和家族推斷法袱结,這類方法的錯(cuò)誤率較高,能達(dá)到19%-48%袁余。
第二類是直接實(shí)驗(yàn)法
使用特殊的實(shí)驗(yàn)方法在一段有限的染色體區(qū)域或單染色體上獲得精確的單倍型信息擎勘,包括單分子稀釋法、染色體微切割及流式分離等方法颖榜,這種方法準(zhǔn)確率高棚饵,但是過(guò)程繁瑣、實(shí)驗(yàn)周期長(zhǎng)掩完、費(fèi)用也較高噪漾。
第三類是基于單體型的組裝方法
主要有兩種方法,一種是有親本數(shù)據(jù)時(shí)且蓬,在組裝時(shí)參考親本的數(shù)據(jù)進(jìn)行分型欣硼,組裝出兩套單體型的基因組,另外一種方法是基于變異信息恶阴,將組裝的reads分成單體型的兩套诈胜,再分別進(jìn)行組裝。
目前隨著三代測(cè)序技術(shù)的發(fā)展冯事,基因組組裝較之前已經(jīng)突飛猛進(jìn)焦匈,尤其是PacBio的HiFi測(cè)序,在保證測(cè)序長(zhǎng)度的同時(shí)昵仅,將堿基準(zhǔn)確度提升到了二代測(cè)序的水平缓熟,因此直接使用高深度測(cè)序的方法進(jìn)行單體型的組裝也是非常火熱的方向摔笤。
單體型組裝技術(shù)
01 基于親本數(shù)據(jù)的主流單體型組裝思路
一類是在組裝過(guò)程中够滑,基于親本的二代測(cè)序數(shù)據(jù)、HiC數(shù)據(jù)或者10X linked reads測(cè)序數(shù)據(jù)等吕世,對(duì)組裝進(jìn)行分型輸出彰触,如李恒他們開(kāi)發(fā)的hifiasm軟件。當(dāng)沒(méi)有親本數(shù)據(jù)命辖,會(huì)將區(qū)分不開(kāi)的buble數(shù)據(jù)全部輸出到一個(gè)主要的組裝輸出結(jié)果中况毅,即primary assembly晚伙,而另外一個(gè)結(jié)果為Alternate assembly,這樣primary assembly會(huì)存在一些無(wú)法區(qū)分的冗余或嵌合序列俭茧;而當(dāng)有其他輔助數(shù)據(jù)時(shí)咆疗,會(huì)以此為參考對(duì)buble數(shù)據(jù)進(jìn)行分型輸出,其結(jié)果相對(duì)準(zhǔn)確母债。
另外一種基于親本的單體型組裝思路為trio binning的策略午磁,直接利用親本的數(shù)據(jù)將子代的測(cè)序數(shù)據(jù)進(jìn)行拆分,拆分成父系遺傳的序列和母系遺傳的序列毡们,然后分別進(jìn)行組裝迅皇,組裝遺傳自母本和父本的基因組。
02 不基于親本數(shù)據(jù)的主流單體型組裝思路
當(dāng)沒(méi)有親本數(shù)據(jù)時(shí)衙熔,單體型組裝思路為登颓,首先按照常規(guī)組裝方法組裝出未分型的scaffolds數(shù)據(jù),然后再使用PacBio的hifi數(shù)據(jù)或者ONT的長(zhǎng)reads數(shù)據(jù)回比到組裝的基因組上红氯,call SNPs ,然后再利用分型軟件如Whatshap或者HapCut2等框咙,對(duì)SNPs進(jìn)行分型,基于分型的數(shù)據(jù)將原始的長(zhǎng)reads測(cè)序數(shù)據(jù)分開(kāi)兩堆痢甘,再分別進(jìn)行組裝喇嘱,從而得到兩套獨(dú)立的單體型基因組。
總結(jié)
通過(guò)這篇文章塞栅,相信大家有了一定的了解了者铜,請(qǐng)后續(xù)繼續(xù)關(guān)注我們吧,還會(huì)有更多的組裝干貨分享放椰。
參考文獻(xiàn)
- https://mp.weixin.qq.com/s/6qm18N5U_uMymhY48u70Gw
- Lawson DJ, et al. Inference of population structure using dense haplotype data. PLoS Genet. 2012 Jan;8(1):e1002453.
- Song S, et al. Modeling Human Population Separation History Using Physically Phased Genomes. Genetics. 2017 Jan;205(1):385-395.
- Nilsen KT, et al. High density mapping and haplotype analysis of the major stem-solidness locus SSt1 in durum and common wheat. PLoS One. 2017 Apr 11;12(4):e0175285.
- Cheng H, et al. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm. Nat Methods. 2021 Feb;18(2):170-175.
- Yang, C., Zhou, Y., Marcus, S. et al. Evolutionary and biomedical insights from a marmoset diploid genome assembly. Nature (2021).