單體型組裝入門介紹

作者:Arno
審稿:童蒙
編輯:angelica

概念

01 同源染色體

在介紹單體型之前尖奔,先來(lái)了解幾個(gè)概念,即

  • 同源染色體
  • 非同源染色體
  • 姐妹染色單體

減數(shù)第一次分裂前期發(fā)生聯(lián)會(huì)現(xiàn)象的一條來(lái)自于父本复局,一條來(lái)自于母本菜谣,形態(tài)、結(jié)構(gòu)基本相同的染色體互為同源染色體是嗜,除了互為同源染色體的解取,其他染色體互為非同源染色體步责,姐妹染色單體是一條染色體復(fù)制之后產(chǎn)生的,兩條姐妹染色單體只有一個(gè)著絲點(diǎn)禀苦,而且形態(tài)大小相同蔓肯。

02 單體型

單體型(Haplotype,haploid genotype)是個(gè)體組織中,完全遺傳自父母雙方中一個(gè)親本的一系列遺傳變異位點(diǎn)的組合振乏,又稱單倍體型或者單倍型蔗包。往往擁有特定SNP的個(gè)體通常在附近某一特定變異位點(diǎn)擁有特定等位基因,這種關(guān)系叫做連鎖不平衡(linkage disequilibrium,LD)慧邮,同一染色體上的這種情況的集合即為單體型调限。
目前對(duì)于常規(guī)的2倍體基因組組裝軟件,一般會(huì)忽略同源染色體之間的差異误澳,最終往往得到同源染色體嵌合的假單倍體序列基因組耻矮,這對(duì)于基因組組裝的后續(xù),如注釋忆谓、進(jìn)化等方面的研究都存在一定的影響裆装。因此,為了獲得更精準(zhǔn)陪毡,更完整的基因組米母,越來(lái)越多的研究開(kāi)始組裝單體型的基因組勾扭。

應(yīng)用

單體型目前應(yīng)用在醫(yī)學(xué)毡琉、農(nóng)業(yè)、群體遺傳學(xué)等各個(gè)方向妙色。

  • 在醫(yī)學(xué)上桅滋,通過(guò)構(gòu)建區(qū)域的單體型基因組片段,來(lái)更好的研究某些連鎖不平衡的基因位點(diǎn)身辨,也可以幫助發(fā)現(xiàn)高度復(fù)雜的變異丐谋,如嵌套的結(jié)構(gòu)變異、倒位及復(fù)雜的變異重排等煌珊,探索致病的機(jī)理号俐,來(lái)尋找疾病治療的新方法;
  • 在農(nóng)作物的遺傳育種方面定庵,通過(guò)單體型基因組吏饿,可以挖掘優(yōu)異的關(guān)聯(lián)的等位基因變異踪危,探索雜種優(yōu)勢(shì)理論;
  • 在群體遺傳學(xué)上通過(guò)分析等位基因間差異猪落,更精確的追蹤個(gè)體親緣關(guān)系贞远,了解生物遷移模式和進(jìn)化歷史等生物學(xué)問(wèn)題。

研究技術(shù)

目前單體型分析的方法主要有3大類笨忌。
第一類是間接推斷法
通過(guò)構(gòu)建一些關(guān)聯(lián)群體的基因池或者根據(jù)同一家族眾多個(gè)體的基因型信息蓝仲,結(jié)合連鎖不平衡的遺傳原理,利用相關(guān)數(shù)學(xué)模型對(duì)待測(cè)群體進(jìn)行分析推斷官疲,主要包括群體推斷法和家族推斷法袱结,這類方法的錯(cuò)誤率較高,能達(dá)到19%-48%袁余。

第二類是直接實(shí)驗(yàn)法
使用特殊的實(shí)驗(yàn)方法在一段有限的染色體區(qū)域或單染色體上獲得精確的單倍型信息擎勘,包括單分子稀釋法、染色體微切割及流式分離等方法颖榜,這種方法準(zhǔn)確率高棚饵,但是過(guò)程繁瑣、實(shí)驗(yàn)周期長(zhǎng)掩完、費(fèi)用也較高噪漾。

第三類是基于單體型的組裝方法
主要有兩種方法,一種是有親本數(shù)據(jù)時(shí)且蓬,在組裝時(shí)參考親本的數(shù)據(jù)進(jìn)行分型欣硼,組裝出兩套單體型的基因組,另外一種方法是基于變異信息恶阴,將組裝的reads分成單體型的兩套诈胜,再分別進(jìn)行組裝。

目前隨著三代測(cè)序技術(shù)的發(fā)展冯事,基因組組裝較之前已經(jīng)突飛猛進(jìn)焦匈,尤其是PacBio的HiFi測(cè)序,在保證測(cè)序長(zhǎng)度的同時(shí)昵仅,將堿基準(zhǔn)確度提升到了二代測(cè)序的水平缓熟,因此直接使用高深度測(cè)序的方法進(jìn)行單體型的組裝也是非常火熱的方向摔笤。

單體型組裝技術(shù)

01 基于親本數(shù)據(jù)的主流單體型組裝思路

一類是在組裝過(guò)程中够滑,基于親本的二代測(cè)序數(shù)據(jù)、HiC數(shù)據(jù)或者10X linked reads測(cè)序數(shù)據(jù)等吕世,對(duì)組裝進(jìn)行分型輸出彰触,如李恒他們開(kāi)發(fā)的hifiasm軟件。當(dāng)沒(méi)有親本數(shù)據(jù)命辖,會(huì)將區(qū)分不開(kāi)的buble數(shù)據(jù)全部輸出到一個(gè)主要的組裝輸出結(jié)果中况毅,即primary assembly晚伙,而另外一個(gè)結(jié)果為Alternate assembly,這樣primary assembly會(huì)存在一些無(wú)法區(qū)分的冗余或嵌合序列俭茧;而當(dāng)有其他輔助數(shù)據(jù)時(shí)咆疗,會(huì)以此為參考對(duì)buble數(shù)據(jù)進(jìn)行分型輸出,其結(jié)果相對(duì)準(zhǔn)確母债。

另外一種基于親本的單體型組裝思路為trio binning的策略午磁,直接利用親本的數(shù)據(jù)將子代的測(cè)序數(shù)據(jù)進(jìn)行拆分,拆分成父系遺傳的序列和母系遺傳的序列毡们,然后分別進(jìn)行組裝迅皇,組裝遺傳自母本和父本的基因組。

02 不基于親本數(shù)據(jù)的主流單體型組裝思路

當(dāng)沒(méi)有親本數(shù)據(jù)時(shí)衙熔,單體型組裝思路為登颓,首先按照常規(guī)組裝方法組裝出未分型的scaffolds數(shù)據(jù),然后再使用PacBio的hifi數(shù)據(jù)或者ONT的長(zhǎng)reads數(shù)據(jù)回比到組裝的基因組上红氯,call SNPs ,然后再利用分型軟件如Whatshap或者HapCut2等框咙,對(duì)SNPs進(jìn)行分型,基于分型的數(shù)據(jù)將原始的長(zhǎng)reads測(cè)序數(shù)據(jù)分開(kāi)兩堆痢甘,再分別進(jìn)行組裝喇嘱,從而得到兩套獨(dú)立的單體型基因組。

總結(jié)

通過(guò)這篇文章塞栅,相信大家有了一定的了解了者铜,請(qǐng)后續(xù)繼續(xù)關(guān)注我們吧,還會(huì)有更多的組裝干貨分享放椰。

參考文獻(xiàn)

  1. https://mp.weixin.qq.com/s/6qm18N5U_uMymhY48u70Gw
  2. Lawson DJ, et al. Inference of population structure using dense haplotype data. PLoS Genet. 2012 Jan;8(1):e1002453.
  3. Song S, et al. Modeling Human Population Separation History Using Physically Phased Genomes. Genetics. 2017 Jan;205(1):385-395.
  4. Nilsen KT, et al. High density mapping and haplotype analysis of the major stem-solidness locus SSt1 in durum and common wheat. PLoS One. 2017 Apr 11;12(4):e0175285.
  5. Cheng H, et al. Haplotype-resolved de novo assembly using phased assembly graphs with hifiasm. Nat Methods. 2021 Feb;18(2):170-175.
  6. Yang, C., Zhou, Y., Marcus, S. et al. Evolutionary and biomedical insights from a marmoset diploid genome assembly. Nature (2021).
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末作烟,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子砾医,更是在濱河造成了極大的恐慌拿撩,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,270評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件藻烤,死亡現(xiàn)場(chǎng)離奇詭異绷雏,居然都是意外死亡头滔,警方通過(guò)查閱死者的電腦和手機(jī)怖亭,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,489評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)坤检,“玉大人兴猩,你說(shuō)我怎么就攤上這事≡缧” “怎么了倾芝?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,630評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵讨勤,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我晨另,道長(zhǎng)潭千,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,906評(píng)論 1 295
  • 正文 為了忘掉前任借尿,我火速辦了婚禮刨晴,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘路翻。我一直安慰自己狈癞,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,928評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布茂契。 她就那樣靜靜地躺著蝶桶,像睡著了一般。 火紅的嫁衣襯著肌膚如雪掉冶。 梳的紋絲不亂的頭發(fā)上真竖,一...
    開(kāi)封第一講書(shū)人閱讀 51,718評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音厌小,去河邊找鬼疼邀。 笑死,一個(gè)胖子當(dāng)著我的面吹牛召锈,可吹牛的內(nèi)容都是我干的旁振。 我是一名探鬼主播,決...
    沈念sama閱讀 40,442評(píng)論 3 420
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼涨岁,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼拐袜!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起梢薪,我...
    開(kāi)封第一講書(shū)人閱讀 39,345評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤蹬铺,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后秉撇,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體甜攀,經(jīng)...
    沈念sama閱讀 45,802評(píng)論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,984評(píng)論 3 337
  • 正文 我和宋清朗相戀三年琐馆,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了规阀。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,117評(píng)論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡瘦麸,死狀恐怖谁撼,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情滋饲,我是刑警寧澤厉碟,帶...
    沈念sama閱讀 35,810評(píng)論 5 346
  • 正文 年R本政府宣布喊巍,位于F島的核電站,受9級(jí)特大地震影響箍鼓,放射性物質(zhì)發(fā)生泄漏崭参。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,462評(píng)論 3 331
  • 文/蒙蒙 一款咖、第九天 我趴在偏房一處隱蔽的房頂上張望阵翎。 院中可真熱鬧,春花似錦之剧、人聲如沸郭卫。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,011評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)贰军。三九已至,卻和暖如春蟹肘,著一層夾襖步出監(jiān)牢的瞬間词疼,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,139評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工帘腹, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留贰盗,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,377評(píng)論 3 373
  • 正文 我出身青樓阳欲,卻偏偏與公主長(zhǎng)得像舵盈,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子球化,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,060評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容