1. 什么是單倍型?
同源染色體:同源染色體,一個來自母本腔寡,一個來自于父本。
單倍型:單倍體基因型的簡稱掌唾。遺傳學(xué)上指在單條染色體上一系列遺傳變異位點的組合放前。
2. 單倍型組裝的意義?
目前糯彬,大多數(shù)二倍體基因組組裝都忽略了同源染色體之間的差異凭语,將基因組組裝成一個假的單倍體序列,這是二倍體類型的組裝的人為共識撩扒。這種人為的共識可能導(dǎo)致基因注釋的不精確和生物學(xué)解釋的錯誤似扔。
為了深入研究的需要吨些,更多的物種需要將來自父母的遺傳信息都獲得,因此參考基因組就需要獲得兩個單倍體基因組炒辉,也就是單倍型基因組豪墅。
目前單倍型技術(shù)主要應(yīng)用領(lǐng)域包括:
- 在醫(yī)學(xué)上探索致病機理,挖掘致病基因黔寇,尋找疾病治療新方法偶器;
- 在群體遺傳學(xué)上分析等位基因間差異,追蹤個體親緣關(guān)系缝裤,了解生物遷徙模式和進化歷史屏轰;
- 在農(nóng)業(yè)上發(fā)掘優(yōu)異等位基因變異,探索雜種優(yōu)勢理論等憋飞。
3. 如何進行單倍型組裝霎苗?
早期已經(jīng)提出了幾種算法來生成單倍型解析的程序集,也稱為分階段程序集榛做。FALCON-Unzip叨粘,Supernova
等使用相對短距離的序列數(shù)據(jù)進行定相,但只能解析高達9Mb的單倍型人類樣品瘤睹。這些方法無法逐步完成著絲粒或長重復(fù)答倡。擴展FALCON-Unzip
的FALCON-Phase
使用Hi-C連接相控序列模塊轰传,可以生成更長的單倍型,但無法實現(xiàn)染色體長的定相瘪撇。
近年出現(xiàn)了幾種有效的單倍型組裝方法获茬。
方法1:Trio-binning (Illumina+Pacbio)
由美國國家人類基因組研究所、Pacific Biosciences公司及阿德萊德大學(xué)等單位的研究人員開發(fā)倔既,發(fā)表在2018年10月22日的Nature Biotechnology雜志上恕曲。
Trio binning首先使用來自兩個親本基因組的高精度短讀長數(shù)據(jù)將子代的長讀長序列劃分為單倍型特異性的集合,然后每個單倍型獨立組裝渤涌,形成一個完整的二倍體重建佩谣。
組裝方法
- 1)測序:兩個親本分別二代Illumina測序,對F1代進行三代PacBio測序实蓬。
- 2)分割三代數(shù)據(jù):使用兩個親本的二代數(shù)據(jù)獲取單倍型特異性k-mers茸俭。利用特異性k-mer將三代數(shù)據(jù)分割
- 3)利用分割的數(shù)據(jù)分別組裝
優(yōu)缺點
Trio binning是一種簡便、準確安皱、高效的二倍體參考基因組組裝方法调鬓。在擬南芥、人類及牛單倍型組裝中表現(xiàn)良好酌伊,但Trio binning對樣本具有很高的要求腾窝,必須能夠獲取雙親的二代數(shù)據(jù)。
在進行數(shù)據(jù)分割時一部分雜合子reads不能明確地劃分為親本單倍型:如果雙親在某個位點上都是雜合,那么這個位點無法給reads提供有效的kmer信息虹脯,并且不能被唯一地分配給一個親本單倍型驴娃;同樣如果父本在一個位點是雜合子,而母本是純合的归形,從母本單倍型來看也不能分割托慨。在標準的trio-binning中,不能被區(qū)分的雜合reads在兩個親本數(shù)據(jù)集中都會使用暇榴。因此厚棵,這兩個等位基因可能存在于一個單倍型組合中,并引入錯誤蔼紧。另外還可能存在將reads錯誤劃分到其中一個親本的情況婆硬。
方法2:DipAsm(HiFi+Hi-C)
由李恒、Evan E. Eichler奸例、George M. Church等人聯(lián)合開發(fā)的新的基因組組裝方法彬犯,發(fā)表在2020年12月7日的Nat Biotechnol 雜志上。
DipAsm使用HiFi數(shù)據(jù)和Hi-C數(shù)據(jù)查吊,可以在1天之內(nèi)生成染色體規(guī)模的分相組裝谐区,具有98-99%的準確性。
組裝方法
- 1)Peregrine:Pacbio HiFi reads 組裝成不分相位的congtig逻卖;
- 2)HiRise / 3D-DNA:結(jié)合Hi-C數(shù)據(jù)生成不分相位的scaffold宋列;
- 3)DeepVariant :Hi-C reads mapping到scaffold上call 雜合snp;
- 4)WhatsHap和HapCUT2:處理HiFi reads和Hi-C reads雜合snp评也;
- 5)WhatsHap:根據(jù)相位分割reads炼杖;
- 6)Peregrine:分割的reads分別組裝。
優(yōu)缺點
DipAsm將促進高質(zhì)量的精準醫(yī)學(xué)以及個體單倍型變異和種群多樣性的研究盗迟,但DipAsm使用SNP信息進行定相坤邪,這對于長度長數(shù)據(jù)準確性要求高,也就是需要使用 PacBio HiFi罚缕,否則將增加SNP的錯誤率艇纺,部分涉及長SV的高度雜合區(qū)域會出現(xiàn)錯誤。
方法3:strand seq + long reads
由德國杜塞爾多夫海因里嫌实·海涅大學(xué)Tobias Marschall和美國華盛頓大學(xué)Evan E. Eichler合作喂饥,使用單細胞鏈測序和長讀取實現(xiàn)了親本數(shù)據(jù)非依賴的全階段人基因組組裝,2020年12月7日發(fā)表在Nature Biotechnology上肠鲫。
組裝方法:
Strand-seq具有三個重要功能:
- 1)它可以按染色體對reads或contig進行排序员帮;
- 2)它可以定序和定向contig;
- 3)它提供了一個染色體范圍內(nèi)的相位信號导饲,而與物理距離無關(guān)捞高。
步驟:
- 使用長reads組裝成不分相位的contig氯材;
- Strand-seq比對到congtig上,contig進行排序和連接硝岗,形成染色體氢哮;
- 長reads mapping到 染色體上call SNVs;
- WhatsHap:利用SNVs 分割長reads型檀;
- wtdbg2 , Flye, Canu or Peregrine2:分割的reads分別組裝冗尤。
優(yōu)缺點:
組裝準確(質(zhì)量值> 40)且高度連續(xù)(contig N50> 23 Mbp)、轉(zhuǎn)換錯誤率低(0.17%)胀溺、并可提供了全相單核苷酸變體裂七、插入缺失和結(jié)構(gòu)變體等。
Strand-seq是一種單細胞技術(shù)仓坞,它不需要親本或配子背零,這種技術(shù)利用基因圖譜技術(shù)對染色體、單倍型和scaffold的長序列進行聚類无埃; 然而徙瓶,生成Strand-seq數(shù)據(jù)的困難限制了它在少數(shù)模型物種中的應(yīng)用。