目前熱門的單體型基因組組裝,以下內(nèi)容來源于安諾的單體型基因組組裝新品發(fā)布會(huì)
單體型也稱為單倍型康愤。二倍體有兩套染色體單體儡循,一套來自父本,一套來自母本征冷。在父本和母本之間會(huì)存在一些差異择膝。特別是一些雜合度比較高的基因組,survey的雜合度超過1.2%检激,甚至達(dá)到2%的肴捉,可能就需要進(jìn)行單體型組裝踊赠。
單體型組裝后可以大大降低重測(cè)序比對(duì)的SNP數(shù)量,同時(shí)增加indel數(shù)量每庆】鸫可以進(jìn)行基因印跡或母體遺傳分析。
在農(nóng)作物的遺傳育種方面缤灵,通過單體型基因組伦籍,可以挖掘優(yōu)異的關(guān)聯(lián)的等位基因變異,探索雜種優(yōu)勢(shì)理論腮出;
在群體遺傳學(xué)上通過分析等位基因間差異帖鸦,更精確的追蹤個(gè)體親緣關(guān)系,了解生物遷移模式和進(jìn)化歷史等生物學(xué)問題胚嘲。
ADPA(有親本二倍體單體型)
雙親本分別進(jìn)行二代測(cè)序作儿,計(jì)算k-mer,Pacbio的Hifi的數(shù)據(jù)根據(jù)親本的序列來分型,同時(shí)Hic用來掛載染色體馋劈。
AUPPA(無親本單體型)
無親本的單體型的分型工作相比于有親本的會(huì)比較差攻锰,有些block內(nèi)會(huì)存在嵌合型。
ATPA(同源四倍體單體型)
對(duì)于異源四倍體可以按照二倍體來處理妓雾。但是同源四倍體需要特殊處理娶吞。可以同時(shí)提供雙親本的二代序列或近緣二倍體的基因組序列械姻,然后用于變異檢測(cè)和分型妒蛇。
二倍體的單體型組裝流程
- 鑒定:識(shí)別基礎(chǔ)組裝的contig中組裝出的單體型區(qū)塊;
- 拆分:將contig按照可拆分單體型的基因組區(qū)域和不可拆分單體型的基因組區(qū)域進(jìn)行拆分打斷楷拳;
- 比對(duì):將Hi-C reads比對(duì)到打斷后的contig上绣夺,構(gòu)建標(biāo)準(zhǔn)化的互作矩陣;
- 掛載:經(jīng)過Hi-C輔助組裝掛載獲得單條染色體長(zhǎng)度的單體型基因組組裝欢揖。
測(cè)序策略:
- 適當(dāng)覆蓋度的父母本高質(zhì)量二代數(shù)據(jù)(Illumina ≥30X)陶耍,用于鑒定親本特異性來源的K-mers,在子代中分開兩個(gè)單體型浸颓;
- 子代中足夠覆蓋每個(gè)單體型基因組的長(zhǎng)讀長(zhǎng)測(cè)序數(shù)據(jù)(Pacbio ≥80X物臂,每組染色體的覆蓋度≥40X),用于組裝單體型基因組产上。
下面2條的內(nèi)容轉(zhuǎn)載自鏈接:https://blog.csdn.net/u010608296/article/details/120630947
01 基于親本數(shù)據(jù)的主流單體型組裝思路
一類是在組裝過程中棵磷,基于親本的二代測(cè)序數(shù)據(jù)、HiC數(shù)據(jù)或者10X linked reads測(cè)序數(shù)據(jù)等晋涣,對(duì)組裝進(jìn)行分型輸出仪媒,如李恒他們開發(fā)的hifiasm軟件。當(dāng)沒有親本數(shù)據(jù),會(huì)將區(qū)分不開的buble數(shù)據(jù)全部輸出到一個(gè)主要的組裝輸出結(jié)果中算吩,即primary assembly留凭,而另外一個(gè)結(jié)果為Alternate assembly,這樣primary assembly會(huì)存在一些無法區(qū)分的冗余或嵌合序列偎巢;而當(dāng)有其他輔助數(shù)據(jù)時(shí)蔼夜,會(huì)以此為參考對(duì)buble數(shù)據(jù)進(jìn)行分型輸出,其結(jié)果相對(duì)準(zhǔn)確压昼。
另外一種基于親本的單體型組裝思路為trio binning的策略求冷,直接利用親本的數(shù)據(jù)將子代的測(cè)序數(shù)據(jù)進(jìn)行拆分,拆分成父系遺傳的序列和母系遺傳的序列窍霞,然后分別進(jìn)行組裝匠题,組裝遺傳自母本和父本的基因組。
02 不基于親本數(shù)據(jù)的主流單體型組裝思路
當(dāng)沒有親本數(shù)據(jù)時(shí)但金,單體型組裝思路為韭山,首先按照常規(guī)組裝方法組裝出未分型的scaffolds數(shù)據(jù),然后再使用PacBio的hifi數(shù)據(jù)或者ONT的長(zhǎng)reads數(shù)據(jù)回比到組裝的基因組上冷溃,call SNPs ,然后再利用分型軟件如Whatshap或者HapCut2等钱磅,對(duì)SNPs進(jìn)行分型,基于分型的數(shù)據(jù)將原始的長(zhǎng)reads測(cè)序數(shù)據(jù)分開兩堆秃诵,再分別進(jìn)行組裝续搀,從而得到兩套獨(dú)立的單體型基因組塞琼。
已發(fā)表的文獻(xiàn)的策略
2021 Nature Genetic 茶樹基因組
2022 Nature Genetic 同源四倍體馬鈴薯基因組
茶樹的方法(安諾)
基因組雜合度為2.31%菠净,雜合率比較高。
測(cè)序數(shù)據(jù)深度:114x Pacbio 和 58X illumina
先使用CANU組裝彪杉,然后使用Khaper 計(jì)算二倍體單倍型的K-mer毅往,主要是用來過濾冗余序列。ALLHic來輔助基因組組裝.
后續(xù)使用重測(cè)序派近,進(jìn)行了漸滲分析攀唯。
同源四倍體馬鈴薯基因組
測(cè)序數(shù)據(jù)量:
基因組survey