前言
植物基因組大小跨越幾個數(shù)量級馒过,倍性和雜合性變化坚俗,以及新舊基因組轉(zhuǎn)座子變化等帶來組裝挑戰(zhàn)。三代和物理圖譜提供了新機會尸昧,單倍型定相揩页、結(jié)構(gòu)變異分析、從頭泛基因組研究成為新興組裝熱點烹俗。
植物基因組發(fā)展:
- 擬南芥:sanger BAC-by-BAC碍沐。
- shotgun OLC (CELERA assembler):木瓜、大豆衷蜓、楊樹等早期測序植物。
- 454/Illumina DBG 短序列高深度帶來植物基因組組裝大爆發(fā)尘喝,但質(zhì)量較低磁浇。
- 單分子PacBio長度長帶來接近完整染色體組裝。
- 輔助技術(shù)發(fā)展:Hi-C/BioNano(無需昂貴的BAC物理圖譜)
- ONT納米孔能達上Mb朽褪,組裝擬南芥置吓、番茄无虚、高粱、香蕉衍锚、甘藍等更連續(xù)和完整的版本友题。
在過去20年種,有400多個植物基因組已發(fā)表戴质,包括333個被子植物度宦,15個非被子植物、2個輪藻和44個綠藻告匠。
可查閱:
https://www.plabipd.de/portal/web/guest/sequenced-plant-genomes
1. 單分子長度長測序
PacBio通過CCS產(chǎn)生HiFi 15 kb reads的方法準確率高達99.8%戈抄,解決了錯誤率問題,但每條read成本高了近5倍后专。
基因組測序的發(fā)展划鸽,在基因組完整度上已經(jīng)有了很大提升。
2. 長度長基因組組裝的錯誤傾向
新算法的設(shè)計目的:correct, overlap, and polish long reads with high error-rates戚哎。
算法隨計算設(shè)計裸诽、速度、內(nèi)存使用型凳、復(fù)雜基因組利用而變化丈冬。
- 自糾方法self-correction:CANU、Falcon(phase/unzip)啰脚、MARVEL殷蛇、MECAT。利用reads相互比對橄浓,需要較高覆蓋度粒梦。
- correction-free:基于OLC的minimap2/miniasm、基于DBG的wtdbg2和Flye荸实。要求更高復(fù)雜度的基因組匀们。
組裝的草圖有誤差,必須用高覆蓋度的長讀長或短讀長polish准给,一般大于三次可達到>99.6%的準確性泄朴。
- long reads:Quiver/Arrow (PacBio)、Medaka (ONT)露氮、Nanopolish祖灰、Racon。
- short reads:Pilon
PacBio CCS HiFi軟件:Peregrine
3. 物理圖譜技術(shù)
- a.Hi-C
-
b.Optical maps
4. 解決復(fù)雜植物基因組
如下圖畔规,兩條染色體組裝時定相局扶,雜合基因組phasing有如下方法:
- 右上:嵌合假分子,簡化下游分析。
- 右中:原始reads比對到contigs三妈,解決缺失的單倍型區(qū)域畜埋,建立一個定相的二倍體組裝。
-
右下:保留部分單倍型畴蒲,并在基于圖的組裝中加以標記悠鞍。
5. 利用組裝圖
組裝經(jīng)典指標是N50,或者最短序列長度大于組裝的50%模燥,方法過于簡單咖祭。
利用組裝圖可以可視化復(fù)雜度和鄰接contig的overlap。
- 純合簡單基因組(左上圖):理想的graph對于每個contig(節(jié)點)只有一條邊和鄰接序列相連涧窒。
- 氣泡圖(左下圖):高雜合性心肪,節(jié)點(單倍型)被多條邊連接。
- 復(fù)雜重復(fù)(右上圖):在圖結(jié)構(gòu)中較模糊纠吴,如rRNA,centromeric satellite DNA硬鞍。
-
毛團(hairballs,右下圖):多拷貝重復(fù)戴已,無清晰路徑固该,節(jié)點互交。
當參考基因組被泛基因組取代時糖儡,基因組圖論將是代表復(fù)雜基因組更好的方法伐坏。
挑戰(zhàn)和展望
挑戰(zhàn):
- 多倍體和雜合度
展望:
- 基因組完整、少gap握联、定相桦沉。
- denovo替代重測序,挖掘更多多樣性金闽,用于群體遺傳和泛基因組分析纯露。
- 基因組注釋將落后于組裝,提高注釋質(zhì)量需要新技術(shù)(如全長cDNA代芜,PacBio Iso-seq等)以及新算法埠褪。
參考文獻:Todd PMichael. Building near-complete plant genomes. Curr Opin Plant Biol. 2020 Apr;54:26-33.