圖形泛基因組(圖泛)以節(jié)點(diǎn)和路徑的形式存儲(chǔ)和展示物種的變異信息,關(guān)鍵作用是擴(kuò)展線性參考基因組的坐標(biāo)系統(tǒng),以容納更多的遺傳多樣性區(qū)域。本文首先總結(jié)了圖泛構(gòu)建方法,然后討論了圖泛基因結(jié)構(gòu)和變異的注釋囱淋,最后描述了現(xiàn)有的圖泛規(guī)模和應(yīng)用實(shí)例,包括與GWAS結(jié)合的圖泛應(yīng)用等餐塘。
首個(gè)完全測(cè)序的基因組是1977年的噬菌體φX174妥衣。截至目前,已有數(shù)千個(gè)基因組被組裝戒傻。
2005年税手,泛基因組的概念被提出,最初在細(xì)菌中被定義為不同菌株中所有基因的集合需纳。由于真核生物基因組通常包括大的基因間區(qū)域冈止,真核生物的泛基因組通常被定義為物種中所有DNA序列的集合,包括存在于所有個(gè)體中的核心基因組和存在于某些個(gè)體中的可有可無(wú)的基因組部分候齿。
目前構(gòu)建泛基因組熙暴,通常采用homolog-based闺属,map-to-pan或graph databse方法將一個(gè)物種的所有DNA序列組合成一個(gè)簡(jiǎn)單的序列集合。然而周霉,由于線性泛基因組只是將PAVs添加到參考基因組掂器,因此無(wú)法用于清晰地表征個(gè)體間的變異來源或精確定位PAVs。因此俱箱,提出了基于參考序列和變異序列之間關(guān)系的圖形泛基因組国瓮,其中節(jié)點(diǎn)代表序列,邊代表不同序列之間的連接狞谱。然后乃摹,泛基因組以圖形格式存儲(chǔ),有效地將參考基因組與遺傳變異聯(lián)系起來跟衅。
圖泛構(gòu)建的一般過程孵睬。 (左)選擇代表性的品種,比較品種之間的線性基因組伶跷。 (中)查找品種之間的變異掰读,并根據(jù)變異的大小將其分為小的結(jié)構(gòu)變異(SNP、InDel)和大的結(jié)構(gòu)變異(PAV叭莫、CNV蹈集、INV、TRANS)雇初。 (右)基于變異信息構(gòu)建圖泛拢肆,以圖形方式顯示基因組和品種之間的變異。
圖泛構(gòu)建方法可以分為兩類:基于參考基因組和變異信息的方法靖诗,以及基于比對(duì)的方法郭怪。目前,用圖形泛基因組替換線性基因組存在許多限制呻畸。圖中經(jīng)常缺少?gòu)?fù)雜的結(jié)構(gòu)變異和基因組重排,但此方法彌補(bǔ)了線性泛基因組中SV位置的缺失悼院。隨著新工具和方法的出現(xiàn)伤为,圖形泛基因組將成為未來的新參考。
圖形泛基因組的構(gòu)建
圖泛構(gòu)建方法
基于圖的泛基因組可以以圖形式存儲(chǔ)一個(gè)物種的所有遺傳信息据途。一種方法是根據(jù)參考基因組識(shí)別基因組變異绞愚,然后將這些變異信息添加到線性基因組中。變異信息通常存儲(chǔ)在VCF格式的文件中颖医,其中可以包括小的變異或大的結(jié)構(gòu)變異(>50 bp)位衩。然而,VCF格式通常用于存儲(chǔ)小的熔萧、簡(jiǎn)單的變異糖驴,不能正確表示嵌套或復(fù)雜的變異僚祷。
圖泛構(gòu)建工具
vg和Seven Bridges都使用VCF文件和參考基因組構(gòu)建圖泛,盡管vg還支持雙向和循環(huán)圖贮缕,導(dǎo)致不必要的計(jì)算復(fù)雜性辙谜,難以找到更多更完整變異信息的關(guān)鍵問題。兩個(gè)解決思路:首先感昼,在植物基因組中存在多次重復(fù)的情況下装哆,現(xiàn)有的長(zhǎng)讀長(zhǎng)比對(duì)工具通常在長(zhǎng)的、近似相同的重復(fù)區(qū)域內(nèi)產(chǎn)生錯(cuò)誤的比對(duì)定嗓,而minimap2則通過使用對(duì)數(shù)間隙懲罰和查詢特定的不匹配懲罰改善了重復(fù)區(qū)域中長(zhǎng)InDels的靈敏性蜕琴。其次,在SV鑒定過程中宵溅,可直接比較de novo基因組組裝凌简,或?qū)eads比對(duì)到參考基因組。在輔助SV鑒定中選擇Hi-C和Bionano也會(huì)導(dǎo)致最終變異信息的差異层玲,從而影響圖泛的質(zhì)量号醉。
此外,還有一種基于比對(duì)的方法可以通過將所有組裝與參考基因組比對(duì)來直接構(gòu)建圖泛辛块。MGR算法應(yīng)用于多個(gè)大腸桿菌基因組畔派,以構(gòu)建第一個(gè)具有完整基因組的圖泛。MGR算法壓縮了輸入基因組润绵,使最終圖泛比使用vg工具構(gòu)建的要小线椰。MGR圖更適用于比較輸入基因組之間的差異,而不適用作參考基因組尘盼。
minigraph方法應(yīng)用于多個(gè)基因組憨愉,以構(gòu)建一個(gè)具有最小contig長(zhǎng)度≥100 kb的圖泛,特別適用于染色體水平的基因組卿捎。這種方法比其他方法快得多配紫,可以在3小時(shí)內(nèi)構(gòu)建包含20個(gè)人類基因組的圖泛。minigraph構(gòu)建的基于圖的泛基因組只包含長(zhǎng)度在50 bp到100 kb之間的SVs午阵,SVs的數(shù)量多于dipcall發(fā)現(xiàn)的數(shù)量躺孝。然而,minigraph不能識(shí)別SNP底桂,這可能會(huì)導(dǎo)致圖中的偏差植袍。
相比之下,由seqwish構(gòu)建的圖是無(wú)損的籽懦,并支持將PAF格式的all-versus-all比對(duì)結(jié)果轉(zhuǎn)換為無(wú)損圖于个。考慮到seqwish和vg都需要上游比對(duì)暮顺,PGGB和cactus提出了兩種結(jié)合各種軟件構(gòu)建圖泛的流程厅篓。PGGB主要使用wfmash秀存、seqwish和smoothxg來比對(duì)成對(duì)序列并構(gòu)建圖泛,最后進(jìn)行歸一化以完成圖的構(gòu)建贷笛。此外应又,該流程還包括下游比對(duì)和可視化。Cactus主要使用minigraph和vg乏苦。首先株扛,使用minigraph構(gòu)建一個(gè)草圖,然后將基因組與圖對(duì)齊以添加小于50 bp的小變異汇荐。它還可以執(zhí)行轉(zhuǎn)換到vg格式并獲取VCF格式的變異信息洞就。此外,PGGB和cactus流程都建議單獨(dú)為每個(gè)染色體構(gòu)建圖泛掀淘,因?yàn)樘幚碚麄€(gè)基因組需要大量計(jì)算資源并復(fù)雜化下游分析旬蟋。
使用不同工具構(gòu)建圖泛的流程。(A) Seven Bridges 和 vg 根據(jù)參考基因組和結(jié)構(gòu)變異構(gòu)建基于圖譜的泛基因組革娄。
該圖可根據(jù)新的變異信息進(jìn)行擴(kuò)展倾贰,綠線和紫線分別表示由 vg 完全支持的雙向邊緣和循環(huán)邊緣。(B) minigraph 直接構(gòu)建圖泛拦惋。通過將基因組迭代比對(duì)到現(xiàn)有圖來增強(qiáng)圖泛匆浙。(C) MGR 通過同時(shí)比較多個(gè)基因組來構(gòu)建圖泛,劃分不同的對(duì)齊片段厕妖,將對(duì)齊后的片段聚類首尼,并將聚類中心轉(zhuǎn)換為圖的節(jié)點(diǎn)。
小編碎碎念:雖然植物泛基因組研究比人類報(bào)道更多言秸,但方法學(xué)上仍是很膚淺的软能。今年(2023)3篇Nature論文連發(fā)公布了人類泛基因組首個(gè)草圖,提出了Minigraph-Cactus新方法举畸,可以作為動(dòng)植物參考查排,尤其是高雜合度物種。
獲取和合并PAV變異
構(gòu)建圖泛的當(dāng)前主流方法基于參考基因組和變異信息抄沮,在構(gòu)建圖泛之前需要準(zhǔn)備參考基因組和其他基因組之間的變異信息(即獲取PAVs)跋核。 PAVs可以通過兩種方式獲得:通過基因組間比較或通過長(zhǎng)讀長(zhǎng)與參考基因組的比對(duì)。MUMmer和minimap2是常用的基因組間比較工具合是。
由于植物中存在大量的轉(zhuǎn)座子了罪,一些針對(duì)脊椎動(dòng)物開發(fā)的比對(duì)工具未能在復(fù)雜的植物基因組中產(chǎn)生預(yù)期的結(jié)果锭环。最近開發(fā)的AnchorWave軟件專為復(fù)雜的植物基因組而設(shè)計(jì)聪全,它使用保守序列(如編碼蛋白基因)作為錨定位點(diǎn),以準(zhǔn)確識(shí)別由轉(zhuǎn)座子引起的基因組間差異辅辩。然后难礼,根據(jù)比對(duì)結(jié)果執(zhí)行PAV提取娃圆,并使用SVMU流程,SyRI流程蛾茉,Assemblytics和SVIM-asm來提取SV信息讼呢。Smartie-sv是一個(gè)方便的工具,可以直接基于輸入基因組輸出SV信息谦炬。
許多比對(duì)工具是通過使用長(zhǎng)讀長(zhǎng)和參考基因組開發(fā)的悦屏,包括NGMLR,minimap2和Pbmm2键思。Sniffles础爬,SVIM和CuteSV可以從比對(duì)結(jié)果中提取SV信息。PBSV可以直接輸入長(zhǎng)讀長(zhǎng)和參考基因組以提取SV信息吼鳞】囱粒考慮到存在冗余的PAVs,采用一種all-versus-all比較的方法對(duì)覆蓋率大于50%的PAVs進(jìn)行聚類赔桌。然后隨機(jī)選擇一個(gè)聚類中的PAV供炎,并獲得非冗余的PAV集合。這種方法簡(jiǎn)單且粗糙疾党,因?yàn)橥痪垲愔械腜AVs還包括SVs音诫,隨機(jī)選擇其中一個(gè)作為代表會(huì)導(dǎo)致變異信息的丟失并在后續(xù)分析中產(chǎn)生錯(cuò)誤。然后仿贬,過濾具有超過90%重復(fù)率的PAV序列纽竣,以獲得最終的PAV序列。Survivor茧泪,Svimmer和Jasmine也可以用于合并冗余的PAVs蜓氨。
SV檢測(cè)工具
圖泛的存儲(chǔ)格式
目前,圖泛的存儲(chǔ)和可視化是構(gòu)建圖泛的瓶頸队伟。圖泛由表示序列信息的節(jié)點(diǎn)和表示變異信息的邊組成穴吹。
圖形片段組裝(GFA)可以存儲(chǔ)序列圖。GFA包括兩種格式嗜侮,v1和v2港令。每行的第一列是數(shù)據(jù)類型,GFA1中有八種數(shù)據(jù)類型:'#'表示注釋锈颗;'H'表示標(biāo)題顷霹;'S'表示節(jié)點(diǎn)(序列);'L'表示連接節(jié)點(diǎn)的邊击吱;'J'表示跳躍淋淀,用于定義與特定重疊或序列關(guān)聯(lián)的段之間的連接(從v1.2版本添加);'C'表示包含覆醇,是兩個(gè)段之間的重疊朵纷,其中一個(gè)包含在另一個(gè)內(nèi)部炭臭;'P'表示參考基因組和單倍體的路徑(Llamas等人,2019)袍辞;'W'表示圖中的有向路徑(從v1.1版本添加)鞋仍。S行表示參考基因組或單倍體,L行表示對(duì)應(yīng)節(jié)點(diǎn)的名稱和方向搅吁,可以更清晰地顯示變異信息威创,更容易還原線性參考基因組的坐標(biāo),為基于圖的泛基因組注釋奠定了基礎(chǔ)谎懦。W行適用于沒有段之間重疊的圖形(https://github.com/GFA-spec/GFA-spec/blob/master/GFA1.md)那婉。
GFA2是GFA1的超集。與GFA1相比党瓮,主要區(qū)別如下:L行和C行被合并為E行详炬;P行被替換為編碼子圖和路徑的U行和O行;還有一個(gè)新的F行用于描述多重比對(duì)和一個(gè)新的G行用于描述腳手架寞奸。比對(duì)可以通過Dazzler-trace(https://dazzlerblog.wordpress.com/2015/11/05/trace-points/)或CIGAR字符串方法來描述呛谜,這是記錄比對(duì)的兩種方法(https://github.com/GFA-spec/GFA-spec/blob/master/GFA2.md)。
在minigraph方法中枪萄,基于GFA格式提出了參考GFA(rGFA)格式隐岛。基于GFA格式瓷翻,只保留了段和鏈接數(shù)據(jù)聚凹,去除了節(jié)點(diǎn)之間的重疊,并在代表節(jié)點(diǎn)中添加了三個(gè)新標(biāo)簽:第四列表示染色體編號(hào)齐帚,第五列表示節(jié)點(diǎn)坐標(biāo)妒牙,第六列表示節(jié)點(diǎn)來源。改進(jìn)后的rGFA格式包含了在Hackathon活動(dòng)中提出的圖形坐標(biāo)系的單倍體信息对妄,以及與線性參考基因組相關(guān)的節(jié)點(diǎn)染色體編號(hào)和坐標(biāo)湘今。這種格式不僅可以還原坐標(biāo)和完成線性參考基因組注釋的遷移,還可以有效地提供路徑剪菱、路徑來源以及與路徑相關(guān)的坐標(biāo)摩瞎,這極大地便于后續(xù)比較和比較信息的存儲(chǔ)。
圖數(shù)據(jù)格式演示孝常。 (A) GFA1 格式示例旗们。包括 GFA1 中的所有行類型(標(biāo)題行除外)和常用數(shù)據(jù)字段,以及這些組件在序列圖模式中的可視化构灸。序列(片段)用綠色箭頭表示上渴,其方向表示哪條鏈?zhǔn)窃夹蛄械姆聪蜴湥?)。兩個(gè)片段之間的燕尾連接用橄欖色的塊表示,而片段嵌入則用水綠色塊表示驰贷。米色塊表示段與段之間的間隙(跳躍)。虛線和淺綠色實(shí)線分別表示沿多個(gè)線段的路徑和行走(定義于 GFA v1.1)洛巢。walk是段之間無(wú)重疊的連續(xù)括袒。(B)rGFA格式是 GFA 的嚴(yán)格子集,只保留 S 線和 L 線稿茉。rGFA 中的線段不得包含重疊锹锰;因此,在對(duì)齊表達(dá)式字段中漓库,暗示連接的鏈接均以0M結(jié)尾恃慧。要記錄序列路徑中堿基的坐標(biāo),需要添加三個(gè)標(biāo)記(SN渺蒿、SO痢士、SR)作為源序列的追蹤標(biāo)記。SN和SR代表源序列的名稱和等級(jí)茂装。其中秩=0表示該序列段來自參考基因組怠蹂。SO表示源序列中的偏移量。rGFA 中的每一條路徑都是在 GFA 中的行走少态,如 s11+>s14->s15+ 是 (A) 中 s1+>s2->s4+ 的對(duì)應(yīng)路徑城侧。(C) 泛基因組圖描述了來自 GFA格式文件中的圖形數(shù)據(jù)。圖中表示了三條路徑(兩條路徑有一條走行)彼妻,參考序列顯示為一條綠線嫌佑。注意路徑 s1+>s2->s3+中有一個(gè)gap
vg格式中還有一個(gè)二進(jìn)制文件,可以與GFA格式相互轉(zhuǎn)換侨歉。它通常用于下游分析屋摇,如vg映射和giraffe分析,用于構(gòu)建索引文件或直接用作輸入幽邓。ODGI是從GFA進(jìn)行無(wú)損轉(zhuǎn)換摊册,并以二進(jìn)制格式存儲(chǔ)。這種格式具有與基于基因組序列的現(xiàn)有工具保持向后兼容性的優(yōu)勢(shì)颊艳。
線性參考基因組坐標(biāo)的恢復(fù)
應(yīng)用圖泛的一個(gè)難點(diǎn)是與線性參考基因組坐標(biāo)的對(duì)應(yīng)關(guān)系茅特。圖泛不僅包含線性參考基因組,還包括大量的結(jié)構(gòu)變異棋枕。
在表示圖泛的rGFA格式中白修,雖然可以基于線性參考基因組標(biāo)記圖泛基因組節(jié)點(diǎn)的坐標(biāo),但由于圖泛的復(fù)雜性重斑,一些序列無(wú)法由線性參考基因組覆蓋兵睛,這將導(dǎo)致節(jié)點(diǎn)坐標(biāo)的丟失。此外祖很,由vg表示的圖泛允許節(jié)點(diǎn)序列出現(xiàn)在多個(gè)路徑中,這使得圖泛更廣泛適用假颇,但也增加了標(biāo)記圖泛節(jié)點(diǎn)坐標(biāo)的難度,導(dǎo)致節(jié)點(diǎn)坐標(biāo)的沖突笨鸡。
對(duì)于來自非參考基因組的片段,坐標(biāo)的恢復(fù)需要基于參考基因組坐標(biāo)系統(tǒng)形耗,由于在構(gòu)建過程中的小變異過濾或變異發(fā)現(xiàn)中的假陽(yáng)性/假陰性,目前無(wú)法準(zhǔn)確表示源基因組中片段的坐標(biāo)激涤。因此,需要一個(gè)坐標(biāo)系統(tǒng)來展現(xiàn)更好的可擴(kuò)展性和可擴(kuò)展性倦踢,以處理線性參考基因組未覆蓋的區(qū)域已卸,并隨著線性參考基因組的更新,相應(yīng)的圖泛基因組同時(shí)更新節(jié)點(diǎn)硼一、邊和坐標(biāo)累澡。
圖泛的可視化
目前,圖泛的可視化方法主要分為兩類:宏觀水平方法(如Bandage般贼、GfaViz和Panache)和基本水平方法(如vg viz愧哟、Sequence Tube Map和ODGI)。
圖泛可視化工具
Bandage允許直接可視化GFA格式文件哼蛆。除了一般可視化軟件的縮放蕊梧、旋轉(zhuǎn)和著色功能外,Bandage還可以執(zhí)行BLAST搜索并顯示距離所選段固定距離的部分圖形腮介,這在可視化SVs時(shí)非常直觀肥矢。
GfaViz支持兩個(gè)GFA格式文件的輸入,并支持兩種布局算法叠洗。默認(rèn)情況下甘改,應(yīng)力最小化算法將實(shí)現(xiàn)更好的可視化結(jié)果;對(duì)于較大的圖形灭抑,用戶可以選擇快速多極多層方法算法十艾。
Panache需要將GFA文件轉(zhuǎn)換為bed格式作為輸入,將圖形泛基因組中的基因組劃分為多個(gè)塊腾节,并根據(jù)塊線性顯示圖形泛基因組忘嫉;然后用戶可以查看圖形的特征荤牍,如核心基因組和可變基因組,并自定義核心和可變基因組的閾值以過濾核心基因組庆冕。
vg viz可視化生成的圖形與Bandage獲得的圖形相似康吵,但在基本水平上,構(gòu)建圖泛涉及的原始數(shù)據(jù)被添加到圖像底部访递,以更直觀地可視化變異的來源晦嵌。
Sequence Tube Map可用于在基本水平分析變異,其中輸入文件需要由vg進(jìn)行索引力九。其基因組圖的可視布局側(cè)重于最大化所選基因組路徑的線性度跌前。通過預(yù)處理數(shù)據(jù)并提出要觀察的區(qū)域抵乓,可以快速完成復(fù)雜多態(tài)性和SV的可視化和分析灾炭。
ODGI的功能非常強(qiáng)大蜈出,它可以根據(jù)不同需求重建圖形并對(duì)其進(jìn)行編輯,例如提取或連接感興趣的區(qū)域商叹,解開和導(dǎo)航泛基因組卵洗,以及對(duì)泛基因組圖的排序和獲取度量过蹂。
這兩種方法各有優(yōu)缺點(diǎn)榴啸。宏觀水平更直觀鸥印,構(gòu)建速度更快,所需存儲(chǔ)空間更小狂鞋∩ё幔可以在染色體級(jí)別觀察SVs信不。盡管基本水平只能顯示部分圖形抽活,但它包含的信息更豐富下硕、更準(zhǔn)確梭姓,因此認(rèn)為結(jié)合這兩種方法將使可視化更有用誉尖。
基于47份水稻構(gòu)建的圖泛可視化释牺。(A)水稻中不同基因及其變體的 Bandage可視化没咙。這些基因是 UGT74J1祭刚、UXS涡驮、WED 和 ZOS8-11。不同的氣泡代表結(jié)構(gòu)變異棒口,線條的長(zhǎng)度代表堿基的數(shù)量。(B) ODGI圖泛中 ZOS8-11 基因的可視化漾肮。不同顏色代表不同路徑克懊,黑線代表路徑的拓?fù)浣Y(jié)構(gòu)谭溉。(C)基于圖的泛基因組中 ZOS8-11 基因的 GfaViz可視化扮念。線條連接節(jié)點(diǎn)场躯,節(jié)點(diǎn)上的數(shù)字代表節(jié)點(diǎn)編號(hào)。(D) 序列管圖可視化
圖泛的注釋
基因結(jié)構(gòu)注釋
基因結(jié)構(gòu)注釋揭示了基因在基因組中的位置伞鲫。在簡(jiǎn)單線性基因組中秕脓,已經(jīng)建立了基于mRNA吠架、表達(dá)序列標(biāo)簽和蛋白質(zhì)序列的基因結(jié)構(gòu)注釋過程傍药,通常通過直接或間接方式獲得注釋拐辽,隨后應(yīng)用統(tǒng)計(jì)模型和算法來預(yù)測(cè)新基因俱诸,這嚴(yán)格依賴于基因組坐標(biāo)谆棺。
特殊的圖形結(jié)構(gòu)使得整個(gè)圖泛的注釋非常困難吱型。圖泛的路徑可以有效替代線性基因組的坐標(biāo),從而可以直接將線性基因組中已知的基因映射到圖泛上辙喂。vg軟件直接將線性基因組從gff3格式轉(zhuǎn)換為gGFF格式文件巍耗,其中基因組區(qū)間被完全替換為子圖炬太。
然而亲族,基于線性基因組注釋的這種映射只能映射已知存在于物種中的基因霎迫,不能預(yù)測(cè)新基因知给。未來的努力將致力于開發(fā)一組適用于圖泛的算法,不僅可以直接映射線性基因組的原始基因筒扒,還可以直接預(yù)測(cè)可能存在于圖泛中的新基因,這需要遍歷圖泛中的每個(gè)路徑榛斯,并開發(fā)準(zhǔn)確的圖泛比較方法懂缕。
圖泛的變異注釋
變異注釋的目的是識(shí)別它們的來源和類型搪柑,有助于下游分析工碾。在使用vg構(gòu)建的圖泛中,內(nèi)置工具可以用于完成變異注釋况木。vg方法要求使用與線性參考基因組相同的坐標(biāo)火惊,因此變異位置也是基于相同的坐標(biāo)集,允許直接使用線性參考基因組的注釋文件椿猎。因此犯眠,rGFA文件提供了一組新的坐標(biāo)兆衅。
gfatools(https://github.com/lh3/gfatools)是為GFA和rGFA格式開發(fā)的工具,可以在圖泛中識(shí)別SVs(稱為氣泡)摩疑,然后將其存儲(chǔ)在新文件中危融。盡管文件保留了結(jié)構(gòu)變異包含的段、是否存在短倒轉(zhuǎn)以及最短和最長(zhǎng)路徑和長(zhǎng)度等信息雷袋,但不能用于快速定位線性參考基因組中的SVs位置吉殃。
未來可能需要通過不同的方法多次注釋圖泛,根據(jù)實(shí)際需要過濾注釋楷怒,最終將所有注釋合并成一個(gè)文件蛋勺,形成最終的注釋文件。
此外鸠删,在植物基因組中廣泛存在大的倒位和易位,它們與育種密切相關(guān)碉怔。在這些SVs中芹啥,盡管序列沒有改變捺疼,但位置發(fā)生了改變官扣,不管是否有注釋,這都不會(huì)影響后續(xù)比較中的變異識(shí)別。但是,如果在序列比對(duì)中發(fā)現(xiàn)相同的結(jié)構(gòu)變異并提前進(jìn)行注釋敌厘,對(duì)于后續(xù)分析非常方便箭窜。
導(dǎo)致SVs的驅(qū)動(dòng)因素之一的可轉(zhuǎn)座元件(TEs)與作物中的許多表型相關(guān)婆咸,因此TEs的注釋也應(yīng)予考慮倔丈。TEmarker利用參考基因組泽示、其TE庫(kù)和短序列來創(chuàng)建泛基因組TEs族扰。這個(gè)工具還可用于TE的基因型和基于TE的GWAS耕驰,為研究TE驅(qū)動(dòng)的結(jié)構(gòu)變異提供新的見解弟断。
結(jié)構(gòu)變異鑒定與基因分型
圖泛比對(duì)軟件的優(yōu)勢(shì)
圖泛可以用作在更廣泛的群體中調(diào)用結(jié)構(gòu)變異(SV)和基因型的新參考基因組浸踩。
目前,線性基因組比對(duì)工具難以應(yīng)用于圖泛比對(duì)浪谴。已經(jīng)開發(fā)的基于圖的比對(duì)算法和軟件,包括vg map杈湾、GraphAligner、Hisat2糖埋、V-MAP和vg giraffe杭攻。
圖泛比對(duì)工具
GraphAligner將兩種序列對(duì)序列比對(duì)算法(Shift–And算法和Myers的位向量算法)擴(kuò)展到能處理任意圖形中埠巨。
Hisat2是一種低內(nèi)存消耗、快速比對(duì)的軟件眠饮,采用了圖Ferragina–Manzini索引召娜。它不需要事先構(gòu)建基于圖的泛基因組裁良。
V-MAP可以有效地識(shí)別基因組圖的小子圖,以實(shí)現(xiàn)最佳讀數(shù)比對(duì)校套。
Giraffe是一種具有相對(duì)高速度和準(zhǔn)確性的短讀比對(duì)工具价脾,能夠比對(duì)復(fù)雜的圖形區(qū)域;目前是圖泛短讀長(zhǎng)比對(duì)的最佳工具笛匙。
基于上述比對(duì)結(jié)果彼棍,可以進(jìn)行SV基因型分型和新的SV鑒定。在使用短讀長(zhǎng)進(jìn)行SV基因型分型時(shí)膳算,vg call和paragraph都優(yōu)于傳統(tǒng)的SV基因型分型工具座硕,PanSVR可以提高人類短讀長(zhǎng)數(shù)據(jù)的比對(duì)質(zhì)量和SV基因型分型。
應(yīng)用群體特異的圖泛進(jìn)行序列比對(duì)涕蜂,可以在各個(gè)方面提高結(jié)果比對(duì)的質(zhì)量华匾,還可以在變異基因型分型期間發(fā)現(xiàn)更多的SNP、InDel和SV机隙。SV的長(zhǎng)度也明顯大于線性基因組蜘拉。使用vg augment和vg call可以擴(kuò)展圖,構(gòu)建新的圖并鑒定新的SV有鹿。
除了在人類泛基因組中實(shí)現(xiàn)的性能外旭旭,大豆、水稻和油菜等作物中已經(jīng)完成了跨群體的SV基因分型葱跋,之后基于重測(cè)序數(shù)據(jù)恢復(fù)了與變異相關(guān)的一些表型信息持寄,展示了圖泛的優(yōu)勢(shì)源梭。然而,在構(gòu)建高質(zhì)量的圖泛之前稍味,根據(jù)圖泛的注釋废麻,判斷重測(cè)序數(shù)據(jù)與圖泛之間的比對(duì)是否準(zhǔn)確仍然具有挑戰(zhàn)性。
圖泛的應(yīng)用
功能元件的鑒定
基因表達(dá)受編碼區(qū)域以外的非編碼區(qū)域的影響模庐。Cis調(diào)控元件是存在于非編碼區(qū)域的一類重要調(diào)控元件烛愧,它們影響基因表達(dá)。位于Cis調(diào)控元件中的SV可能通過控制調(diào)控區(qū)域的變異來影響基因表達(dá)掂碱,從而改變物種的性狀怜姿。
在番茄中,通過對(duì)100個(gè)番茄品種進(jìn)行長(zhǎng)讀測(cè)序疼燥,發(fā)現(xiàn)了238,490個(gè)SVs沧卢,發(fā)現(xiàn)大約50%的SVs位于基因區(qū)域或基因上游調(diào)控區(qū)域(距編碼序列±5 kb)。在100個(gè)基因組中悴了,大約95%的基因的上游調(diào)控區(qū)域至少存在一個(gè)SV搏恤,其中大部分位于Cis調(diào)控區(qū)域。在對(duì)21,156個(gè)SV-基因?qū)M(jìn)行評(píng)估時(shí)湃交,發(fā)現(xiàn)位于調(diào)控區(qū)域的1,534個(gè)SVs會(huì)顯著影響基因表達(dá)熟空。
盡管大多數(shù)影響基因表達(dá)的SVs位于基因區(qū)域,但也有一小部分位于Cis調(diào)控區(qū)域的SVs可能會(huì)影響基因表達(dá)搞莺。在玉米中息罗,通過對(duì)368個(gè)玉米轉(zhuǎn)錄組數(shù)據(jù)和多態(tài)性SVs進(jìn)行聯(lián)合表達(dá)定量性狀位點(diǎn)分析,發(fā)現(xiàn)一個(gè)長(zhǎng)為1794 bp的SV作為Zm00015a037064基因的Cis表達(dá)定量性狀位點(diǎn)才沧,并通過影響相互作用來影響染色質(zhì)迈喉,從而影響基因表達(dá)。
轉(zhuǎn)座元件(TEs)是影響植物基因表達(dá)的重要組成部分温圆,它們通過插入到基因組中的不同位置來影響基因表達(dá)挨摸,已知TEs通過插入到基因上游的啟動(dòng)子或增強(qiáng)子中來調(diào)控基因表達(dá)。通過比較和分析可訪問染色質(zhì)區(qū)域(ACRs)中的TEs岁歉,發(fā)現(xiàn)TEs的插入會(huì)影響ACRs中的甲基化狀態(tài)得运,TEs的插入會(huì)影響附近基因的表達(dá),從而證實(shí)TEs作為Cis調(diào)控元件調(diào)控基因锅移。在水稻熔掺、番茄、油菜非剃、蘿卜置逻、擬南芥中均有研究報(bào)道。
目前备绽,構(gòu)建圖泛的主要方法是將線性參考基因組與PAV信息相結(jié)合券坞。尋找具有更完整種群的PAVs可以使圖泛更加穩(wěn)健鬓催,特別是挖掘HOT區(qū)域。這些區(qū)域通常包含大量新基因报慕,與抗性基因更相關(guān)深浮,有助于育種改良压怠。
現(xiàn)有物種中的圖泛規(guī)模
植物圖泛研究:大豆眠冈、油菜、高粱菌瘫、水稻蜗顽、蘿卜、番茄雨让、面包小麥雇盖、白菜、大麥栖忠、柑橘崔挖、牧草、黃瓜等庵寞。
基于圖泛的GWAS
與SNP GWAS互補(bǔ)狸相,在水稻、大豆捐川、油菜中均有研究脓鹃。
未來應(yīng)用
圖泛目前難以應(yīng)用于復(fù)雜度高、基因組龐大的物種古沥,而且尚未建立用于評(píng)估圖泛的標(biāo)準(zhǔn)瘸右。構(gòu)建圖泛的目的是更清晰、更直觀地了解物種的遺傳多樣性岩齿。然而太颤,目前的大多數(shù)生物信息分析工具只適用于線性參考基因組№锷颍基于圖的泛基因組的下游分析需要開發(fā)更多的算法和工具龄章。除了挖掘新的SVs和與SV相關(guān)的表型特征外,還應(yīng)開發(fā)更廣泛的圖泛應(yīng)用襟诸,這些應(yīng)用可以與多組學(xué)數(shù)據(jù)(蛋白質(zhì)組數(shù)據(jù)瓦堵、代謝組學(xué)數(shù)據(jù))結(jié)合,進(jìn)行多維關(guān)聯(lián)分析歌亲,以識(shí)別候選位點(diǎn)菇用,同時(shí)還應(yīng)用于表觀遺傳學(xué),例如將DNA甲基化和其他信息存儲(chǔ)在圖泛中陷揪,用于比較由不同等位基因的甲基化引起的不同表型惋鸥。
結(jié)論與未來展望
隨著測(cè)序成本的降低和第三代測(cè)序技術(shù)的發(fā)展杂穷,目前可以通過不同的方法構(gòu)建圖泛。與線性基因組相比卦绣,基于圖的泛基因組包含更多的序列和變異耐量,可以允許更多的reads與圖進(jìn)行比對(duì)。通過變異的注釋滤港,可以在基因組中恢復(fù)更多與變異相關(guān)的表型信息廊蜒。因此,作物育種和改良的指導(dǎo)原則將從單一參考基因組轉(zhuǎn)變?yōu)槎鄥⒖蓟蚪M溅漾。
T2T基因組可作為參考基因組來構(gòu)建更全面和更準(zhǔn)確的圖泛山叮,有助于研究復(fù)雜區(qū)域和重復(fù)元件的遺傳多態(tài)性,如著絲粒區(qū)域添履。目前屁倔,基于圖的泛基因組學(xué)仍處于起步階段,用戶友好的在線資源稀缺暮胧。有必要構(gòu)建一個(gè)植物泛基因組數(shù)據(jù)庫(kù)锐借,并開發(fā)與植物基因組特點(diǎn)相適應(yīng)的構(gòu)建方法,而不是直接使用用于構(gòu)建人類圖泛的軟件往衷。圖泛將成為線性基因組的補(bǔ)充钞翔,而不是完全取代它們,這是由于線性基因組的成熟工具流程和用戶習(xí)慣等因素決定的炼绘。將額外的線性基因組分析方法和工具遷移到圖泛或?qū)⑦@兩種方法結(jié)合使用將是一個(gè)主要挑戰(zhàn)嗅战。
圖泛也存在一些局限性。首先俺亮,目前還沒有一種方法來評(píng)估從多個(gè)線性基因組構(gòu)建的圖泛質(zhì)量驮捍。因?yàn)橐粋€(gè)物種包括各種各樣的品種,需要圖泛具有高度的可塑性脚曾,并且能夠有效地將新測(cè)序的基因組與現(xiàn)有的圖泛整合在一起东且,即使它們?cè)跍y(cè)序深度和測(cè)序方法上有所不同,也需要評(píng)估圖泛是否能夠有效地代表一個(gè)物種本讥。這不僅限制了物種基因組特征的分析珊泳,也限制了圖泛在不同物種之間的比較分析。其次拷沸,當(dāng)前可用的工具之間的通用性較差色查,每種類型的軟件都有其優(yōu)點(diǎn)和缺點(diǎn),無(wú)法相互補(bǔ)充撞芍。因此秧了,完成所有上游和下游分析是困難的。另一個(gè)問題是圖泛的可視化序无,特別是有關(guān)圖形結(jié)構(gòu)的清晰可視化验毡,以便更容易理解圖的拓?fù)浣Y(jié)構(gòu)和變異信息衡创。
有一種新趨勢(shì)是將圖泛作為新的參考基因組來應(yīng)用,它比線性基因組更大更完整晶通,包含了幾乎所有物種的基因和變異信息璃氢。minigraph、vg等工具可構(gòu)建圖泛的完整工作流程狮辽,允許快速構(gòu)建圖泛和下游分析一也。
本文整理自廣西大學(xué)宋佳明和陳玲玲老師(原華中農(nóng)業(yè)大學(xué)教授)的綜述文章:Wang S, Qian YQ, Zhao RP, Chen LL, Song JM. Graph-based pan-genomes: increased opportunities in plant genomics. J Exp Bot. 2023;74(1):24-39. doi:10.1093/jxb/erac412