轉自:https://mp.weixin.qq.com/s/3MeBh8N70ZwVntuEO1h7UQ
一、前 言
在denovo基因組測序中诚些,通常會先預估基因組大小飞傀,雜合度等信息,根據基因組大小和復雜度來判斷測序數據的深度诬烹,組裝基因組的難易程度等砸烦。
預測基因組大小的方法主要有兩種:
1. 基于Kmer頻率的survey分析
基因組大小可以通過 Illumina 測序數據的 k-mer 分析進行估計。許多用于生成 k-mer 頻率的工具(例如椅您,KAT 外冀、Jellyfish)和基于 k-mer 的基因組大小估計(BBNorm 、Genomescope掀泳、FindGSE) 已開發(fā)雪隧。2. 基于流式細胞術(Flow Cytometry)的實驗方法
流式細胞術是一種經濟高效、相對準確且快速的植物基因組大小估計的實驗技術员舵。與 DNA 定量結合的熒光染料對完整細胞核進行染色來估計 DNA 量脑沿。在木本植物中高濃度的酚類化合物,可能會導致化學計量誤差马僻。
這里通過在南非紅茶中(Mgwatyu et al., 2020)進行的分析庄拇,簡單對比一下Kmer survey和Flow Cytometry預估基因組大小的結果對比及影響因素。
二韭邓、流式細胞術估計基因組大小影響因素
使用流式細胞術估計了八種不同生長類型的從南非紅茶基因組大小措近。測試了四種細胞核分離緩沖液、三種植物組織和四種用于從遠處收集的南非紅茶葉材料的運輸介質女淑,來揭示這些因素對基因組大小的影響瞭郑。
1.緩沖液
用南非紅茶幼苗測試了四種細胞核分離緩沖液(Partec buffer, LB01 with 5x Triton X-100 (LB01-5x), LB01 with 10x Triton X-100 (LB01-10x)和Woody Plant Buffer (WPB))在流式細胞術估計基因組大小中的適用性,使用 WPB 獲得了最佳結果鸭你。
2.組織類型
使用 WPB 分離和染色來自胚根和子葉的細胞核屈张,兩個月南非紅茶幼苗的新鮮和干燥葉子。使用蠶豆 (2C = 26.66 pg) 作為內參考估計基因組大小袱巨。植物組織類型顯著影響DNA 含量的估計阁谆, 對于,胚根的值 ( 2.54 pg) 顯著低于子葉 (2.64 pg) 和葉子 (2.69 pg)愉老, 4C 峰在胚根中比在子葉和葉中更突出场绿。這些組織的計算出的 1C 基因組大小等于 1.24 ± 0.01 Gbp、1.29 ± 0.02 Gbp嫉入。
3.保存運輸介質
流式細胞術一般選擇新鮮植物材料裳凸, 當在偏遠地區(qū)收集樣品時贱鄙,必須確保適合的其運輸介質, 測試了四種保存介質:
- 無菌水
- 5% 甘油溶液
- 10% 甘油溶液
- 硅膠
其中硅膠最適合樣本保存姨谷。不同地點收集的南非紅茶植物二氧化硅干燥葉樣本的流式細胞術基因組大小估計逗宁。來自大田植物干葉樣本在基因組大小估計方面表現出最高的變異性,范圍從 1.16 Gbp 到 1.42 Gbp梦湘。圖1展示了不同生長類型的葉片使用流式進行基因組大小的差異瞎颗。
(RC = Red Commercial (n = 10), RE = Red Escaped (n = 5), RW = Red Wild (n = 6), WT =Wupperthal Type (n = 9), TT = Tree Type (n = 5), GS = Grey Sprouter (n = 5), NiS = Nieuwoudtville Sprouter (n = 11), NS = Northern Sprouter (n = 5), AT = Algeria Type (n = 5), NT = Nardouwsberg Type (n = 4))
三、Kmer頻率估計基因組大小
研究了四種方法(BBNorm捌议、GenomeScope 和 FindGSE)和常用的基因組大小計算公式哼拔。對于每個程序,研究了
- iSeq 序列子集與完整數據集(MiSeq 和 HiSeq 數據)
- k-mer 大小
- 原始數據與質控處理數據瓣颅。
GenomeSope(v1 和 v2)的表現受參數設置的強烈影響:基因組大小估計從 0.51 Gbp 到 1.01 Gbp倦逐。最有影響的參數是最大 k-mer 覆蓋的cutoff-mer 覆蓋率 (CovMax)。在較低的 CovMax 設置下差異更大宫补,范圍從 1k 時的 0.17 Gbp檬姥、10k 時的 0.11 Gbp 到 900k 時的 0.01 Gbp。對于 GenomeScope粉怕,使用 MiSeq 子集與完整數據集以及原始數據與質控處理數據的影響很小 (<0.10 Gbp)健民。
FindGSE 預測南非紅茶基因組大小為 1.06 ± 0.03 Gbp(所有測試參數的平均值)。使用該程序贫贝,MiSeq 子集與完整數據集中相應值之間的差異很斜獭(范圍從 0.01 Gb 到 0.09 Gb)。增加 k-mer 大小只會略微增加基因組大小估計(最大 0.04 Gbp)稚晚,原始數據和質控處理數據之間的差異也很谐缍隆(最大 0.04 Gbp)。
BBNorm 估計南非紅茶基因組大小為 1.08 ± 0.03 Gbp客燕。MiSeq 子集和完整數據集之間的差異很性Ю汀)。k-mer 大小的增加僅使基因組大小估計值增加了 0.05 Gbp幸逆。質控處理數據和原始數據集之間的差異最大為 0.04 Gbp,k-mer 大小對南非紅茶基因組大小影響不明顯暮现。
總 結
植物基因組大小的估計仍然是一項具有挑戰(zhàn)性的工作还绘。除上面描述的因素,不同植物化合物會影響染色劑結合栖袋,造成流式細胞術對基因組大小高估拍顷。而基于 k-mer 分析的值可能會受數據質量、軟件及參數設置的影響塘幅,因此通過兩種方式評估的基因組大小經常存在差異昔案,對此應正確看待尿贫,并分析造成差異的具體原因。
參 考 文 獻
Mgwatyu, Y., Stander, A.A., Ferreira, S., Williams, W., and Hesse, U. (2020). Rooibos (Aspalathus linearis) Genome Size Estimation Using Flow Cytometry and K-Mer Analyses. Plants (Basel) 9.