幾個(gè)月前就聽說華大萬物聯(lián)合上海師范大學(xué)開發(fā)了基因組選擇的工具CropGS醒第,一直比較好奇豹缀。近日文章已經(jīng)發(fā)表見刊昏名,得以一窺究竟。
[圖片上傳失敗...(image-6f067e-1704807606032)]
主要內(nèi)容
以往的作物GWAS數(shù)據(jù)庫集中在表型和基因型之間的關(guān)聯(lián)蝙昙,只有少數(shù)數(shù)據(jù)庫充分利用表型和基因型資源來構(gòu)建和托管農(nóng)藝性狀的基因組預(yù)測(cè)模型。如NHGRI-EBI GWAS Catalog梧却、GWAS Central奇颠、GWASdb、GWAS Atlas和easyGWAS中放航,前三者基本上是針對(duì)人類和模式動(dòng)物開發(fā)烈拒,旨在識(shí)別因果變異并了解開發(fā)新療法的疾病機(jī)制。GWAS Atlas涵蓋動(dòng)植物,easyGWAS則不限物種荆几。
CropGS-Hub是一個(gè)綜合數(shù)據(jù)庫/一站式平臺(tái)吓妆,包含主要作物的基因型、表型和基因組關(guān)聯(lián)分析信號(hào)伴郁,并提供了內(nèi)置算法用于基因組預(yù)測(cè)和雜交設(shè)計(jì)耿战。
具體而言,數(shù)據(jù)庫包含了來自7個(gè)主要作物(水稻焊傅、玉米剂陡、大豆、棉花狐胎、谷子鸭栖、鷹嘴豆、油菜)握巢,14個(gè)代表性群體晕鹊,3000多個(gè)個(gè)體,2240億個(gè)基因型數(shù)據(jù)點(diǎn)暴浦,43.4萬個(gè)表型數(shù)據(jù)點(diǎn)溅话,166641個(gè)GWAS關(guān)聯(lián)位點(diǎn)并提供變異注釋以識(shí)別特定性狀的致因基因。實(shí)現(xiàn)了三個(gè)完整的功能性基因組選擇相關(guān)模塊歌焦,包括表型預(yù)測(cè)飞几、用戶自定義模型訓(xùn)練和雜交設(shè)計(jì),每個(gè)模塊都提供了傳統(tǒng)統(tǒng)計(jì)和機(jī)器學(xué)習(xí)的6種GS算法独撇,以及開發(fā)了一個(gè)SNP基因型檢測(cè)工具SNPGT(Windows版本W(wǎng)inSNPGT和Linux版本LinSNPGT)屑墨,旨在幫助作物科學(xué)家和育種家進(jìn)行基因組設(shè)計(jì)育種和基因組選擇。
[圖片上傳失敗...(image-e84583-1704807606032)]
[圖片上傳失敗...(image-f4244a-1704807606032)]
[圖片上傳失敗...(image-d1dbdd-1704807606032)]
CropGS-Hub的三個(gè)功能模塊:
- 表型預(yù)測(cè)(Phenotype Prediction)是基于7種作物的14個(gè)群體數(shù)據(jù)開發(fā)纷铣,用戶上傳目標(biāo)材料的基因型文件卵史,即可獲得6種GS模型(GBLUP、rrBLUP搜立、BayesL以躯、BayesR、BayesCpi和LightGBM)預(yù)測(cè)的目標(biāo)表型信息啄踊。
- 雜交設(shè)計(jì)(Crossing Design)是基于水稻或玉米雜交種群體寸潦,用戶可上傳自交系親本基因型,在網(wǎng)站中選擇按照“一對(duì)多”或者“多對(duì)多”的方式進(jìn)行組配社痛,獲得組配的F1子代基因型见转,并完成表型預(yù)測(cè)。
- 用戶模型訓(xùn)練(User Model Training)功能不限于數(shù)據(jù)庫中的7種作物蒜哀,用戶可上傳任何物種育種群體的表型和基因型數(shù)據(jù)斩箫,平臺(tái)可根據(jù)用戶所選模型完成建模以及目標(biāo)樣本的表型預(yù)測(cè)吏砂。
平臺(tái)在完成GS分析后,會(huì)自動(dòng)將結(jié)果報(bào)告通過郵件發(fā)送給用戶乘客,以html格式提供可視化的圖表狐血,方便用戶選擇候選材料。
最后易核,研究人員以雜交水稻和西瓜為例匈织,測(cè)試了CropGS-Hub。作為一個(gè)以GS功能為主的綜合性作物基因組育種平臺(tái)牡直,該平臺(tái)在推動(dòng)GS育種普遍化和數(shù)據(jù)合作共享上有著重要意義缀匕。
[圖片上傳失敗...(image-f5a73d-1704807606032)]
更多信息請(qǐng)查看以下鏈接:
- CropGS-Hub:https://iagr.genomics.cn/CropGS/
- SNPGT:https://github.com/Min-Zer0/WinSNPGT
示例報(bào)告:
- https://iagr.genomics.cn/static/gstool/task/TPP000210_demo/results/TPP000210_demo.Report.html
- https://iagr.genomics.cn/static/gstool/task/TCD000211_demo/results/TCD000211_demo.Report.html
- https://iagr.genomics.cn/static/gstool/task/TUM000212_demo/results/Report.html
GropGS-Hub和WinSNPGT使用教程視頻:
小編碎碎念
本研究的技術(shù)路線描述是非常清晰的,具體到基因型檢測(cè)碰逸、過濾乡小、填補(bǔ)、注釋饵史,以及GS模型的參數(shù)調(diào)整满钟、數(shù)據(jù)合并等細(xì)節(jié)。不過小編思考了下胳喷,覺得可能還存在以下問題需要探討:
- 模型的適用性/泛化能力湃番。GS模型受群體結(jié)構(gòu)影響較大,要求訓(xùn)練群(參考群)和測(cè)試群(候選群)具有較近的親緣關(guān)系吭露。該數(shù)據(jù)庫中的群體還是比較有限的吠撮,因此,是否具有足夠代表性來預(yù)測(cè)其他的項(xiàng)目奴饮?
- 基因型Panel的代表性。GS的原理是基于連鎖不平衡(LD)择浊,SNP數(shù)量和有效性對(duì)GS影響較大戴卜。研究雖然用到了很多方法,如估計(jì)標(biāo)記有效數(shù)量琢岩、LD過濾投剥、SNP注釋分類、GWAS因果位點(diǎn)篩選担孔、以及根據(jù)交叉驗(yàn)證預(yù)測(cè)準(zhǔn)確性來篩選特定SNP江锨,但究竟最后如何確定基因型密度,以及如何綜合選擇出最有代表性位點(diǎn)似乎沒有明確說明糕篇。此外啄育,從WGS中提取靶點(diǎn)來做GS,是不是顯得有點(diǎn)浪費(fèi)數(shù)據(jù)了拌消?畢竟挑豌,現(xiàn)在限制GS應(yīng)用的一大主要因素還是基因分型的成本太高。當(dāng)然,如果說華大的測(cè)序可以再降個(gè)十倍氓英,那很多問題就簡單了侯勉。
- 計(jì)算的限制。CropGS-Hub 是在具有彈性計(jì)算資源(32 個(gè) CPU铝阐、64 GB RAM 和 1000 Gb 存儲(chǔ))的云服務(wù)器上開發(fā)的址貌。這個(gè)對(duì)于計(jì)算資源較高的基因組預(yù)測(cè)而言,并發(fā)數(shù)是不是不能太高了徘键,尤其是對(duì)于Bayes類的算法练对。不過,既然都是免費(fèi)的資源啊鸭,還能要什么自行車锹淌?
- 尷尬的用戶群體。小編初步測(cè)試了下平臺(tái)赠制,可能覺得還是需要有一點(diǎn)數(shù)量遺傳學(xué)或者生信基礎(chǔ)的人才能用得比較順利赂摆。這種感覺就有點(diǎn)像測(cè)序公司為科服市場(chǎng)提供的云平臺(tái),面臨一個(gè)較為尷尬的局面:有基礎(chǔ)做分析的用戶基本不會(huì)在平臺(tái)上使用钟些,沒有基礎(chǔ)的用戶則教不會(huì)或者懶得學(xué)烟号。不知道黃老師前期開發(fā)的水稻基因定位導(dǎo)航系統(tǒng)RiceNavi有沒有遇到過這種局面。當(dāng)然政恍,如果后續(xù)老師們有更多相關(guān)的培訓(xùn)汪拥,那是極好的。
總之篙耗,這是一項(xiàng)很棒的工作迫筑!GS在中國的作物育種應(yīng)用之路才剛起步,該研究至少讓作物科學(xué)家和育種家都開始有這方面意識(shí)并嘗試去做一些工作宗弯,尤其是對(duì)廣大用戶開源顯得非常友好脯燃。以上僅個(gè)人觀點(diǎn),一孔之見蒙保,歡迎拍磚辕棚。可與小編交流邓厕,或在下方評(píng)論區(qū)留言逝嚎。