機器學習與GP
與動物育種相比轻黑,植物的基因組選擇必須通過環(huán)境相互作用來考慮更大的基因型,并且需要添加適當?shù)亩喹h(huán)境試驗數(shù)據(jù)稽煤。
機器學習 (ML) 和深度學習 (DL) 算法比線性預測模型更復雜森逮,可以發(fā)現(xiàn)數(shù)據(jù)集中的非線性關系。與以前的方法相比簿煌,隨機森林氮唯、支持向量機和人工神經(jīng)網(wǎng)絡由于其非線性,可能更容易捕獲基因型姨伟、表型和環(huán)境之間的復雜關系惩琉。
從理論上講,非線性方法能夠更好地捕獲標記之間的小相互作用夺荒,考慮環(huán)境相互作用并為高維數(shù)據(jù)生成更準確的預測瞒渠。ML 和 DL 架構還可以包括不適合簡單表格格式的多模態(tài)數(shù)據(jù)類型。
DL是從大型數(shù)據(jù)集中提取代表性特征的有效方法技扼,能夠考慮特征交互效應伍玖。然而,傳統(tǒng)的 ML 方法和混合線性模型仍然非常適合處理有限的數(shù)據(jù)集剿吻,在許多情況下生成比 DL 模型更準確的預測脚牍。我們建議表型預測應擴展到GBLUP方法之外琳骡,以確保為每個基因組選擇問題評估足夠的模型。
基因型數(shù)據(jù)編碼
對ML和DL的全基因組SNP數(shù)據(jù)進行編碼的最常見形式是使用一種熱編碼,其中每個SNP位置由四列表示舒帮,每列代表DNA的四個堿基:A壳坪,T柳刮,C和G砚著。每個位置的堿基的存在用1表示,缺失用0表示(Zou et al., 2019)茅撞,由此編碼為二進制表示形式外恕,適用于 ML 和 DL的數(shù)字輸入。SNP one 熱編碼是表型預測中 DNA 序列數(shù)據(jù)最常見的數(shù)據(jù)表示之一乡翅。
在性狀關聯(lián)研究中鳞疲,特征數(shù)量明顯多于樣本數(shù)量是很常見的。在植物育種中蠕蚜,可通過特征選擇尚洽、MAF和GWAS降維去除冗余信息。在人類研究中靶累,MAF腺毫、啟動子區(qū)癣疟、選擇少數(shù)SNP和整合轉錄數(shù)據(jù)等方法用于減少SNP數(shù)量。其他策略還包括關注與功能相關的罕見變異潮酒,選擇GWAS感興趣的區(qū)域等睛挚。
植物中的基因型編碼主要限于SNP編碼,但還有其他形式的基因組變異急黎,以及可用于表型預測的遺傳變異數(shù)據(jù)編碼的不同方法扎狱。
高通量表型
基因型到表型模型通常應用于稀疏收集的表型性狀。高通量表型產(chǎn)生的表型數(shù)據(jù)密度增加勃教,使研究人員能夠動態(tài)測量植物生長的變化淤击,評估基因組變異在不同發(fā)育階段的影響。
轉錄組故源、蛋白質組或代謝組數(shù)據(jù)等中間表型也可以在多維數(shù)據(jù)集中關聯(lián)污抬,提供植物對環(huán)境條件響應的更詳細描述,并可能提高表型預測的準確性绳军。
添加多維數(shù)據(jù)集可能會成倍增加分析的復雜性印机,需要能夠揭示數(shù)據(jù)類型與目標特征之間關系的算法。DL 模型在處理復雜的多模態(tài)數(shù)據(jù)集方面取得了成功门驾,最近耳贬,使用DL使用高通量植物表型圖像作為輸入進行性狀預測的幾項研究發(fā)表。
多模態(tài)深度學習模型由多個模型組成猎唁,每個模型使用單一輸入類型(例如,降雨顷蟆、土壤測量诫隅、遺傳數(shù)據(jù)、高光譜圖像)或基于級聯(lián)多模態(tài)數(shù)據(jù)訓練的單個模型帐偎。不同的模式有助于豐富模型學習的可用功能逐纬,有助于改進最終預測。
部署DL模型的挑戰(zhàn)主要來自植物表型可塑性削樊,因為植物根據(jù)環(huán)境條件呈現(xiàn)廣泛的表型豁生。ML/DL模型的有效性還取決于根據(jù)目標任務適當?shù)卣{整模型超參數(shù),Optuna和HyperOpt等軟件包可幫助調整漫贞。
高通量表型的挑戰(zhàn)與處理:
- 訓練和模型部署期間數(shù)據(jù)收集和處理的一致協(xié)議甸箱。
- 避免維度的詛咒,可用特征選擇算法來幫助選擇最具代表性的數(shù)據(jù)子集來訓練迅脐。
- 數(shù)據(jù)不平衡芍殖,可通過采樣方法(過采樣或欠采樣)來解決。
- 環(huán)境的變化谴蔑,可通過收集模擬模型在預測表型時將看到的條件的數(shù)據(jù)來解決豌骏。
數(shù)據(jù)驅動的育種需要結構化數(shù)據(jù)集
訓練健壯的 ML 模型的一個常見挑戰(zhàn)是缺乏具有足夠數(shù)據(jù)點和樣本可變性的適當數(shù)據(jù)集龟梦。植物表型數(shù)據(jù)集的稀缺一是因為由于缺少信息以及難以找到存儲它的公共存儲庫,二是數(shù)據(jù)保存在訪問受限的數(shù)據(jù)孤島中窃躲。一些國際聯(lián)盟计贰,如AgBioData和育種API(Selby et al,2019)正在努力共享和轉換育種數(shù)據(jù)集蒂窒,使其變得更容易找到躁倒,可訪問,可互操作和可重用刘绣。然而樱溉,需要一個集中的平臺來托管和管理表型數(shù)據(jù)集,以使數(shù)據(jù)更廣泛地可用纬凤,類似于用于共享基因組數(shù)據(jù)的方法福贞。
限制研究人員使用以前發(fā)表的數(shù)據(jù)集的另一個方面是缺乏標準化的元數(shù)據(jù)描述,包括實驗設計停士、數(shù)據(jù)收集協(xié)議挖帘、現(xiàn)場管理、環(huán)境變量和其他信息恋技。觀察到的植物表型是植物所經(jīng)歷的條件的結果拇舀,因此重用以前發(fā)表的數(shù)據(jù)需要為用戶描述影響目標性狀的所有因素。 植物表型項目的最小信息(MIAPPE)為此提供指導蜻底。
在支持數(shù)據(jù)驅動育種協(xié)作的同時保護敏感信息的另一種方法是建立聯(lián)邦學習隊列骄崩。在這些中,每個參與機構都使用自己的數(shù)據(jù)集訓練模型薄辅,并將更新的模型對等共享要拂,或共享到將聚合模型權重的集中式服務器。更新后的模型參數(shù)改進了基線模型站楚,然后在機構之間共享脱惰。聯(lián)邦學習在數(shù)字健康中的應用越來越多,其中數(shù)據(jù)敏感性是一個主要問題窿春。
聯(lián)邦學習的點對點或集中式方案拉一。在點對點中,每個機構都使用自己的數(shù)據(jù)集在本地訓練模型旧乞,并與其合作伙伴共享模型訓練權重蔚润。在此工作流中,模型由每個機構根據(jù)需要進行聚合尺栖。在集中式方案中抽碌,經(jīng)過訓練的模型與一個集中式隊列共享,該隊列將匯總收到的模型并與利益相關者共享單個版本。
可解釋機器學習
建立能夠預測生物輸出的模型只能被視為目標之一货徙。模型還應該嘗試解決生物學問題左权,這需要了解模型如何進行預測。
預測模型中的可解釋性是基因組預測的一個相對較新的領域痴颊,因為GS主要目標通常是實現(xiàn)最佳預測性能赏迟,而模型可解釋性則不那么重要。以GBLUP為例蠢棱,GBLUP預測的可解釋性較低锌杀,因為”大p小n”問題,基因組預測數(shù)據(jù)集很難估計單個SNP效應泻仙。
對于作物中的基因型到表型預測糕再,可解釋性提供了識別重要基因組標記的能力,然后應用這些基因組標記來減少進一步預測所需的模型輸入的大小玉转。使用可解釋模型提供了選擇高排名標記作為特征選擇策略的機會突想,并且有證據(jù)表明選擇重要標記的子集可以改善對給定表型的預測。這是由于大量的SNP充當預測的背景噪音究抓,導致性能回報遞減猾担,除非大部分包含的SNP與該特征相關。
可使用諸如CGBayesNets刺下、Harvestman之類的工具來選擇具有代表性且非冗余的特征子集绑嘹,然后使用特征的最佳子集和編碼來訓練新模型。還可以通過集成方法來改進預測橘茉,可解釋的 ML 方法可用于特征選擇工腋,然后將高級特征輸入到另一個模型(如DL)中。
模型解釋很復雜畅卓,因為可解釋性的定義是可變的擅腰,且對這些解釋的評估是非標準化的。ML模型的構建應該考慮到可解釋性髓介,而不是在訓練后從“黑匣子”模型中提取意義。而特征與結果的關聯(lián)往往不是因果關系筋现。
本文根據(jù)西澳大學 David Edwards(生信尤其是 pan-genome 方向的大佬)于 2022 年寫的綜述唐础,翻譯提煉要點。
具體參考:Danilevicz MF, Gill M, Anderson R, et al. Plant Genotype to Phenotype Prediction Using Machine Learning. Front Genet. 2022;13:822173. Published 2022 May 18. doi:10.3389/fgene.2022.822173