基于機器學習的基因組預測

機器學習與GP

與動物育種相比轻黑，植物的基因組選擇必須通過環(huán)境相互作用來考慮更大的基因型，并且需要添加適當?shù)亩喹h(huán)境試驗數(shù)據(jù)稽煤。

機器學習（ML）和深度學習（DL）算法比線性預測模型更復雜森逮，可以發(fā)現(xiàn)數(shù)據(jù)集中的非線性關系。與以前的方法相比簿煌，隨機森林氮唯、支持向量機和人工神經(jīng)網(wǎng)絡由于其非線性，可能更容易捕獲基因型姨伟、表型和環(huán)境之間的復雜關系惩琉。

從理論上講，非線性方法能夠更好地捕獲標記之間的小相互作用夺荒，考慮環(huán)境相互作用并為高維數(shù)據(jù)生成更準確的預測瞒渠。ML 和 DL 架構還可以包括不適合簡單表格格式的多模態(tài)數(shù)據(jù)類型。

DL是從大型數(shù)據(jù)集中提取代表性特征的有效方法技扼，能夠考慮特征交互效應伍玖。然而，傳統(tǒng)的 ML 方法和混合線性模型仍然非常適合處理有限的數(shù)據(jù)集剿吻，在許多情況下生成比 DL 模型更準確的預測脚牍。我們建議表型預測應擴展到GBLUP方法之外琳骡，以確保為每個基因組選擇問題評估足夠的模型。

image.png

基因型數(shù)據(jù)編碼

對ML和DL的全基因組SNP數(shù)據(jù)進行編碼的最常見形式是使用一種熱編碼，其中每個SNP位置由四列表示舒帮，每列代表DNA的四個堿基：A壳坪，T柳刮，C和G砚著。每個位置的堿基的存在用1表示，缺失用0表示(Zou et al., 2019)茅撞，由此編碼為二進制表示形式外恕，適用于 ML 和 DL的數(shù)字輸入。SNP one 熱編碼是表型預測中 DNA 序列數(shù)據(jù)最常見的數(shù)據(jù)表示之一乡翅。

在性狀關聯(lián)研究中鳞疲，特征數(shù)量明顯多于樣本數(shù)量是很常見的。在植物育種中蠕蚜，可通過特征選擇尚洽、MAF和GWAS降維去除冗余信息。在人類研究中靶累，MAF腺毫、啟動子區(qū)癣疟、選擇少數(shù)SNP和整合轉錄數(shù)據(jù)等方法用于減少SNP數(shù)量。其他策略還包括關注與功能相關的罕見變異潮酒，選擇GWAS感興趣的區(qū)域等睛挚。

植物中的基因型編碼主要限于SNP編碼，但還有其他形式的基因組變異急黎，以及可用于表型預測的遺傳變異數(shù)據(jù)編碼的不同方法扎狱。

高通量表型

基因型到表型模型通常應用于稀疏收集的表型性狀。高通量表型產(chǎn)生的表型數(shù)據(jù)密度增加勃教，使研究人員能夠動態(tài)測量植物生長的變化淤击，評估基因組變異在不同發(fā)育階段的影響。

轉錄組故源、蛋白質組或代謝組數(shù)據(jù)等中間表型也可以在多維數(shù)據(jù)集中關聯(lián)污抬，提供植物對環(huán)境條件響應的更詳細描述，并可能提高表型預測的準確性绳军。

添加多維數(shù)據(jù)集可能會成倍增加分析的復雜性印机，需要能夠揭示數(shù)據(jù)類型與目標特征之間關系的算法。DL 模型在處理復雜的多模態(tài)數(shù)據(jù)集方面取得了成功门驾，最近耳贬，使用DL使用高通量植物表型圖像作為輸入進行性狀預測的幾項研究發(fā)表。

多模態(tài)深度學習模型由多個模型組成猎唁，每個模型使用單一輸入類型（例如，降雨顷蟆、土壤測量诫隅、遺傳數(shù)據(jù)、高光譜圖像）或基于級聯(lián)多模態(tài)數(shù)據(jù)訓練的單個模型帐偎。不同的模式有助于豐富模型學習的可用功能逐纬，有助于改進最終預測。

image.png

部署DL模型的挑戰(zhàn)主要來自植物表型可塑性削樊，因為植物根據(jù)環(huán)境條件呈現(xiàn)廣泛的表型豁生。ML/DL模型的有效性還取決于根據(jù)目標任務適當?shù)卣{整模型超參數(shù)，Optuna和HyperOpt等軟件包可幫助調整漫贞。

高通量表型的挑戰(zhàn)與處理：

訓練和模型部署期間數(shù)據(jù)收集和處理的一致協(xié)議甸箱。
避免維度的詛咒，可用特征選擇算法來幫助選擇最具代表性的數(shù)據(jù)子集來訓練迅脐。
數(shù)據(jù)不平衡芍殖，可通過采樣方法（過采樣或欠采樣）來解決。
環(huán)境的變化谴蔑，可通過收集模擬模型在預測表型時將看到的條件的數(shù)據(jù)來解決豌骏。

image.png

數(shù)據(jù)驅動的育種需要結構化數(shù)據(jù)集

訓練健壯的 ML 模型的一個常見挑戰(zhàn)是缺乏具有足夠數(shù)據(jù)點和樣本可變性的適當數(shù)據(jù)集龟梦。植物表型數(shù)據(jù)集的稀缺一是因為由于缺少信息以及難以找到存儲它的公共存儲庫，二是數(shù)據(jù)保存在訪問受限的數(shù)據(jù)孤島中窃躲。一些國際聯(lián)盟计贰，如AgBioData和育種API（Selby et al，2019）正在努力共享和轉換育種數(shù)據(jù)集蒂窒，使其變得更容易找到躁倒，可訪問，可互操作和可重用刘绣。然而樱溉，需要一個集中的平臺來托管和管理表型數(shù)據(jù)集，以使數(shù)據(jù)更廣泛地可用纬凤，類似于用于共享基因組數(shù)據(jù)的方法福贞。

限制研究人員使用以前發(fā)表的數(shù)據(jù)集的另一個方面是缺乏標準化的元數(shù)據(jù)描述，包括實驗設計停士、數(shù)據(jù)收集協(xié)議挖帘、現(xiàn)場管理、環(huán)境變量和其他信息恋技。觀察到的植物表型是植物所經(jīng)歷的條件的結果拇舀，因此重用以前發(fā)表的數(shù)據(jù)需要為用戶描述影響目標性狀的所有因素。植物表型項目的最小信息（MIAPPE）為此提供指導蜻底。

在支持數(shù)據(jù)驅動育種協(xié)作的同時保護敏感信息的另一種方法是建立聯(lián)邦學習隊列骄崩。在這些中，每個參與機構都使用自己的數(shù)據(jù)集訓練模型薄辅，并將更新的模型對等共享要拂，或共享到將聚合模型權重的集中式服務器。更新后的模型參數(shù)改進了基線模型站楚，然后在機構之間共享脱惰。聯(lián)邦學習在數(shù)字健康中的應用越來越多，其中數(shù)據(jù)敏感性是一個主要問題窿春。

image.png

聯(lián)邦學習的點對點或集中式方案拉一。在點對點中，每個機構都使用自己的數(shù)據(jù)集在本地訓練模型旧乞，并與其合作伙伴共享模型訓練權重蔚润。在此工作流中，模型由每個機構根據(jù)需要進行聚合尺栖。在集中式方案中抽碌，經(jīng)過訓練的模型與一個集中式隊列共享，該隊列將匯總收到的模型并與利益相關者共享單個版本。

可解釋機器學習

建立能夠預測生物輸出的模型只能被視為目標之一货徙。模型還應該嘗試解決生物學問題左权，這需要了解模型如何進行預測。

預測模型中的可解釋性是基因組預測的一個相對較新的領域痴颊，因為GS主要目標通常是實現(xiàn)最佳預測性能赏迟，而模型可解釋性則不那么重要。以GBLUP為例蠢棱，GBLUP預測的可解釋性較低锌杀，因為”大p小n”問題，基因組預測數(shù)據(jù)集很難估計單個SNP效應泻仙。

對于作物中的基因型到表型預測糕再，可解釋性提供了識別重要基因組標記的能力，然后應用這些基因組標記來減少進一步預測所需的模型輸入的大小玉转。使用可解釋模型提供了選擇高排名標記作為特征選擇策略的機會突想，并且有證據(jù)表明選擇重要標記的子集可以改善對給定表型的預測。這是由于大量的SNP充當預測的背景噪音究抓，導致性能回報遞減猾担，除非大部分包含的SNP與該特征相關。

可使用諸如CGBayesNets刺下、Harvestman之類的工具來選擇具有代表性且非冗余的特征子集绑嘹，然后使用特征的最佳子集和編碼來訓練新模型。還可以通過集成方法來改進預測橘茉，可解釋的 ML 方法可用于特征選擇工腋，然后將高級特征輸入到另一個模型（如DL）中。

模型解釋很復雜畅卓，因為可解釋性的定義是可變的擅腰，且對這些解釋的評估是非標準化的。ML模型的構建應該考慮到可解釋性髓介，而不是在訓練后從“黑匣子”模型中提取意義。而特征與結果的關聯(lián)往往不是因果關系筋现。

本文根據(jù)西澳大學 David Edwards（生信尤其是 pan-genome 方向的大佬）于 2022 年寫的綜述唐础，翻譯提煉要點。
具體參考：Danilevicz MF, Gill M, Anderson R, et al. Plant Genotype to Phenotype Prediction Using Machine Learning. Front Genet. 2022;13:822173. Published 2022 May 18. doi:10.3389/fgene.2022.822173

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

人面猴
序言：七十年代末矾飞，一起剝皮案震驚了整個濱河市一膨，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌洒沦，老刑警劉巖豹绪，帶你破解...
沈念sama閱讀 221,548評論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異，居然都是意外死亡瞒津，警方通過查閱死者的電腦和手機蝉衣，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來巷蚪，“玉大人病毡，你說我怎么就攤上這事∑ò兀” “怎么了啦膜？”我有些...
開封第一講書人閱讀 167,990評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長淌喻。經(jīng)常有香客問我僧家，道長，這世上最難降的妖魔是什么裸删？我笑而不...
開封第一講書人閱讀 59,618評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任八拱，我火速辦了婚禮，結果婚禮上烁落，老公的妹妹穿的比我還像新娘乘粒。我一直安慰自己，他們只是感情好伤塌，可當我...
茶點故事閱讀 68,618評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布灯萍。她就那樣靜靜地躺著，像睡著了一般每聪。火紅的嫁衣襯著肌膚如雪旦棉。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,246評論 1贊 308
城市分裂傳說
那天药薯，我揣著相機與錄音绑洛，去河邊找鬼。笑死童本，一個胖子當著我的面吹牛真屯，可吹牛的內容都是我干的。我是一名探鬼主播穷娱，決...
沈念sama閱讀 40,819評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼绑蔫，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了泵额？” 一聲冷哼從身側響起配深，我...
開封第一講書人閱讀 39,725評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎嫁盲，沒想到半個月后篓叶，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,268評論 1贊 320
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 38,356評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年缸托，在試婚紗的時候發(fā)現(xiàn)自己被綠了左敌。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 40,488評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡嗦董，死狀恐怖母谎，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情京革，我是刑警寧澤奇唤，帶...
沈念sama閱讀 36,181評論 5贊 350
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站匹摇，受9級特大地震影響咬扇，放射性物質發(fā)生泄漏。R本人自食惡果不足惜廊勃，卻給世界環(huán)境...
茶點故事閱讀 41,862評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一懈贺、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧坡垫，春花似錦梭灿、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評論 0贊 24
一樁弒父案堡妒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至溉卓，卻和暖如春皮迟，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背桑寨。一陣腳步聲響...
開封第一講書人閱讀 33,445評論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工伏尼，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人尉尾。一個月前我還...
沈念sama閱讀 48,897評論 3贊 376
代替公主和親
正文我出身青樓爆阶，卻偏偏與公主長得像，于是被迫代替她去往敵國和親沙咏。傳聞我的和親對象是個殘疾皇子辨图，可洞房花燭夜當晚...
茶點故事閱讀 45,500評論 2贊 359

基于機器學習的基因組預測

機器學習與GP

基因型數(shù)據(jù)編碼

高通量表型

數(shù)據(jù)驅動的育種需要結構化數(shù)據(jù)集

可解釋機器學習

推薦閱讀更多精彩內容