Tanaka, R., and Iwata, H. 2017. Bayesian optimization for genomic selection: a method for discovering the best genotype among a large number of candidates. Theor. Appl. Genet. (123456789): 1–13. Springer Berlin Heidelberg. doi:10.1007/s00122-017-2988-z.
摘要
提出了一種基于優(yōu)化算法的新的預(yù)育策略泼差,并通過模擬進行了評估。這種策略可以找到更好的基因型與較少的表型分型努力。摘要:基因組預(yù)測是一種很有前途的方法效五,用于在基因庫中保存的大量種質(zhì)資源中搜索優(yōu)良的基因型亡蓉。當(dāng)一些種質(zhì)進行表型和基因分型時续挟,可以建立預(yù)測模型叹阔,并且可以從其標記基因型預(yù)測剩余種質(zhì)的基因型值截酷。在這項研究中蔓同,我們著重于基因組預(yù)測在預(yù)培育中的應(yīng)用饶辙,并提出了一種新的策略,可以降低發(fā)現(xiàn)更好種質(zhì)所需的表型分型的成本斑粱。將基因組預(yù)測優(yōu)越基因型作為優(yōu)化問題弃揽,引入貝葉斯優(yōu)化方法進行求解。貝葉斯優(yōu)化,根據(jù)預(yù)期的改善(EI)作為選擇標準矿微,抽樣未觀察到的投入痕慢,似乎是有利于prebreeding。 EI取決于基因型值的預(yù)測分布冷冗,而通常的選擇僅取決于點估計守屉。我們模擬了候選基因型中最佳基因型的搜索,并且顯示基于EI的策略比通常的和隨機選擇策略需要更少的基因型來鑒定最佳基因型蒿辙。因此拇泛,貝葉斯優(yōu)化對于將基因組預(yù)測應(yīng)用于預(yù)培育可能是有用的,并且會減少大量候選人中找到最佳加入所需的表型加入的數(shù)量思灌。
介紹
為了在2050年之前為90多億人口提供糧食俺叭,我們需要通過新的育種技術(shù)和利用種質(zhì)資源中的遺傳多樣性來加速作物遺傳改良(Tester和Langridge,2010)泰偿。由于精英繁殖種群和商業(yè)栽培種在其長期的馴化和選擇歷史中失去了遺傳多樣性熄守,所以野生,外來或本地種質(zhì)的豐富變異的進化對于促進植物育種是至關(guān)重要的(Tanksley and McCouch 1997; Jordan et al耗跛。 McCouch等裕照,2013)。為了收集调塌,保存晋南,保存和分發(fā)代表作物品種遺傳多樣性的種子(如Sachs,2009)羔砾,已做出了大量的國內(nèi)和國際努力负间。
鑒定特定育種目標的最佳種質(zhì)是耗費時間和勞力的,因為它要求在植物基因庫中保存大量種質(zhì)的表型姜凄。為了便于篩選政溃,已經(jīng)在各種作物物種中開發(fā)了核心種質(zhì)(少量代表性種質(zhì)的部分集合; Brown 1989)。然而态秧,核心收集戰(zhàn)略可能會限制核心收集品之外的加入者的使用董虱。例如,核心集合中可能缺少有價值的稀有等位基因申鱼。已經(jīng)提出了替代的策略空扎,例如種質(zhì)策略的重點鑒定(例如,Khazaei等润讥,2013)转锈,但缺點是圖依賴于與目標性狀有關(guān)的農(nóng)業(yè)生態(tài)信息,并且不能使用遺傳信息楚殿。
基因組選擇(GS; Meuwissen et al.2001)依靠基因組預(yù)測來發(fā)現(xiàn)種質(zhì)資源中的優(yōu)質(zhì)種質(zhì)撮慨。與表型分型相比竿痰,標記基因分型即使在標記數(shù)量較多的情況下也能實現(xiàn)高通量且更具成本效益∑瞿纾可以基于訓(xùn)練數(shù)據(jù)(表型和全基因組標記數(shù)據(jù)對)建立基因組預(yù)測模型影涉,并基于其全基因組標記基因型預(yù)測沒有表型數(shù)據(jù)的基因型的基因型值。基因組預(yù)測可用于鑒定種質(zhì)資源中的優(yōu)質(zhì)材料规伐,并將其應(yīng)用于預(yù)育蟹倾,目的是鑒定大量材料中的高潛力基因型(Pace等,2015; Chang等猖闪,2016; Gorjanc等鲜棠,2016 ; Yu等,2016)培慌。
全局優(yōu)化是一個數(shù)學(xué)問題豁陆,用于在輸入空間中查找使函數(shù)最大化的輸入值,而預(yù)先培育的目的是在候選基因型中找到最好(或更好)的基因型吵护。為了有效實現(xiàn)全球最優(yōu)化盒音,我們需要平衡兩個相互沖突的目標:探索和利用。通常馅而,我們只是利用我們的預(yù)測模型來找到最好的基因型;選擇具有較高預(yù)測基因型值的基因型祥诽。由于我們的預(yù)測模型并不總是正確的,所以這種純粹的利用策略可能會發(fā)現(xiàn)與訓(xùn)練數(shù)據(jù)集密切相關(guān)的更好的基因型(局部最優(yōu))瓮恭,而不是所有候選基因型(全局最優(yōu))中的最佳基因型雄坪。為避免陷入局部最優(yōu),需要對輸入空間進行廣泛的探索偎血,以確保選定的基因型和訓(xùn)練數(shù)據(jù)集的遺傳多樣性。探索-利用折衷是全球優(yōu)化中的一個眾所周知的問題盯漂,并且已經(jīng)開發(fā)了幾種算法來解決這個問題颇玷,包括貝葉斯優(yōu)化(Mockus 1994; Jones等人1998; Shahriari等人2016),但是它從未適用于前期育種的情況就缆。
在這項研究中帖渠,我們介紹貝葉斯優(yōu)化在與基因組預(yù)測育種的背景下,并提出了一種新的有效的策略竭宰,以發(fā)現(xiàn)集合中最好的基因型空郊,同時盡量減少表型篩選步驟的數(shù)量。我們的新策略使用一個新的標準選擇未經(jīng)測試的基因型切揭。我們的策略和通常的GS之間的差異在于選擇取決于預(yù)測的分布或預(yù)測的基因型值的點估計狞甚。我們的策略建議選擇不僅具有高預(yù)測值而且具有高后驗方差(換言之,預(yù)測的“不確定性”)的基因型廓旬,而通常的GS選擇僅具有高預(yù)測值的基因型哼审。通過考慮預(yù)測的不確定性,勘探開發(fā)權(quán)衡將是平衡的。在GS中涩盾,與訓(xùn)練群體相關(guān)的基因型在預(yù)測中往往具有很大的不確定性十气。因此,不確定基因型的選擇導(dǎo)致對遺傳空間的廣泛搜索春霍。因此砸西,我們的策略平衡了探索(通過基于“不確定性”搜索基因型進行的基因空間的廣泛搜索)和開發(fā)(根據(jù)預(yù)測選擇更好的基因型),而通常的GS是純粹的開發(fā)址儒。我們通過模擬來評估我們的策略的潛力芹枷,假設(shè)最好的基因型在基因型中具有最高的基因型值。