近日,華中農(nóng)大王旭彤老師團(tuán)隊(duì)在Briefings in Bioinformatics(BIB,IF=9.5)上發(fā)表基因組預(yù)測(cè)新模型SoyDNGP: a web-accessible deep learning framework for genomic prediction in soybean breeding湿弦。
簡(jiǎn)介
傳統(tǒng)模型,如線性回歸模型(GBLUP, rrBLUP和Bayesian方法)爽冕,通常難以捕捉復(fù)雜的非加性效應(yīng)溅呢。在這種情況下,深度學(xué)習(xí)方法炼蛤,如DeepGS和DNNGP妖爷,可以發(fā)揮作用。它們使用多個(gè)隱藏層來(lái)捕捉數(shù)據(jù)中的復(fù)雜理朋、非線性關(guān)系絮识。然而,這些技術(shù)需要大型數(shù)據(jù)集才能進(jìn)行準(zhǔn)確的預(yù)測(cè)嗽上。
本研究是關(guān)于如何使用深度學(xué)習(xí)方法進(jìn)行大豆育種中的基因組預(yù)測(cè)次舌。使用了來(lái)自USDA大豆種質(zhì)資源收藏的數(shù)千個(gè)大豆樣本的基因型和來(lái)自GRIN-global web服務(wù)器的表型,建立了大豆基因組預(yù)測(cè)的神經(jīng)網(wǎng)絡(luò)框架SoyDNGP兽愤。
SoyDNGP具有獨(dú)特的3D層輸入和卷積神經(jīng)網(wǎng)絡(luò)(CNN)架構(gòu)彼念,與其他機(jī)器學(xué)習(xí)(ML)方法和深度學(xué)習(xí)模型(如deepGS和DNNGP)比較表明,SoyDNGP始終優(yōu)于這些模型浅萧,特別是在回歸任務(wù)中逐沙。測(cè)試了SoyDNGP在各種大豆群體中的適用性,包括野生大豆洼畅、地方品種和精英品種吩案,都表現(xiàn)出高預(yù)測(cè)準(zhǔn)確性。將SoyDNGP的應(yīng)用擴(kuò)展到其他物種帝簇,如棉花徘郭、玉米、水稻和番茄己儒,模型保持了高預(yù)測(cè)準(zhǔn)確性崎岂,證明了它在大豆之外的通用性和有效性。為使基因組預(yù)測(cè)更被廣泛接受闪湾,推出了一個(gè)用戶友好的SoyDNGP網(wǎng)絡(luò)服務(wù)器冲甘,配有性狀查詢和性狀預(yù)測(cè)工具。
材料方法
數(shù)據(jù)集
SoyDNGP模型訓(xùn)練和預(yù)測(cè)數(shù)據(jù)來(lái)自SoyBase和GRIN-Global。
來(lái)自SoyBase的大約20087個(gè)大豆資源的基因型信息江醇,包括基于SoySNP50K 芯片的42509個(gè)高置信度SNPs濒憋。50K芯片與重測(cè)序數(shù)據(jù)(從NCBI(PRJNA608146)和GSA(CRA002269)下載得兩個(gè)公共數(shù)據(jù)集,參考基因組為Williams82 v2)取交集陶夜,并填充精選32032個(gè)SNP用于模型訓(xùn)練凛驮。同時(shí)材料也進(jìn)行了優(yōu)選,共13784個(gè)条辟,代表了來(lái)自全球各地的多樣性的地方品種和精英培育品種黔夭。
表型數(shù)據(jù)都來(lái)自于GRIN-Global數(shù)據(jù)庫(kù)(https://npgsweb.ars-grin.gov/gringlobal/search)。最初有23個(gè)農(nóng)藝性狀羽嫡,關(guān)注點(diǎn)縮小到了10個(gè)關(guān)鍵性狀本姥。包括了六個(gè)數(shù)量性狀和四個(gè)定性性狀。
SoyDNGP的模型結(jié)構(gòu)
與DNNGP三層寬的卷積架構(gòu)不同杭棵,受到了VGG深度學(xué)習(xí)網(wǎng)絡(luò)中分割概念的啟發(fā)婚惫,SoyDNGP采用了一種深而窄的網(wǎng)絡(luò)結(jié)構(gòu)。具體來(lái)說(shuō)魂爪,SoyDNGP是圍繞著'卷積塊'構(gòu)建的先舷,每個(gè)卷積塊包括一個(gè)卷積層、一個(gè)歸一化層和一個(gè)激活層(ReLU)滓侍。模型結(jié)構(gòu)如下圖所示蒋川。網(wǎng)絡(luò)中的每個(gè)特征提取單元由一個(gè)或兩個(gè)這些卷積塊組成,從而形成了一個(gè)有效的特征提取塊結(jié)構(gòu)粗井。在卷積序列的末尾尔破,添加了一個(gè)全連接層街图,以增強(qiáng)網(wǎng)絡(luò)的表達(dá)能力浇衬。隨著網(wǎng)絡(luò)的深度增加,在每個(gè)卷積之后還添加了一個(gè)歸一化層以增強(qiáng)模型的泛化能力餐济,并添加了一個(gè)丟失層(dropout=0.3)以減輕過(guò)擬合耘擂。總體而言絮姆,網(wǎng)絡(luò)架構(gòu)集成了12個(gè)卷積層和一個(gè)單獨(dú)的全連接層醉冤,設(shè)計(jì)用于處理維度為(206×206×3)的輸入張量。
[圖片上傳失敗...(image-2c4790-1697381908638)]
第一個(gè)卷積模塊使用3×3的卷積核和步幅為1來(lái)操作篙悯,有效地增加了特征并將特征圖從三個(gè)通道擴(kuò)展到32個(gè)蚁阳。隨后的卷積塊使用4×4的卷積核和步幅為2,增加了特征圖的維度鸽照,同時(shí)減小了每個(gè)維度的特征圖大小螺捐。在接下來(lái)的網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)特征提取塊由兩個(gè)卷積層組成。
在每個(gè)特征提取塊中定血,第一個(gè)卷積層根據(jù)特征圖的維度調(diào)整卷積核的大小和采樣步幅赔癌,以確保對(duì)特征圖的完全遍歷,并使特征圖縮放和維度增加具有最小的可能卷積核澜沟。第二個(gè)卷積層使用3×3的卷積核來(lái)重新處理前一層的特征圖灾票,增強(qiáng)特征提取。這個(gè)過(guò)程迭代進(jìn)行茫虽,直到特征圖的通道數(shù)增加到1024刊苍,維度減小到7×7。隨后濒析,特征圖被展平成一個(gè)1D向量班缰,并傳遞給全連接層進(jìn)行最終的分類和回歸處理。鑒于基于SNP變異的特征矩陣具有豐富的信息密度悼枢,作者選擇了在卷積填充期間移開(kāi)傳統(tǒng)的零填充方法埠忘。采用了一種利用矩陣最外層元素的非對(duì)稱填充技術(shù),以矩陣邊緣作為對(duì)稱軸馒索。這顯著增強(qiáng)了從矩陣中提取特征的能力莹妒。
為了避免由網(wǎng)絡(luò)深度引起的模型訓(xùn)練過(guò)擬合的潛在問(wèn)題,對(duì)Adam優(yōu)化器應(yīng)用了權(quán)重衰減绰上,包括了回歸任務(wù)的衰減率為1e-5旨怠,分類任務(wù)的衰減率為0.01。對(duì)于定性性狀蜈块,模型使用常用的交叉熵?fù)p失函數(shù)進(jìn)行訓(xùn)練鉴腻。而對(duì)于與數(shù)量性狀(如蛋白質(zhì)含量和產(chǎn)量)相關(guān)的回歸任務(wù),SoyDNGP使用了平滑的L1損失函數(shù)(β=0.1)作為其損失函數(shù):
[圖片上傳失敗...(image-1cbe03-1697381908638)]
這種特定的損失函數(shù)在損失顯著時(shí)提供恒定的梯度百揭,從而減輕了由于梯度大而導(dǎo)致的訓(xùn)練參數(shù)的潛在干擾爽哎。相反,當(dāng)損失最小時(shí)器一,梯度會(huì)動(dòng)態(tài)減小课锌,解決了常見(jiàn)的L1損失下收斂挑戰(zhàn)。與傳統(tǒng)的L1和L2損失函數(shù)相比祈秕,平滑的L1損失函數(shù)提供了更快的收斂速度渺贤,對(duì)離群值具有更好的魯棒性,并提高了梯度的平滑度请毛。對(duì)于每個(gè)性狀志鞍,在GeForce RTX 3090或RTX A6000上進(jìn)行了150個(gè)epoch的訓(xùn)練,并有選擇地保留了在測(cè)試集上表現(xiàn)最佳的epoch作為最終模型的權(quán)重方仿。
最后固棚,值得注意的是街州,在第一個(gè)和最后一個(gè)卷積層之后作者都加入了一個(gè)坐標(biāo)注意力(CA)機(jī)制模塊。這種策略增強(qiáng)了對(duì)特征矩陣和通道之間的位置信息的關(guān)注玻孟,從而增強(qiáng)了空間信息的提取唆缴。SoyDNGP的模型結(jié)構(gòu)由PyTorch(版本2.0.1)設(shè)計(jì)和實(shí)現(xiàn)。
比對(duì)模型的處理
為了公平比較不同模型架構(gòu)黍翎,并認(rèn)識(shí)到original deepGS(rDeepGS)模型在特征代表方面的有限能力面徽,選擇在保持其整體結(jié)構(gòu)的同時(shí)進(jìn)行了增強(qiáng)。這個(gè)結(jié)構(gòu)包括了卷積層匣掸、ReLU激活函數(shù)趟紊、最大池化層和丟失層的組合,所有這些都連接到兩個(gè)全連接層碰酝。
在rDeepGS模型中霎匈,用更緊湊的3×3卷積核替換了原來(lái)的1×18卷積核。此外送爸,增加了模型中卷積和池化層的數(shù)量铛嘱,達(dá)到了六層,總共有12層袭厂,形成了修改后的深度rDeepGS(mDeepGS)墨吓。這個(gè)修改確保了最終特征圖的通道數(shù)與SoyDNGP相匹配。模型結(jié)構(gòu)如圖所示纹磺。
[圖片上傳失敗...(image-1a9d9a-1697381908638)]
在調(diào)整了模型結(jié)構(gòu)之后帖烘,保持了訓(xùn)練階段中與SoyDNGP模型相同的所有其他條件。這種方法使得作者能夠在相同的數(shù)據(jù)集上進(jìn)行兩種模型架構(gòu)的公平比較橄杨。此外秘症,它強(qiáng)調(diào)了在特征提取和表達(dá)能力領(lǐng)域,深而窄的卷積網(wǎng)絡(luò)的優(yōu)越性式矫。
為評(píng)估SoyDNGP模型的有效性乡摹,作者在相同的數(shù)據(jù)集上使用了九種傳統(tǒng)的機(jī)器學(xué)習(xí)算法進(jìn)行了并行評(píng)估。這些傳統(tǒng)模型包括:K-最近鄰(KNN)衷佃、決策樹(shù)(DT)趟卸、隨機(jī)森林(RF)蹄葱、多層感知器(MLP)氏义、自適應(yīng)增強(qiáng)(Adaboost)、高斯樸素貝葉斯(GNB)和支持向量分類(SVC)图云,使用不同的核(線性惯悠、徑向基函數(shù)和Sigmoid)。每個(gè)特征都經(jīng)過(guò)這九種算法的訓(xùn)練竣况,以便比較它們?cè)谙嗤瑪?shù)據(jù)集上的性能和穩(wěn)健性克婶。這些模型的超參數(shù)配置如下:對(duì)于KNN,將近鄰數(shù)(n_neighbors)設(shè)定為3。對(duì)于DT和RF情萤,將樹(shù)的最大深度(max_depth)限制為5鸭蛙,對(duì)于RF,定義森林中樹(shù)的數(shù)量(n_estimators)為10筋岛,并且用于最佳分割的特征數(shù)量(max_features)為1娶视。對(duì)于MLP,規(guī)定了L2懲罰(正則化項(xiàng))參數(shù)(alpha)為1睁宰。其余模型使用了其各自庫(kù)中定義的默認(rèn)參數(shù)肪获。
最終實(shí)施了一個(gè)10折交叉驗(yàn)證方案(n_splits=10),以更加嚴(yán)格地評(píng)估模型柒傻,確保每次運(yùn)行都使用不同的拆分(random_state=None)并在創(chuàng)建fold之前對(duì)數(shù)據(jù)進(jìn)行隨機(jī)洗牌(shuffle=True)孝赫。這樣做是為了防止在任何給定fold中某個(gè)類別的過(guò)度表達(dá)可能會(huì)影響模型的性能。評(píng)估指標(biāo)包括每個(gè)特性類別的精確度红符、召回率和F1分?jǐn)?shù)青柄。此外,計(jì)算了跨fold準(zhǔn)確度的平均值和標(biāo)準(zhǔn)差预侯,提供了對(duì)模型性能的全面視圖刹前。
主要結(jié)果
SoyDNGP在大豆基因組預(yù)測(cè)中展現(xiàn)了出色的能力
SoyDNGP采用從標(biāo)準(zhǔn)VCF文件轉(zhuǎn)換成數(shù)據(jù)矩陣,每行矩陣都經(jīng)過(guò)重新調(diào)整雌桑,形成一個(gè)大小為(M,M,3)的3D矩陣喇喉。在輸入的VCF文件中,有三種類型的突變:0/0校坑、0/1和1/1拣技。每種突變類型在特征圖中的一個(gè)不同的通道中表示,確保突變之間的相對(duì)距離耍目。具體來(lái)說(shuō)盖腕,0/1突變?cè)诘诙€(gè)通道中表示。特征矩陣中的像素值p[i,j,k]只有兩個(gè)可能的值:0和1诫咱。0的值表示在給定樣本的特定SNP位點(diǎn)上存在某種類型的突變抒寂,而1的值表示該突變的缺失。關(guān)于特征矩陣的維度毅访,根據(jù)具有最大SNP變異數(shù)的數(shù)據(jù)集的大小來(lái)確定沮榜,該數(shù)據(jù)集有42000個(gè)SNPs。這個(gè)決策是為了確保模型輸入在不同的群體中都有穩(wěn)健性喻粹。為了最小化遺失的SNP位點(diǎn)的影響蟆融,反復(fù)用樣本自己的變異特征填充特征矩陣,直到所有像素都被填充守呜。這種方法允許SoyDNGP結(jié)構(gòu)考慮基因型的類型和其空間關(guān)系型酥。兩種不同的結(jié)構(gòu)被用于分類(定性特征)和回歸(定量特征)任務(wù)山憨。
[圖片上傳失敗...(image-53509a-1697381908638)]
SoyDNGP實(shí)現(xiàn)了一個(gè)CNN架構(gòu),由12個(gè)卷積層和一個(gè)全連接層組成弥喉。在訓(xùn)練階段郁竟,使用Adam優(yōu)化器(自適應(yīng)時(shí)刻估計(jì)),該優(yōu)化器結(jié)合了動(dòng)量和自適應(yīng)學(xué)習(xí)率方法的原則由境,用于更新模型的權(quán)重枪孩。這種優(yōu)化策略允許模型有效地從鞍點(diǎn)逃脫,并加速模型向最優(yōu)擬合收斂藻肄。為了加入注意機(jī)制蔑舞,比較了坐標(biāo)關(guān)注(CA)、擠壓和激勵(lì)(SE)以及卷積塊注意模塊(CBAM)的性能嘹屯。
[圖片上傳失敗...(image-bf8d25-1697381908638)]
研究表明攻询,集成注意機(jī)制顯著提高了模型的穩(wěn)定性和特征表示能力。SE注意機(jī)制只關(guān)注通道信息州弟。另一方面钧栖,CABM注意機(jī)制包括通道和位置信息的提取,但沒(méi)有實(shí)現(xiàn)這些特征的有效融合婆翔。CA注意機(jī)制糾正了這些局限性拯杠,使得從特征圖中提取空間位置信息變得更為優(yōu)越。此外啃奴,僅在參數(shù)數(shù)量和每秒浮點(diǎn)運(yùn)算中存在邊際差異潭陪,CA注意機(jī)制在模型訓(xùn)練過(guò)程中展現(xiàn)了更快的擬合速度。在這些選擇中最蕾,CA在性能上超過(guò)了SE和CBAM依溯,使其成為最終架構(gòu)的首選。
CA模塊被策略性地放置在初始和最終的卷積層之后瘟则,增強(qiáng)了模型對(duì)特征矩陣內(nèi)部的空間細(xì)節(jié)和通道間相關(guān)性的關(guān)注能力黎炉。隨后,嘗試在SoyDNGP模型中添加更復(fù)雜的殘差網(wǎng)絡(luò)模塊(Residual Block)醋拧,但這些復(fù)雜的結(jié)構(gòu)增加了參數(shù)的數(shù)量和計(jì)算負(fù)載慷嗜,而沒(méi)有顯著提高性能。因此丹壕,作者選擇了CA+基線網(wǎng)絡(luò)結(jié)構(gòu)作為最終模型庆械。
為了確定模型訓(xùn)練的最佳樣本大小,使用不同數(shù)量的樣本訓(xùn)練模型雀费,并監(jiān)測(cè)預(yù)測(cè)性能干奢。樣本被分為2k、5k盏袄、8k和10k的訓(xùn)練組忿峻,每組都與11784、8784辕羽、5784和3784的測(cè)試集配對(duì)逛尚,經(jīng)過(guò)150個(gè)epochs。研究表明刁愿,2k樣本大小在準(zhǔn)確性和其他指標(biāo)方面的性能較低绰寞,而在較大的樣本大小中觀察到的差異并不顯著。最終發(fā)現(xiàn)5k樣本大小最適合模型構(gòu)建铣口。
單獨(dú)預(yù)測(cè)的準(zhǔn)確性結(jié)果顯示滤钱,回歸任務(wù)的預(yù)測(cè)準(zhǔn)確度從R8的0.56到SdWgt的0.87,而分類任務(wù)的預(yù)測(cè)準(zhǔn)確度從ST的0.82到FC的0.96脑题。這個(gè)結(jié)論也得到了歸一化的觀察和預(yù)測(cè)表型值之間的絕對(duì)誤差的支持件缸。經(jīng)過(guò)廣泛的測(cè)試,該模型在回歸和分類任務(wù)中都一直提供出色的預(yù)測(cè)準(zhǔn)確性叔遂。有些特征確實(shí)展示了不平衡的類分布他炊,導(dǎo)致在代表性不足的類別中模型性能較差。但是已艰,對(duì)于具有相對(duì)均衡的類分布的表型痊末,模型的表現(xiàn)特別好。例如哩掺,在“Flower color”的情況下凿叠,該模型在平衡的二分類中表現(xiàn)得很好。相反嚼吞,在“H_CLR”的情況下幔嫂,模型對(duì)于“Br”和“Bl”類別的準(zhǔn)確度明顯較低,作者將這一結(jié)果歸因于這些類別在數(shù)據(jù)集中的分布偏斜誊薄。
[圖片上傳失敗...(image-21a5ad-1697381908638)]
大豆基因組預(yù)測(cè)中SoyDNGP與其他算法的性能比較
使用相同的數(shù)據(jù)集來(lái)訓(xùn)練SoyDNGP模型和其他機(jī)器學(xué)習(xí)方法履恩。盡管傳統(tǒng)的機(jī)器學(xué)習(xí)沒(méi)有針對(duì)回歸任務(wù)進(jìn)行優(yōu)化,但發(fā)現(xiàn)其中一些能夠以高準(zhǔn)確度執(zhí)行分類任務(wù)呢蔫。例如切心,決策樹(shù)(DT)模型對(duì)FC和POD的預(yù)測(cè)準(zhǔn)確度分別達(dá)到了0.97和0.85。使用SVM RBF模型片吊,ST和PDENS的準(zhǔn)確度分別達(dá)到了0.82和0.84绽昏。在測(cè)試的九種機(jī)器學(xué)習(xí)方法中,SoyDNGP在所有分類特征上表現(xiàn)出平衡的性能俏脊,準(zhǔn)確度范圍從0.82(ST)到0.94(FC)全谤。
[圖片上傳失敗...(image-344cd-1697381908638)]
評(píng)估SoyDNGP與其他基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)模型(如deepGS和DNNGP)的性能。原始版本的deepGS(rDeepGS)在回歸任務(wù)中表現(xiàn)不佳爷贫,盡管在分類任務(wù)中與其他方法相比表現(xiàn)相當(dāng)认然。為了確認(rèn)deepGS結(jié)構(gòu)的效率补憾,使用重新設(shè)計(jì)的修改版本(mDeepGS)。使用與SoyDNGP相同的數(shù)據(jù)集訓(xùn)練這些模型表明卷员,無(wú)論是在回歸任務(wù)的特性還是訓(xùn)練樣本數(shù)量方面盈匾,與mDeepGS和DNNGP相比,SoyDNGP在測(cè)試中表現(xiàn)更好毕骡。DNNGP的相關(guān)系數(shù)(r)與SoyDNGP的相關(guān)系數(shù)相差約5%削饵。此外,DNNGP的預(yù)測(cè)值與實(shí)際值之間的差異(通過(guò)均方誤差MSE衡量)幾乎比SoyDNGP大了10倍未巫。這表明DNNGP只具有預(yù)測(cè)趨勢(shì)和定性描述的能力窿撬,但在定量方面缺乏精度。由于其淺層結(jié)構(gòu)叙凡,mDeepGS無(wú)法有效處理回歸任務(wù)的復(fù)雜性劈伴,因此無(wú)法準(zhǔn)確擬合。
[圖片上傳失敗...(image-77d532-1697381908638)]
三個(gè)深度學(xué)習(xí)模型——DeepGS狭姨、DNNGP和SoyDNGP——在定性特征分類任務(wù)上表現(xiàn)相當(dāng)宰啦。然而,在回歸任務(wù)中它們的性能存在顯著差異饼拍。rDeepGS赡模,類似于傳統(tǒng)機(jī)器學(xué)習(xí)模型,無(wú)法有效擬合回歸任務(wù)师抄。這主要?dú)w因于分類任務(wù)的復(fù)雜性較低漓柑,可以有效地使用機(jī)器學(xué)習(xí)技術(shù)解決,從而導(dǎo)致模型在這些任務(wù)中性能差異不大叨吮。此外辆布,rDeepGS和mDeepGS的運(yùn)行時(shí)間較短,但性能不令人滿意茶鉴。SoyDNGP和DNNGP幾乎具有相同的運(yùn)行時(shí)間锋玲,但SoyDNGP的參數(shù)量超過(guò)DNNGP的10倍。這更高的參數(shù)量使SoyDNGP能夠更好地學(xué)習(xí)和擬合更復(fù)雜的特征涵叮,表現(xiàn)出更強(qiáng)的泛化能力惭蹂。這些證據(jù)表明,與其他方法相比割粮,SoyDNGP模型結(jié)構(gòu)在基因組預(yù)測(cè)中具有明顯優(yōu)勢(shì)盾碗。
[圖片上傳失敗...(image-9d469b-1697381908638)]
SoyDNGP模型在不同大豆群體中的多功能預(yù)測(cè)能力
本模型是基于美國(guó)農(nóng)業(yè)部大豆種質(zhì)資源收集的數(shù)據(jù)開(kāi)發(fā),可能在不同國(guó)家和緯度的其他資源上的應(yīng)用不確定舀瓢。為評(píng)估SoyDNGP模型的預(yù)測(cè)能力廷雅,將其應(yīng)用于一個(gè)包括559個(gè)大豆資源的大豆群體,包括121個(gè)野生大豆,207個(gè)地方品種和231個(gè)精英品種航缀。對(duì)16個(gè)定性特征和12個(gè)定量特征進(jìn)行了預(yù)測(cè)商架。為了驗(yàn)證對(duì)重要特征的預(yù)測(cè)準(zhǔn)確性,將2018年在中國(guó)鄭州種植的指定大豆特征的表型與我們的預(yù)測(cè)進(jìn)行了對(duì)比驗(yàn)證谬盐。分析揭示了預(yù)測(cè)值與實(shí)際值之間的強(qiáng)正相關(guān)關(guān)系甸私。例如诚些,R1和Hgt的相關(guān)性分別為0.56和0.51飞傀。最令人印象深刻的是,SdWgt的預(yù)測(cè)準(zhǔn)確性達(dá)到了0.84诬烹。因此砸烦,SoyDNGP預(yù)測(cè)模型在不同的大豆群體中具有廣泛的適用性。對(duì)于不同群體中粒重的高預(yù)測(cè)準(zhǔn)確性的一個(gè)可能解釋是绞吁,與其他特征(如R1和Hgt)相比幢痘,環(huán)境因素在這一特征中起較小的作用。
[圖片上傳失敗...(image-53717-1697381908638)]
盡管野生大豆沒(méi)有包含在模型訓(xùn)練中家破,但模型仍然可用于預(yù)測(cè)野生大豆的特征颜说。例如預(yù)測(cè)顯示,與地方品種和精英品種相比汰聋,野生大豆的蛋白質(zhì)含量高门粪,油分含量和產(chǎn)量低,這與以前的大豆研究一致烹困。這也意味著野生大豆和栽培大豆之間的基因交換可能受到顯著的基因流的促進(jìn)玄妈。
[圖片上傳失敗...(image-b9627a-1697381908638)]
SoyDNGP 在大豆之外的廣泛應(yīng)用
為評(píng)估SoyDNGP的多功能性和效果,對(duì)其他物種進(jìn)行了測(cè)試髓梅,使用來(lái)自棉花拟蜻、玉米、水稻和番茄群體的基因型數(shù)據(jù)和五個(gè)代表性特征枯饿。為方便比較酝锅,同樣的數(shù)據(jù)集也被應(yīng)用于DNNGP和mDeepGS。除了mDeepGS展示出最低的準(zhǔn)確性外奢方,SoyDNGP的預(yù)測(cè)準(zhǔn)確度范圍從玉米的平均0.50到水稻的平均0.71搔扁。在DNNGP中觀察到了類似的性能范圍(0.49–0.69)。值得注意的是袱巨,對(duì)于像玉米和番茄這樣的較小樣本大小阁谆,分別有214和508個(gè)樣本,DNNGP的表現(xiàn)優(yōu)于SoyDNGP愉老。然而场绿,在樣本數(shù)量超過(guò)1000的大型群體,如棉花和水稻中嫉入,SoyDNGP證明了其優(yōu)越性焰盗。盡管在準(zhǔn)確性上有相似之處璧尸,DNNGP的均方誤差(MSE)普遍高于SoyDNGP“揪埽基于這些發(fā)現(xiàn)爷光,可以得出結(jié)論,SoyDNGP不僅能夠訓(xùn)練和預(yù)測(cè)其他物種的性狀表型澎粟,而且在性能上超越了其他方法蛀序,從而證明了其強(qiáng)大的多功能性和有效性。因此活烙,SoyDNGP被視為一個(gè)有前景的基因組預(yù)測(cè)工具徐裸,其應(yīng)用可能不僅限于大豆,還可能擴(kuò)展到其他作物和生物啸盏,從而推進(jìn)基因組學(xué)和育種研究的進(jìn)步重贺。
[圖片上傳失敗...(image-3ef86b-1697381908638)]
SoyDNGP是一個(gè)面向大豆基因組預(yù)測(cè)的開(kāi)放友好的web服務(wù)器
為了讓沒(méi)有深度編程專業(yè)知識(shí)的用戶能夠訪問(wèn)SoyDNGP,作者建立了一個(gè)web服務(wù)器回懦,可在http://xtlab.hzau.edu.cn/SoyDNGP上訪問(wèn)气笙。SoyDNGP平臺(tái)提供了兩個(gè)便于用戶瀏覽特性信息的界面。
第一個(gè)功能怯晕,“Trait Lookup”潜圃,允許用戶輸入分類標(biāo)識(shí)符,例如植物引入(PI)號(hào)碼或傳統(tǒng)名稱贫贝,來(lái)檢查相應(yīng)的記錄是否已經(jīng)在數(shù)據(jù)庫(kù)中秉犹。此外,“Trait Lookup”部分包括了500個(gè)大豆品種的預(yù)先存在的性狀預(yù)測(cè)稚晚,這些品種是除了USDA大豆種質(zhì)資源收集以外的品種崇堵,并且都有可用的重測(cè)序數(shù)據(jù)。
[圖片上傳失敗...(image-bda55c-1697381908638)]
作者每天都在增加這個(gè)數(shù)字客燕,為用戶提供一個(gè)不斷擴(kuò)展的數(shù)據(jù)集鸳劳。這個(gè)功能對(duì)希望基于某些性狀預(yù)測(cè)選擇特定大豆品種的用戶非常有益,從而提高了SoyDNGP的效率也搓。
第二個(gè)功能赏廓,即“Trait Prediction”工具,允許用戶上傳一個(gè)VCF文件傍妒,然后預(yù)測(cè)模型使用這個(gè)文件來(lái)預(yù)測(cè)性狀值幔摸。作者還為用戶提供了選擇性地為查詢數(shù)據(jù)庫(kù)提供豐富內(nèi)容的選項(xiàng)。如果用戶選擇貢獻(xiàn)颤练,他們將不需要在將來(lái)重新訪問(wèn)他們的結(jié)果時(shí)再次運(yùn)行預(yù)測(cè)既忆。
[圖片上傳失敗...(image-140177-1697381908638)]
討論
已有的深度學(xué)習(xí)模型DeepGS和DNNGP都使用1D向量作為模型輸入,這在表示復(fù)雜的SNP位點(diǎn)特征信息時(shí)可能有局限性。這種簡(jiǎn)化的方法可能無(wú)法捕捉基因型變異的全部深度患雇,從而影響模型的預(yù)測(cè)準(zhǔn)確性跃脊。此外,這些模型中使用的淺層苛吱、寬卷積結(jié)構(gòu)可能不適合捕捉數(shù)據(jù)內(nèi)部的復(fù)雜關(guān)系酪术。
SoyDNGP可填補(bǔ)這些差距,這是一個(gè)使用更復(fù)雜的3D矩陣作為輸入特征并采用更合理的數(shù)據(jù)處理結(jié)構(gòu)的模型翠储。SoyDNGP相對(duì)于deepGS和DNNGP模型具有幾個(gè)顯著優(yōu)勢(shì):增強(qiáng)的特征密度绘雁、優(yōu)化的結(jié)構(gòu)、減少的特征丟失彰亥、通過(guò)正則化實(shí)現(xiàn)的穩(wěn)定訓(xùn)練以及引入注意力機(jī)制咧七。
SoyDNGP使用的3D矩陣包含位置和突變信息衰齐,更適合卷積神經(jīng)網(wǎng)絡(luò)(CNN)并提供更豐富的特征密度任斋。DNNGP和deepGS使用淺層寬卷積層,SoyDNGP則采用更深層耻涛、更窄的架構(gòu)废酷,使用堆疊的小卷積核來(lái)實(shí)現(xiàn)更好的特征提取和效率。SoyDNGP使用卷積步幅為2抹缕,而不是像deepGS那樣使用最大池化澈蟆,有效地融合和降采樣特征并最小化信息損失。SoyDNGP在卷積之間集成了Dropout和Batchnorm卓研,并使用L2正則化趴俘,這比其前身更有效地提高了模型的穩(wěn)定性并防止過(guò)擬合。SoyDNGP使用坐標(biāo)注意機(jī)制來(lái)考慮空間和通道信息奏赘,從而提高了其特征提取能力寥闪。
但本研究在數(shù)據(jù)集上面臨兩個(gè)主要的挑戰(zhàn)。首先是不平衡的樣本分布磨淌。許多被考慮的性狀有多個(gè)類別疲憋,常常帶有復(fù)雜的細(xì)分,導(dǎo)致樣本數(shù)在這些類別中的分布是偏斜的梁只。這種不平衡在有效地訓(xùn)練一個(gè)穩(wěn)健的模型上構(gòu)成了挑戰(zhàn)缚柳。第二個(gè)挑戰(zhàn)是數(shù)據(jù)的可靠性。像株高搪锣、開(kāi)花時(shí)間和成熟時(shí)間這樣的性狀常常在沒(méi)有標(biāo)準(zhǔn)化協(xié)議的情況下進(jìn)行測(cè)量秋忙,導(dǎo)致在數(shù)據(jù)收集過(guò)程中出現(xiàn)重大錯(cuò)誤,影響模型的預(yù)測(cè)性能构舟。
實(shí)驗(yàn)顯示灰追,隨著樣本大小的增加,像DNNGP和DeepGS這樣的淺層神經(jīng)網(wǎng)絡(luò)開(kāi)始失去其在定量表示性狀方面的效果。鑒于生物技術(shù)的快速發(fā)展监嗜,越來(lái)越需要像SoyDNGP這樣的更深層次的模型谐檀。作者的關(guān)注點(diǎn)仍然是在GS領(lǐng)域的模型解釋性,因?yàn)樗谶@里比在其他計(jì)算學(xué)科裁奇,如圖像識(shí)別或自然語(yǔ)言處理桐猬,更為關(guān)鍵。設(shè)計(jì)的模型使其盡可能地可解釋刽肠,最小化不可逆的操作溃肪,如池化。這與識(shí)別與不同性狀可能相關(guān)的關(guān)鍵基因位置的更廣泛目標(biāo)是一致的音五。
此外惫撰,GS領(lǐng)域缺乏一個(gè)像YOLO或BIOBERT在其各自領(lǐng)域所提供的那樣通用適應(yīng)性的深度學(xué)習(xí)平臺(tái)。盡管Kumar等人最近推出了DeepMap躺涝,但它在靈活性和可擴(kuò)展性方面有限厨钻。基于此坚嗜,作者開(kāi)發(fā)了SoyDNGP Next PyPI包夯膀。基于基線SoyDNGP算法苍蔬,此包允許用戶通過(guò)簡(jiǎn)單的Python命令輕松重構(gòu)模型诱建、訓(xùn)練數(shù)據(jù)和做出預(yù)測(cè),從而增強(qiáng)模型對(duì)各種數(shù)據(jù)集的適應(yīng)性碟绑。
總之俺猿,作者創(chuàng)建并驗(yàn)證了SoyDNGP,一個(gè)專門(mén)為預(yù)測(cè)大豆性狀定制的基于CNN的模型格仲。結(jié)果顯示了SoyDNGP一貫優(yōu)于deepGS和DNNGP模型押袍,展示了較高的準(zhǔn)確性和降低的模型復(fù)雜性。此外抓狭,作者測(cè)試了SoyDNGP在棉花伯病、玉米、水稻和番茄等多種作物上的適用性否过,突顯了它作為一個(gè)穩(wěn)健且多功能的基因組預(yù)測(cè)工具的潛力午笛。為了擴(kuò)展SoyDNGP的應(yīng)用,建立了一個(gè)用戶友好的web服務(wù)器苗桂,為用戶提供了簡(jiǎn)單訪問(wèn)特征預(yù)測(cè)和使用VCF文件計(jì)算特征的能力药磺。
資源獲取
Web服務(wù)器:http://xtlab.hzau.edu.cn/SoyDNGP
軟件包安裝:pip install SoyDNGPNext
模型代碼:
https://github.com/IndigoFloyd/SoyDNGPNext
網(wǎng)站代碼:
https://github.com/IndigoFloyd/SoybeanWebsite
源碼:
https://doi.org/10.6084/m9.figshare.23537067.v2
若要獲取原文、附件及相關(guān)數(shù)據(jù)煤伟,請(qǐng)關(guān)注公眾號(hào)”生物信息與育種“癌佩,后臺(tái)回復(fù):SoyDNGP木缝。