在化學(xué)領(lǐng)域击胜,分子性質(zhì)的預(yù)測一直是研究的熱點(diǎn)與難點(diǎn)换怖。隨著人工智能技術(shù)的不斷發(fā)展,尤其是圖神經(jīng)網(wǎng)絡(luò)(GNN)和自監(jiān)督學(xué)習(xí)(SSL)的興起定枷,這一難題正逐步被攻克孤澎。近日,中山大學(xué)鄒青松教授團(tuán)隊(duì)在Briefings in Bioinformatics上發(fā)表了一項(xiàng)重要成果——DGCL模型欠窒,該模型通過雙圖神經(jīng)網(wǎng)絡(luò)對比學(xué)習(xí)亥至,實(shí)現(xiàn)了對分子性質(zhì)的精準(zhǔn)預(yù)測,為化學(xué)研究注入了新的活力贱迟。
在化學(xué)分子數(shù)據(jù)集中姐扮,未標(biāo)記數(shù)據(jù)占據(jù)了絕大多數(shù),而標(biāo)記數(shù)據(jù)則相對稀缺衣吠。這一特點(diǎn)限制了監(jiān)督學(xué)習(xí)方法在分子性質(zhì)預(yù)測任務(wù)上的直接應(yīng)用茶敏。為了克服這一難題,自監(jiān)督學(xué)習(xí)(SSL)逐漸成為研究者的關(guān)注焦點(diǎn)缚俏。其中惊搏,對比學(xué)習(xí)(CL)作為一種有效的SSL范式,在各個(gè)領(lǐng)域都展現(xiàn)出了卓越的能力忧换。然而恬惯,現(xiàn)有的分子表示CL方法仍存在表征信息重疊、缺乏魯棒策略等局限性亚茬。
針對這些問題酪耳,鄒青松教授團(tuán)隊(duì)提出了DGCL模型。DGCL模型結(jié)合了雙圖神經(jīng)網(wǎng)絡(luò)(Dual-GNN)和混合分子指紋(MFP)刹缝,通過創(chuàng)新的對比學(xué)習(xí)策略碗暗,實(shí)現(xiàn)了對分子性質(zhì)的精準(zhǔn)預(yù)測。該模型包含兩個(gè)階段:預(yù)訓(xùn)練階段和下游任務(wù)訓(xùn)練階段梢夯。
在預(yù)訓(xùn)練階段言疗,DGCL模型采用了兩個(gè)不同的GNN作為編碼器,即圖同構(gòu)網(wǎng)絡(luò)(GIN)和圖注意力網(wǎng)絡(luò)(GAT)颂砸。這兩種網(wǎng)絡(luò)具有不同的優(yōu)勢噪奄,GIN在識(shí)別圖之間的拓?fù)洳町惙矫姹憩F(xiàn)出色死姚,而GAT則通過其多頭注意機(jī)制增強(qiáng)了模型的表達(dá)能力。通過這兩種網(wǎng)絡(luò)勤篮,DGCL模型能夠從同一分子中提取出不同的特征表示知允,并將這些表示作為正樣本進(jìn)行對比分析。同時(shí)叙谨,該模型還將同一批中其他樣本的表示視為負(fù)樣本温鸽,從而構(gòu)建了一個(gè)豐富的對比學(xué)習(xí)框架。
在下游任務(wù)訓(xùn)練階段手负,DGCL模型將預(yù)訓(xùn)練階段提取的特征與混合分子指紋(MFP)相結(jié)合涤垫,以預(yù)測分子性質(zhì)。MFP是一種融合了多種分子指紋信息的復(fù)合表示竟终,能夠提供更全面蝠猬、更準(zhǔn)確的分子特征。通過與GNN提取的特征相結(jié)合统捶,MFP進(jìn)一步增強(qiáng)了DGCL模型的預(yù)測能力榆芦。
實(shí)驗(yàn)結(jié)果表明,DGCL模型在多個(gè)化學(xué)分子數(shù)據(jù)集上均取得了顯著優(yōu)于現(xiàn)有方法的性能喘鸟。在分類任務(wù)和回歸任務(wù)上匆绣,DGCL模型均展現(xiàn)出了卓越的表現(xiàn)。這一成果不僅驗(yàn)證了DGCL模型的有效性什黑,也為其在化學(xué)研究領(lǐng)域的廣泛應(yīng)用奠定了堅(jiān)實(shí)基礎(chǔ)崎淳。
DGCL模型的成功在于其獨(dú)特的雙圖神經(jīng)網(wǎng)絡(luò)對比學(xué)習(xí)策略。通過采用不同的GNN編碼器愕把,該模型能夠充分利用分子固有的結(jié)構(gòu)信息拣凹,捕捉分子的多維特征。同時(shí)恨豁,通過構(gòu)建豐富的正負(fù)樣本對,DGCL模型增強(qiáng)了模型對分子表征的區(qū)分能力橘蜜,避免了過擬合的風(fēng)險(xiǎn)菊匿。此外,混合分子指紋的引入也為模型提供了更準(zhǔn)確扮匠、更全面的分子特征表示捧请。
除了性能上的優(yōu)勢外,DGCL模型還具有較好的泛化能力棒搜。在預(yù)訓(xùn)練階段,該模型只需要相對較小的數(shù)據(jù)集即可實(shí)現(xiàn)良好的性能活箕。這一特點(diǎn)使得DGCL模型在化學(xué)研究領(lǐng)域具有更廣泛的應(yīng)用前景力麸。例如,在藥物研發(fā)領(lǐng)域,DGCL模型可以用于篩選具有特定性質(zhì)的候選藥物分子克蚂,從而加速藥物的研發(fā)進(jìn)程闺鲸。
綜上所述,DGCL模型是一項(xiàng)具有創(chuàng)新性和實(shí)用性的研究成果埃叭。通過雙圖神經(jīng)網(wǎng)絡(luò)對比學(xué)習(xí)和混合分子指紋的結(jié)合摸恍,該模型實(shí)現(xiàn)了對分子性質(zhì)的精準(zhǔn)預(yù)測,為化學(xué)研究注入了新的活力赤屋。隨著技術(shù)的不斷發(fā)展立镶,相信DGCL模型將在更多領(lǐng)域展現(xiàn)出其獨(dú)特的優(yōu)勢和價(jià)值。