Seung Hwan Hong斋荞,Seongok Ryu氯析,Jaechang Lim屹培,Woo Youn Kim
Journal of Chemical Information and Modeling 2019
if = 4.72
簡介
基于VAE的模型常常產生無效的分子模暗,原因是VAE使用一個預定義的先驗(代理分布)近似后驗分布三热,因此他們可以很容易地估計潛在變量的分布,但真實的后驗分布可能不能很好地用一個給定的先驗來近似脯爪,比如多元高斯分布则北;此外,VAE使用KL散度衡量分布間的差異痕慢,但如果后驗分布是多模態(tài)的尚揣,那么將兩個分布之間的KL散度最小化是不合適的。
基于GAN的模型能夠產生有效的分子但多樣性低掖举,GAN學習分子結構等離散表示會引發(fā)低多樣性問題快骗,這個缺點促使我們去估計分子在連續(xù)潛空間中的分布,而不是在離散的數(shù)據空間中塔次。
下表中的結果就體系了基于VAE和GAN的模型各自的缺點方篮。對于同樣的訓練QM9,文章的方法在除了新穎性以外的其他指標普遍優(yōu)于其他模型励负,文章認為這是由于QM9數(shù)據集的分子由少于10個重原子組成藕溅,其本身的化學多樣性較低。
文章使用的ARAE模型基本上仍是一種隱變量模型熄守,采用了編碼器-解碼器結構蜈垮,但后驗分布是通過對抗訓練來估計的(使真實分布和生成的隱變量分布之間的1-Wasserstein距離最泻孽恕)。
訓練階段攒发,SMILES序列被編碼器轉換成潛在的變量调塌,生成器通過從一個正態(tài)分布中抽取隨機變量來生成新的樣本,然后通過對抗訓練使這兩個變量的分布變得盡可能的相似惠猿。解碼器根據輸入分子的潛在向量z和屬性信息y重建輸入分子結構x羔砾。
在推理階段,指定所需的屬性y偶妖,調整潛在向量z來由解碼器產生新分子姜凄。
文章在表1的結果展示了生成的分子的有效性、唯一性和新穎性趾访,驗證了模型在估計潛在向量分布方面的高性能态秧。此外,文章還通過在潛空間的兩個向量之間進行插值來檢驗潛空間的平滑性扼鞋,說明了通過對抗性訓練成功建立潛空間模型的可行性申鱼。
文章通過對阿司匹林和達菲的兩個種子向量進行線性插值得到100個潛在向量,然后對每個采樣向量進行解碼云头,生成相應的分子捐友。100個潛在載體均成功生成有效分子,其中有19個新分子溃槐。下圖顯示了從阿司匹林到達菲的平穩(wěn)變化的6個例子匣砖。