Francesca Grisoni送挑,Michael Moret怒炸,Robin Lingwood,Gisbert Schneider
Journal of Chemical Information and Modeling 2020
if = 4.72
簡介
在最近的一項benchmark研究中表明在分子生成模型中最筒,結(jié)構(gòu)越簡單的模型最終效果可能越好水慨,和進(jìn)化、基于規(guī)則和基于序列的方法相比叨襟,基于SMILES的RNN模型是最好的生成方法繁扎。
傳統(tǒng)的RNN模型為輸入的SMILES數(shù)據(jù)設(shè)置了一個開始符和結(jié)束符,模型從開始符開始糊闽,到生成結(jié)束符結(jié)束梳玫,從左到右單向地生成字符,這符合自然語言的習(xí)慣右犹。但文章認(rèn)為這一習(xí)慣不適應(yīng)于分子smiles結(jié)構(gòu)汽纠,與自然語言不同,分子smiles沒有唯一定義的開始和結(jié)束傀履,smiles表示可以從任何非氫原子開始并沿著任何方向生成虱朵。
文章設(shè)計了一個雙向神經(jīng)網(wǎng)絡(luò)模型BIMODAL作為SMILES字符串生成器莉炉,模型設(shè)置了一個開始符G,然后在開始符左右兩邊交替生成字符碴犬,直到左右兩邊都生成了結(jié)束符E絮宁,這時模型才得到了一個完整的smiles。BIMODAL模型使用了兩個LSTM網(wǎng)絡(luò)服协,一個處理開始符左側(cè)的smiles序列绍昂,一個處理開始符右側(cè)的smiles序列,將兩個LSTM網(wǎng)絡(luò)輸出結(jié)合起來傳入一個全連接網(wǎng)絡(luò)來產(chǎn)生新的字符偿荷。
在訓(xùn)練時窘游,對于每個訓(xùn)練分子會使用多個相同的SMILES字符串,但每個重復(fù)包含不同(隨機(jī))位置的開始符跳纳,這起到了數(shù)據(jù)增強(qiáng)的效果忍饰。
文章的實驗表明,使用隨機(jī)位置開始符的BIMODAL模型在保持較高的唯一性和有效性的同時也能得到較高的新穎性寺庄。