溶解度是化合物的一種基本物理化學(xué)性質(zhì)稳捆,在藥物化學(xué)麦轰、環(huán)境化學(xué)等多種研究中有重要的參考價(jià)值。作為對實(shí)驗(yàn)測量方法的補(bǔ)充末荐,建立快捷新锈、可靠、普適的溶解度預(yù)測方法具有重要的理論意義和明確的應(yīng)用價(jià)值妹笆。自20世紀(jì)九十年代末以來拳缠,人們發(fā)展了許多種預(yù)測方法,應(yīng)用了多元線性回歸(MLR)海渊、主成分回歸(PCR)哲鸳、偏最小二乘法(PLS)徙菠、人工神經(jīng)網(wǎng)絡(luò)(ANN)、支持向量機(jī)(SVM)芙盘、隨機(jī)森林回歸(RFR)等諸多算法儒老。這些工作在不同的體系上取得了不同程度的成功记餐,但是距離解決溶解度預(yù)測這一目標(biāo)尚很遙遠(yuǎn)。
2008年囚衔,Llinas等人公開發(fā)起了“溶解度挑戰(zhàn)”昭殉,其最終結(jié)果生動地反映了這一情況撒蟀,在領(lǐng)域中刷了流量。Llinas等人使用CheqSol方法精確測量了結(jié)構(gòu)不同芥被、具有重要生物學(xué)意義的132個(gè)分子的固有溶解度S0辽俗,以其中的100個(gè)分子作為訓(xùn)練集,32個(gè)分子作為測試集篡诽,要求參賽者根據(jù)溶解度實(shí)驗(yàn)數(shù)據(jù)公開的訓(xùn)練集構(gòu)建模型,對溶解度實(shí)驗(yàn)數(shù)據(jù)未公開的測試集進(jìn)行預(yù)測1杈女。該挑戰(zhàn)的獨(dú)特之處在于要求所有參賽者基于相同的數(shù)據(jù)源構(gòu)建模型朱浴。這一挑戰(zhàn)吸引了大量參賽者,他們使用了各種預(yù)測方法來計(jì)算达椰,然而所有的方法表現(xiàn)大致相同,并不能確定誰是贏家2砰碴□锓ぃ“溶解度挑戰(zhàn)”的結(jié)果引發(fā)了許多關(guān)于溶解度預(yù)測方法的有效性及數(shù)據(jù)質(zhì)量的討論。在“溶解度挑戰(zhàn)”開展之前呈枉,由于溶解度的精確測量比較困難,人們認(rèn)為不精準(zhǔn)的測量數(shù)據(jù)是預(yù)測結(jié)果不佳的重要原因猖辫。然而酥泞,“溶解度挑戰(zhàn)”的結(jié)果顯示也許并非如此芝囤,預(yù)測結(jié)果不佳應(yīng)當(dāng)主要?dú)w因于預(yù)測方法存在的固有缺陷辛萍。
彈指一揮間悯许,十年之后人們當(dāng)然積累了更多化合物的溶解度實(shí)驗(yàn)數(shù)據(jù)。Llinas等人重新審視十年前的“溶解度挑戰(zhàn)”先壕,基于包含不同實(shí)驗(yàn)室間可重現(xiàn)的實(shí)驗(yàn)數(shù)據(jù)組成的數(shù)據(jù)庫(6355S0)垃僚,從中挑選了兩組數(shù)據(jù)集作為新的測試集集绰,發(fā)起了新一輪“溶解度挑戰(zhàn)”3。第一組數(shù)據(jù)被小編毫無文采地翻譯為“緊密集”(tight set):由100個(gè)類藥性強(qiáng)的分子組成谆棺。每個(gè)分子的log S0數(shù)據(jù)來自于至少三個(gè)實(shí)驗(yàn)室栽燕,其標(biāo)準(zhǔn)偏差(SD)在0.11 ~ 0.22對數(shù)單位,平均為0.17對數(shù)單位包券。第二組數(shù)據(jù)被小編同樣毫無文采地翻譯為“松散集”(loose set):由32個(gè)分子組成,每個(gè)分子的log S0也來自于至少三個(gè)實(shí)驗(yàn)室炫贤,標(biāo)準(zhǔn)偏差(SD)在0.50 ~ 0.93對數(shù)單位溅固,平均為0.62對數(shù)單位。與之前的“溶解度挑戰(zhàn)”不同的是:新的“溶解度挑戰(zhàn)”不提供一個(gè)“標(biāo)準(zhǔn)”訓(xùn)練集兰珍,而是允許參賽者使用自己的log S0(25℃)實(shí)驗(yàn)數(shù)據(jù)作為訓(xùn)練集來構(gòu)建模型侍郭。對于手頭沒有足夠數(shù)據(jù)的新參與者,作者在文中提供了含有可靠溶解度數(shù)據(jù)的18篇參考文獻(xiàn)掠河。
作者強(qiáng)調(diào):新“溶解度挑戰(zhàn)”的目標(biāo)不在于找出“誰”是贏家亮元,而是希望找出“哪種”方法預(yù)測溶解度效果最好。為了鼓勵具有不同經(jīng)驗(yàn)或水平的人員參與唠摹,參賽者的身份最終不會透露爆捞。參與此次競賽的具體方法為:填寫提交表格中的所有空白字段,其中包含兩個(gè)測試集中每種化合物固有溶解度值的預(yù)測值(以摩爾對數(shù)單位表示)勾拉,并提供預(yù)測方法的簡要說明(訓(xùn)練集數(shù)據(jù)的來源煮甥、性質(zhì)以及使用的描述符類型),并將Excel文件發(fā)送給JCIM雜志主編Kenneth M. Merz教授 (eic@jcim.acs.org)藕赞,郵件主題為:Solubility Challenge成肘。提交時(shí)間不遲于2019年9月8日,參與者可單獨(dú)提交不超過三次斧蜕。此次挑戰(zhàn)將由JCIM論文的作者Llinas等人評估預(yù)測結(jié)果双霍,JCIM將邀請預(yù)測結(jié)果最佳者提交論文發(fā)表。
“溶解度挑戰(zhàn)”重現(xiàn)江湖批销,再次刺激到本領(lǐng)域的興奮點(diǎn)洒闸。新的挑戰(zhàn)基于更大規(guī)模、高質(zhì)量溶解度實(shí)驗(yàn)數(shù)據(jù)均芽,提供了標(biāo)準(zhǔn)化的測試集來橫向比較各種參賽方法顷蟀。哪種方法將在此次挑戰(zhàn)中拔得頭籌,小編拭目以待骡技。改革春風(fēng)吹滿地鸣个,中國人民真爭氣羞反。各位看官還等什么,還不趕緊參與進(jìn)來囤萤!
參考文獻(xiàn):
(1) Llinas, A.; Glen, R. C.; Goodman, J. M. Solubility challenge: Can you predict solubilities of 32 molecules using a database of 100 reliable measurements? J. Chem. Inf. Model. 2008, 48, 1289?1303.
(2) Hopfinger, A. J.; Esposito, E. X.; Llinas, A.; Glen, R. C.; Goodman, J. M. Findings of the challenge to predict aqueous solubility. J. Chem. Inf. Model. 2009, 49, 1?5.
(3) Llinas, A.昼窗;Avdeef,A. Solubility Challenge Revisited after Ten Years, with Multi-lab Shake-Flask Data, Using Tight (SD ~ 0.17 log) and Loose (SD ~ 0.62 log) Test Sets. J. Chem. Inf. Model. 2019, 59, 3036-3040.