近年來大數(shù)據(jù)和機(jī)器學(xué)習(xí)方面的突破性進(jìn)展,使得基于機(jī)器學(xué)習(xí)的藥物設(shè)計(jì)成為藥物研發(fā)領(lǐng)域中追逐的新熱點(diǎn)瞻赶。應(yīng)用機(jī)器學(xué)習(xí)方法在虛擬篩選中的成功案例也屢見報(bào)道赛糟。然而機(jī)器學(xué)習(xí)所建立的模型基本是一個(gè)黑匣子(black box),大多數(shù)情況下人們無法獲知數(shù)據(jù)中的哪些特征是決定性的砸逊,也不清楚模型預(yù)測的“真實(shí)結(jié)果”是否有“真實(shí)原因”可循璧南,抑或僅僅是由于數(shù)據(jù)集本身內(nèi)容的偏重所致?對于基于機(jī)器學(xué)習(xí)方法的虛擬篩選师逸,如何評價(jià)其真實(shí)的性能司倚?需要建立什么樣的標(biāo)準(zhǔn)測試集,發(fā)展什么樣的評價(jià)策略篓像?德國漢堡大學(xué)Rarey教授課題組針對這些問題進(jìn)行了分析动知,最近在美國化學(xué)會(huì)出版的Journal of Chemical Information and Modeling雜志"Machine-Learning in Drug Discovery"專刊上發(fā)表了觀點(diǎn)(J. Chem. Inf. Model. 2019, 59, 947-961)员辩。
作者首先選擇三個(gè)常用的虛擬篩選標(biāo)準(zhǔn)測試集作為研究對象盒粮,包括DUD,DUD-E和MUV屈暗。DUD和DUD-E由Shoichet等人基于ZINC數(shù)據(jù)庫發(fā)展而來拆讯,用于評價(jià)基于結(jié)構(gòu)的虛擬篩選方法(如分子對接方法)。MUV則由Rohrer等人基于PubChem數(shù)據(jù)庫構(gòu)建獲得养叛,用于評價(jià)基于配體的虛擬篩選方法。以這三個(gè)標(biāo)準(zhǔn)測試集的無偏重特征及其組合為描述符宰翅,作者采用隨機(jī)森林方法建立虛擬篩選的預(yù)測模型弃甥,并通過兩種交叉驗(yàn)證實(shí)驗(yàn)(如圖-1(1)和(2)所示)對模型的篩選性能進(jìn)行評價(jià)。
三個(gè)標(biāo)準(zhǔn)測試集的無偏重特征在活性化合物和非活性化合物中具有近似的均值和方差值。作者認(rèn)為以無偏重特征作為篩選條件南缓,其篩選效果與隨機(jī)篩選相當(dāng)胸遇,虛篩富集曲線的AUC值應(yīng)接近0.5。然而汉形,基于機(jī)器學(xué)習(xí)方法的虛篩結(jié)果顯示(圖-2)纸镊,即使采用單個(gè)特征,隨機(jī)森林方法仍然能夠較好地區(qū)分這三個(gè)標(biāo)準(zhǔn)測試集中的活性與非活性化合物概疆。特別是當(dāng)多個(gè)特征組合時(shí)薄腻,在DUD和DUD-E標(biāo)準(zhǔn)測試集上,靶標(biāo)內(nèi)和靶標(biāo)間的交叉驗(yàn)證實(shí)驗(yàn)所得的AUC值接近1.0和0.8届案。這意味著庵楷,對于機(jī)器學(xué)習(xí)方法來說,低維度特征已經(jīng)足夠用于區(qū)分活性與非活性化合物楣颠。作者因此認(rèn)為:在對采用更復(fù)雜特征描述符的機(jī)器學(xué)習(xí)方法進(jìn)行評價(jià)時(shí)尽纽,應(yīng)當(dāng)選擇基于低維度描述符的結(jié)果作為一個(gè)合適的評價(jià)基準(zhǔn)線。
作者進(jìn)一步以DUD/DUD-E為標(biāo)準(zhǔn)測試集童漩,對兩種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行評價(jià)弄贿。前者通過配體分子中每個(gè)原子的局部相鄰原子的基本特征(如原子間距離,原子類型矫膨,原子電荷等)來描述蛋白-配體之間的相互作用(圖-3(a))差凹。后者則是將配體分子的三維構(gòu)象置于覆蓋蛋白結(jié)合口袋的格點(diǎn)盒子中,采用基于格點(diǎn)的三維描述符來表征蛋白-配體之間的相互作用(圖-3(b))侧馅。
文獻(xiàn)報(bào)道DeepVS方法在DUD測試集上經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.81小渊。作者摒棄蛋白部分信息法褥,僅基于配體分子的隨機(jī)構(gòu)象用于構(gòu)建DeepVS方法的預(yù)測模型,經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.79酬屉。這與基于三維描述符所得的結(jié)果沒有顯著差異半等。與采用配體二維拓?fù)涮卣鞯碾S機(jī)森林方法在相同標(biāo)準(zhǔn)測試集上的預(yù)測結(jié)果相比(平均AUC值為0.78),DeepVS方法也沒有體現(xiàn)出明顯的優(yōu)勢。作者采用基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法在DUD-E測試集上進(jìn)行類似的對比實(shí)驗(yàn)也獲得了相同的結(jié)論酱鸭。作者對此給出的解釋是:DUD/DUD-E測試集的構(gòu)建原理表明配體的二維拓?fù)浣Y(jié)構(gòu)是區(qū)分活性與非活性化合物的決定性特征吗垮。DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法的三維描述符中隱式地包含了二維拓?fù)涮卣鳌R虼税妓瑁潴w的二維拓?fù)涮卣髯阋杂糜趯钚院头腔钚曰衔镞M(jìn)行有效區(qū)分烁登。這也表明,DUD和DUD-E標(biāo)準(zhǔn)測試集對于基于配體二維拓?fù)涮卣鞯姆椒ㄊ怯衅氐奈狄āK鼈儾⒉贿m用于評價(jià)具有復(fù)雜多維描述符的深度學(xué)習(xí)方法的真實(shí)表現(xiàn)饵沧。
那么在存在可能偏重的前提下,如何正確設(shè)計(jì)基于機(jī)器學(xué)習(xí)的虛擬篩選的評價(jià)測試赌躺?如何有效控制這些偏重對評價(jià)結(jié)果的影響狼牺?作者結(jié)合自己的研究及他人經(jīng)驗(yàn)提出一些參考準(zhǔn)則:
- 驗(yàn)證數(shù)據(jù)集的適用范圍,如DUD/DUD-E偏重于基于配體二維拓?fù)涮卣鞯姆椒ā?/li>
- 深刻理解所使用的機(jī)器方法和描述符礼患。
- 基于簡單是钥、可解釋的特征定義合適的評價(jià)基準(zhǔn)線,如采用隨機(jī)森林方法對單維特征進(jìn)行訓(xùn)練建模缅叠。
- 設(shè)計(jì)合理的對照實(shí)驗(yàn)來驗(yàn)證無因果關(guān)系的偏重(如將高維描述符簡化為低維特征)悄泥,幫助挖掘預(yù)測模型中的決定性特征。
- 盡可能地引入陰性實(shí)驗(yàn)數(shù)據(jù)肤粱,提高數(shù)據(jù)的質(zhì)量等弹囚。
如前所述,機(jī)器學(xué)習(xí)得到了人們的廣泛關(guān)注领曼,但是其真實(shí)能力以及可應(yīng)用范圍仍然需要人們謹(jǐn)慎看待鸥鹉。Rarey教授課題組的研究工作揭示了應(yīng)用機(jī)器學(xué)習(xí)方法中可能隱含的問題。他們提出的經(jīng)驗(yàn)準(zhǔn)則為客觀評價(jià)機(jī)器學(xué)習(xí)方法提供了重要的參考庶骄。
參考文獻(xiàn):Sieg, J.; Flachsenberg, F.; Rarey, M. In Need of Bias Control: Evaluating Chemical Data for Machine Learning in Structure-Based Virtual Screening. J. Chem. Inf. Model. 2019, 59, 947-961.
DOI: 10.1021/acs.jcim.8b00712