【ZT】漢堡大學(xué)Rarey課題組JCIM發(fā)表觀點(diǎn):當(dāng)虛擬篩選遇上機(jī)器學(xué)習(xí)炉奴,我們的初心是啥逼庞?

文章來源:微信公眾號 - ComputArt計(jì)算有樂趣 2019-5-28

近年來大數(shù)據(jù)和機(jī)器學(xué)習(xí)方面的突破性進(jìn)展,使得基于機(jī)器學(xué)習(xí)的藥物設(shè)計(jì)成為藥物研發(fā)領(lǐng)域中追逐的新熱點(diǎn)瞻赶。應(yīng)用機(jī)器學(xué)習(xí)方法在虛擬篩選中的成功案例也屢見報(bào)道赛糟。然而機(jī)器學(xué)習(xí)所建立的模型基本是一個(gè)黑匣子(black box),大多數(shù)情況下人們無法獲知數(shù)據(jù)中的哪些特征是決定性的砸逊,也不清楚模型預(yù)測的“真實(shí)結(jié)果”是否有“真實(shí)原因”可循璧南,抑或僅僅是由于數(shù)據(jù)集本身內(nèi)容的偏重所致?對于基于機(jī)器學(xué)習(xí)方法的虛擬篩選师逸,如何評價(jià)其真實(shí)的性能司倚?需要建立什么樣的標(biāo)準(zhǔn)測試集,發(fā)展什么樣的評價(jià)策略篓像?德國漢堡大學(xué)Rarey教授課題組針對這些問題進(jìn)行了分析动知,最近在美國化學(xué)會(huì)出版的Journal of Chemical Information and Modeling雜志"Machine-Learning in Drug Discovery"專刊上發(fā)表了觀點(diǎn)(J. Chem. Inf. Model. 2019, 59, 947-961)员辩。

作者首先選擇三個(gè)常用的虛擬篩選標(biāo)準(zhǔn)測試集作為研究對象盒粮,包括DUD,DUD-E和MUV屈暗。DUD和DUD-E由Shoichet等人基于ZINC數(shù)據(jù)庫發(fā)展而來拆讯,用于評價(jià)基于結(jié)構(gòu)的虛擬篩選方法(如分子對接方法)。MUV則由Rohrer等人基于PubChem數(shù)據(jù)庫構(gòu)建獲得养叛,用于評價(jià)基于配體的虛擬篩選方法。以這三個(gè)標(biāo)準(zhǔn)測試集的無偏重特征及其組合為描述符宰翅,作者采用隨機(jī)森林方法建立虛擬篩選的預(yù)測模型弃甥,并通過兩種交叉驗(yàn)證實(shí)驗(yàn)(如圖-1(1)和(2)所示)對模型的篩選性能進(jìn)行評價(jià)。

圖-1 三種交叉驗(yàn)證實(shí)驗(yàn)示意圖汁讼。(1)靶標(biāo)內(nèi)交叉驗(yàn)證:將每個(gè)靶標(biāo)的配體分子隨機(jī)分為訓(xùn)練集和測試集進(jìn)行3倍交叉驗(yàn)證淆攻;(2)靶標(biāo)間交叉驗(yàn)證:隨機(jī)挑選m個(gè)靶標(biāo)中部分靶標(biāo)及其配體分子作為測試集,剩余靶標(biāo)及其配體分子作為訓(xùn)練集進(jìn)行3倍交叉驗(yàn)證嘿架;(3)留一法靶標(biāo)間交叉驗(yàn)證:隨機(jī)選擇某一靶標(biāo)及其配體分子作為測試集瓶珊,選擇與該靶標(biāo)相似度低于某一閾值的靶標(biāo)及其配體作為訓(xùn)練集進(jìn)行n倍交叉驗(yàn)證。
圖-2 隨機(jī)森林方法對DUD耸彪,DUD-E和MUV三個(gè)數(shù)據(jù)集無偏重特征的虛擬篩選評價(jià)結(jié)果伞芹,橫坐標(biāo)為訓(xùn)練模型所用的特征數(shù)目,縱坐標(biāo)為虛擬篩選的平均AUC值。(a), (b)和(c)分別為靶標(biāo)內(nèi)交叉驗(yàn)證實(shí)驗(yàn)在三個(gè)數(shù)據(jù)集上的結(jié)果唱较;(d)和(e)為靶標(biāo)間交叉驗(yàn)證實(shí)驗(yàn)在DUD和DUD-E數(shù)據(jù)集上的結(jié)果扎唾。

三個(gè)標(biāo)準(zhǔn)測試集的無偏重特征在活性化合物和非活性化合物中具有近似的均值和方差值。作者認(rèn)為以無偏重特征作為篩選條件南缓,其篩選效果與隨機(jī)篩選相當(dāng)胸遇,虛篩富集曲線的AUC值應(yīng)接近0.5。然而汉形,基于機(jī)器學(xué)習(xí)方法的虛篩結(jié)果顯示(圖-2)纸镊,即使采用單個(gè)特征,隨機(jī)森林方法仍然能夠較好地區(qū)分這三個(gè)標(biāo)準(zhǔn)測試集中的活性與非活性化合物概疆。特別是當(dāng)多個(gè)特征組合時(shí)薄腻,在DUD和DUD-E標(biāo)準(zhǔn)測試集上,靶標(biāo)內(nèi)和靶標(biāo)間的交叉驗(yàn)證實(shí)驗(yàn)所得的AUC值接近1.0和0.8届案。這意味著庵楷,對于機(jī)器學(xué)習(xí)方法來說,低維度特征已經(jīng)足夠用于區(qū)分活性與非活性化合物楣颠。作者因此認(rèn)為:在對采用更復(fù)雜特征描述符的機(jī)器學(xué)習(xí)方法進(jìn)行評價(jià)時(shí)尽纽,應(yīng)當(dāng)選擇基于低維度描述符的結(jié)果作為一個(gè)合適的評價(jià)基準(zhǔn)線。

作者進(jìn)一步以DUD/DUD-E為標(biāo)準(zhǔn)測試集童漩,對兩種基于卷積神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)方法DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行評價(jià)弄贿。前者通過配體分子中每個(gè)原子的局部相鄰原子的基本特征(如原子間距離,原子類型矫膨,原子電荷等)來描述蛋白-配體之間的相互作用(圖-3(a))差凹。后者則是將配體分子的三維構(gòu)象置于覆蓋蛋白結(jié)合口袋的格點(diǎn)盒子中,采用基于格點(diǎn)的三維描述符來表征蛋白-配體之間的相互作用(圖-3(b))侧馅。

圖-3 (a)DeepVS描述符示意圖危尿。以N3原子(黃色)為例,配體分子上鄰近的原子共有三個(gè):N3馁痴,H和C2谊娇,蛋白分子上鄰近的原子共有CD和OE,分別對應(yīng)參數(shù)kc=3, kp=2; (b)基于格點(diǎn)的三維描述符示意圖罗晕。每個(gè)格點(diǎn)保存原子類型济欢,空間距離等相關(guān)信息。

文獻(xiàn)報(bào)道DeepVS方法在DUD測試集上經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.81小渊。作者摒棄蛋白部分信息法褥,僅基于配體分子的隨機(jī)構(gòu)象用于構(gòu)建DeepVS方法的預(yù)測模型,經(jīng)留一法交叉驗(yàn)證獲得的平均AUC值為0.79酬屉。這與基于三維描述符所得的結(jié)果沒有顯著差異半等。與采用配體二維拓?fù)涮卣鞯碾S機(jī)森林方法在相同標(biāo)準(zhǔn)測試集上的預(yù)測結(jié)果相比(平均AUC值為0.78),DeepVS方法也沒有體現(xiàn)出明顯的優(yōu)勢。作者采用基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法在DUD-E測試集上進(jìn)行類似的對比實(shí)驗(yàn)也獲得了相同的結(jié)論酱鸭。作者對此給出的解釋是:DUD/DUD-E測試集的構(gòu)建原理表明配體的二維拓?fù)浣Y(jié)構(gòu)是區(qū)分活性與非活性化合物的決定性特征吗垮。DeepVS和基于格點(diǎn)的三維卷積神經(jīng)網(wǎng)絡(luò)方法的三維描述符中隱式地包含了二維拓?fù)涮卣鳌R虼税妓瑁潴w的二維拓?fù)涮卣髯阋杂糜趯钚院头腔钚曰衔镞M(jìn)行有效區(qū)分烁登。這也表明,DUD和DUD-E標(biāo)準(zhǔn)測試集對于基于配體二維拓?fù)涮卣鞯姆椒ㄊ怯衅氐奈狄āK鼈儾⒉贿m用于評價(jià)具有復(fù)雜多維描述符的深度學(xué)習(xí)方法的真實(shí)表現(xiàn)饵沧。

那么在存在可能偏重的前提下,如何正確設(shè)計(jì)基于機(jī)器學(xué)習(xí)的虛擬篩選的評價(jià)測試赌躺?如何有效控制這些偏重對評價(jià)結(jié)果的影響狼牺?作者結(jié)合自己的研究及他人經(jīng)驗(yàn)提出一些參考準(zhǔn)則:

  • 驗(yàn)證數(shù)據(jù)集的適用范圍,如DUD/DUD-E偏重于基于配體二維拓?fù)涮卣鞯姆椒ā?/li>
  • 深刻理解所使用的機(jī)器方法和描述符礼患。
  • 基于簡單是钥、可解釋的特征定義合適的評價(jià)基準(zhǔn)線,如采用隨機(jī)森林方法對單維特征進(jìn)行訓(xùn)練建模缅叠。
  • 設(shè)計(jì)合理的對照實(shí)驗(yàn)來驗(yàn)證無因果關(guān)系的偏重(如將高維描述符簡化為低維特征)悄泥,幫助挖掘預(yù)測模型中的決定性特征。
  • 盡可能地引入陰性實(shí)驗(yàn)數(shù)據(jù)肤粱,提高數(shù)據(jù)的質(zhì)量等弹囚。

如前所述,機(jī)器學(xué)習(xí)得到了人們的廣泛關(guān)注领曼,但是其真實(shí)能力以及可應(yīng)用范圍仍然需要人們謹(jǐn)慎看待鸥鹉。Rarey教授課題組的研究工作揭示了應(yīng)用機(jī)器學(xué)習(xí)方法中可能隱含的問題。他們提出的經(jīng)驗(yàn)準(zhǔn)則為客觀評價(jià)機(jī)器學(xué)習(xí)方法提供了重要的參考庶骄。

參考文獻(xiàn):Sieg, J.; Flachsenberg, F.; Rarey, M. In Need of Bias Control: Evaluating Chemical Data for Machine Learning in Structure-Based Virtual Screening. J. Chem. Inf. Model. 2019, 59, 947-961.
DOI: 10.1021/acs.jcim.8b00712

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末毁渗,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子瓢姻,更是在濱河造成了極大的恐慌祝蝠,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幻碱,死亡現(xiàn)場離奇詭異,居然都是意外死亡细溅,警方通過查閱死者的電腦和手機(jī)褥傍,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來喇聊,“玉大人恍风,你說我怎么就攤上這事。” “怎么了朋贬?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵凯楔,是天一觀的道長。 經(jīng)常有香客問我锦募,道長摆屯,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任糠亩,我火速辦了婚禮虐骑,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘赎线。我一直安慰自己廷没,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布垂寥。 她就那樣靜靜地躺著颠黎,像睡著了一般。 火紅的嫁衣襯著肌膚如雪滞项。 梳的紋絲不亂的頭發(fā)上狭归,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天,我揣著相機(jī)與錄音蓖扑,去河邊找鬼唉铜。 笑死,一個(gè)胖子當(dāng)著我的面吹牛律杠,可吹牛的內(nèi)容都是我干的潭流。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼柜去,長吁一口氣:“原來是場噩夢啊……” “哼灰嫉!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起嗓奢,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤讼撒,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后股耽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體根盒,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年物蝙,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了炎滞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡诬乞,死狀恐怖册赛,靈堂內(nèi)的尸體忽然破棺而出钠导,到底是詐尸還是另有隱情,我是刑警寧澤森瘪,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布牡属,位于F島的核電站,受9級特大地震影響扼睬,放射性物質(zhì)發(fā)生泄漏逮栅。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一痰驱、第九天 我趴在偏房一處隱蔽的房頂上張望证芭。 院中可真熱鬧,春花似錦担映、人聲如沸废士。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽官硝。三九已至,卻和暖如春短蜕,著一層夾襖步出監(jiān)牢的瞬間氢架,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工朋魔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留岖研,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓警检,卻偏偏與公主長得像孙援,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個(gè)殘疾皇子扇雕,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容