最常見的化學(xué)相似性檢索方法有二維結(jié)構(gòu)相似性和三維分子相似性檢索。二維結(jié)構(gòu)檢索主要是采用分子指紋方法生成的描述符上岗,分子指紋是指示化合物結(jié)構(gòu)特征的一組數(shù)據(jù)凄鼻,通常用0和1來表示,1表示分子中含有對應(yīng)結(jié)構(gòu)喂分,0則表示沒有锦庸,如圖1A為PubChem分子指紋的一部分說明,如果分子中碳原子數(shù)量大于或等于2蒲祈,則第9位為1甘萧,如果大于或等于4,則第9位梆掸、第10位都為1扬卷,以此類推。如果分子中含有碳氧雙鍵結(jié)構(gòu)(即C=O)酸钦,則第420位為1怪得,同樣如果還含有C=S結(jié)構(gòu)則421位也為1,否則為0钝鸽。PubChem分子指紋一共預(yù)設(shè)了880種子結(jié)構(gòu)特征汇恤,也就是說該分子指紋是一個(gè)880位的數(shù)組,包含的元素都是0或1拔恰。除了圖中的子結(jié)構(gòu)以外因谎,PubChem分子指紋還對一些基團(tuán)的數(shù)量有預(yù)定義,如第除了PubChem以外颜懊,常用的分子指紋還有MACCS财岔、ECFP风皿、Daylight fingerprints等分子指紋,它們的區(qū)別就在于子結(jié)構(gòu)的定義以及編碼的方式不同匠璧。計(jì)算得到分子指紋后就可以通過計(jì)算相似度(圖1B)來比較兩個(gè)分子之間的相似性桐款。[7]以PubChem分子指紋為例,a為分子A中的子結(jié)構(gòu)數(shù)量夷恍,b為分子B中的子結(jié)構(gòu)數(shù)量魔眨,則c為分子A、B共有的結(jié)構(gòu)數(shù)量酿雪,c的比例越大在一定程度上可以說明A遏暴、B分子越相似。因此這些相似度計(jì)算都是以c為判斷標(biāo)準(zhǔn)指黎,不同計(jì)算方法區(qū)別在于分母的不同(Hamming系數(shù)除外)朋凉。其中最常用的是Tanimoto系數(shù),不同方法的比較在參考文獻(xiàn)7中有詳細(xì)闡述醋安,本文不再贅述杂彭。
圖1. A)PubChem分子指紋的部分子結(jié)構(gòu)。B)分子指紋幾種相似度計(jì)算方法吓揪,其中假設(shè)有兩個(gè)分子A和B亲怠,則a表示分子A的分子指紋中1的數(shù)量,b表示分子B的分子指紋中1的數(shù)量磺芭,c表示A吊履、B分子指紋中共同為1的數(shù)量懒鉴,m表示分子指紋的總位數(shù)父叙。