化學(xué)分子結(jié)構(gòu)表達(dá)
化學(xué)分子結(jié)構(gòu)可以用多種方式表達(dá)已日,包括一維描姚、二維和三維松捉。二維和三維結(jié)構(gòu)是化學(xué)家常用的夹界,通常以圖形形式存儲(chǔ)在Mol或Sdf格式中。
但一維線性表達(dá)在處理大量分子時(shí)惩坑,尤其在存儲(chǔ)和操作速度上掉盅,有明顯優(yōu)勢(shì)。今天以舒,我們重點(diǎn)介紹一維線性表達(dá)趾痘。
01 一維線性表達(dá)含義及類型
一維結(jié)構(gòu)表達(dá)主要采用線性符號(hào)表示法(Line Notation),即利用線性的字符或數(shù)字組合來(lái)表示化合物結(jié)構(gòu)蔓钟,這樣很容易被計(jì)算機(jī)儲(chǔ)存和處理永票。常見(jiàn)的線性符號(hào)表示法包括SMILES、SLN和ROSDAL等滥沫。
SMILES (Simplified Molecular Input Line Entry System)格式是目前化學(xué)信息學(xué)中的主流表達(dá)方法侣集。
SLN(SYBYL Linear Notation)是Tripos公司為其分子模擬和藥物設(shè)計(jì)軟件SYBYL開(kāi)發(fā)的線性表達(dá)方式,與SMILES相似兰绣,可視為SMILES的改進(jìn)版世分。
ROSDAL曾用于Beilstein系統(tǒng)的分子結(jié)構(gòu)表示,但現(xiàn)在已較少使用缀辩。
02 SMILES基本規(guī)則
SMILES(Simplified Molecular Input Line Entry System)是一種用于描述分子結(jié)構(gòu)的簡(jiǎn)化線性輸入系統(tǒng)臭埋,由美國(guó)環(huán)境保護(hù)局的David Weininger在1986年提出踪央。
這種格式通過(guò)字符串來(lái)編碼分子結(jié)構(gòu),此后瓢阴,該系統(tǒng)不斷得到擴(kuò)充和完善畅蹂,特別是Daylight化學(xué)信息系統(tǒng)公司對(duì)此做出了重要貢獻(xiàn)。
SMILES的應(yīng)用非常廣泛荣恐,它作為一種獨(dú)立于硬件和軟件的數(shù)據(jù)交換語(yǔ)言液斜,不需要圖形界面即可在多種在線服務(wù)和數(shù)據(jù)傳輸系統(tǒng)中使用,這使得它成為化學(xué)結(jié)構(gòu)輸入的重要工具叠穆。
原子通常以大寫(xiě)元素符號(hào)表示(省略氫原子)少漆,芳香結(jié)構(gòu)原子則以小寫(xiě)元素符號(hào)表示。
比如痹束,環(huán)已烷C6H12被表示為:C1CCCCC1检疫,而苯C6H6則表示為:clcccccl。
相鄰原子依次排放在一起祷嘶,單鍵通常省略,雙鍵和三鍵分別以“=”和“#”表示夺溢,芳香鍵以“:”表示论巍,也可省略。
比如风响,乙炔 HC
CH 被表示為:C#C嘉汰。
分支部分放在括號(hào)內(nèi),環(huán)則打開(kāi)状勤,并賦予斷開(kāi)鍵兩端的原子以相同的數(shù)值鞋怀。
比如,異丁酸(CH3)2CHCOOH被表示為:CC(C)C(=O)O持搜。
離子用方括號(hào)括起密似,用元素符號(hào)和電荷表示,“十”表示正電荷葫盼、“一”表示負(fù)電荷残腌,電荷數(shù)跟在正負(fù)號(hào)之后。如果該原子與氫原子相連贫导,則氫原子寫(xiě)在元素符號(hào)后面抛猫。
比如:銨離子(NH4+)被表示為[NH4+],氫氧根離子(OH-)被表示為[OH-]孩灯,四價(jià)鈦離子(Ti4+)被表示為[Ti+4]或[Ti++++]闺金。
SMILES也可以表示化合物的立體化學(xué)信息,含順?lè)串悩?gòu)和旋光異構(gòu)峰档。
順?lè)串悩?gòu):雙鍵兩側(cè)的結(jié)構(gòu)分別用符號(hào)“/”和“\”來(lái)表示败匹。
例如匣距,F(xiàn)/C=C/F或者F\C=C\F表示反二氟乙烯,它的兩個(gè)氟原子位于雙鍵的兩側(cè)哎壳;而F/C=C\F或者F\C=C/F則表示順二氟乙烯毅待,它的兩個(gè)氟原子位于雙鍵的同一側(cè)。再比如:Cl/C=C/Br(反式)归榕,CI/C=C\Br(順式)尸红。
旋光異構(gòu):手性碳原子用@(逆時(shí)針)或@@(順時(shí)針)表示,圍繞在手性中心周圍的原子可以從標(biāo)識(shí)符@或@@表示中得到原子的順序刹泄。
比如:丙氨酸外里,普通SMILES式為NC(C)C(=O)O,或者可以寫(xiě)為N[CH](C)C(=O)O特石。而L-丙氨酸則應(yīng)表示為N[C@@H](C)C(=O)O盅蝗,標(biāo)示符@@表明,從氮原子(N)處沿著連接氮原子和手性中心碳原子的鍵看去姆蘸,取代基氫原子(H)墩莫、甲基(C)和羧基(C(=O)O)按順時(shí)針順序出現(xiàn)。
請(qǐng)注意:這里取代基列出的順序非常重要逞敷,與@或@@符號(hào)要保持一致狂秦,因此,L-丙氨酸也可以表示為N[C@H](C(=O)O)C推捐,即如果從N原子沿N-C鍵看去裂问,取代基氫原子(H)、羧基(C(=O)O)和甲基(C)按逆時(shí)針順序出現(xiàn)牛柒。
相應(yīng)地堪簿,D-丙氨酸可以表示為:N[C@H](C)C(=0)O或者 N[C@@H](C(=O)O)C。
04 SMARTS格式
SMARTS(SMILES ARbitrary Target Specification)是SMILES的一個(gè)擴(kuò)展皮壁,由David Weininger開(kāi)發(fā)椭更,用于描述更復(fù)雜的化學(xué)結(jié)構(gòu)模式。與SMILES不同闪彼,SMARTS不僅能夠描述一個(gè)確切的分子結(jié)構(gòu)甜孤,還能定義一個(gè)結(jié)構(gòu)的模式,從而在化學(xué)數(shù)據(jù)庫(kù)中進(jìn)行精確的搜索和匹配畏腕。
以下為SMARTS的主要特點(diǎn)
通配符的使用
SMARTS通過(guò)使用通配符如*(任何原子)缴川、A(任何脂肪族原子)、a(任何芳香族原子)等描馅,可以表示一類原子或化學(xué)鍵把夸。
邏輯運(yùn)算符
SMARTS允許使用邏輯運(yùn)算符如&(和)、|(或)铭污、!(非)等恋日,來(lái)組合不同的結(jié)構(gòu)特征膀篮,實(shí)現(xiàn)復(fù)雜的結(jié)構(gòu)查詢。
環(huán)搜索
SMARTS能夠表示環(huán)的存在岂膳,例如r6表示一個(gè)六元環(huán)誓竿,這在尋找特定環(huán)結(jié)構(gòu)的化合物時(shí)非常有用。
距離和連接性
SMARTS可以指定原子之間的距離和連接性谈截,例如C-0表示碳原子和氧原子之間有一個(gè)單鍵筷屡。
05 InChI表達(dá)式
InChI(International Chemical Identifier,國(guó)際化學(xué)標(biāo)識(shí)符)是一種由國(guó)際純粹與應(yīng)用化學(xué)聯(lián)合會(huì)(IUPAC)和美國(guó)化學(xué)文摘社(Chemical Abstracts Service, CAS)共同開(kāi)發(fā)的分子結(jié)構(gòu)的標(biāo)準(zhǔn)化表示方法簸喂。
InChI的目的是為每一種化學(xué)物質(zhì)提供一個(gè)唯一的毙死、機(jī)器可讀的標(biāo)識(shí)符,以解決SMILES表達(dá)式可能存在的非唯一性問(wèn)題喻鳄。
以下為InChI的主要特點(diǎn)
唯一性
每個(gè)分子結(jié)構(gòu)無(wú)論其排列方式如何扼倘,都會(huì)有一個(gè)唯一的InChI編碼,這保證了在不同數(shù)據(jù)庫(kù)和文獻(xiàn)中的一致性除呵。
層次結(jié)構(gòu)
InChI編碼由多個(gè)部分組成再菊,包括分子公式、連接表竿奏、立體化學(xué)信息等袄简,這些部分按照一定的層次結(jié)構(gòu)排列。
立體化學(xué)
InChI能夠精確地表示分子的立體化學(xué)泛啸,包括順?lè)串悩?gòu)和旋光異構(gòu),這對(duì)于手性分子的識(shí)別尤為重要秃症。
距離和連接性
SMARTS可以指定原子之間的距離和連接性候址,例如C-0表示碳原子和氧原子之間有一個(gè)單鍵。