一.什么是SMILES
? ? ? ? SMILES,全稱是Simplified Molecular Input Line Entry System,是一種用于輸入和表示分子反應的線性符號,是一種ASCII編碼,下面看一些例子:
? ? ? SMILES包含的信息可能與一些擴展的源數據表相同,SMILES更適用的主要原因是它是一種語言結構,而不是計算機數據結構碌尔。 SMILES是一種真正的語言券敌,雖然只有簡單的詞匯(原子和鍵符號)和少數語法規(guī)則。 SMILES結構表示可以反過來用作其他語言詞匯表中的“word”叹坦,用于存儲化學信息(化學品信息)和化學信息卑雁。
二.SMILES的優(yōu)點是啥
? ? ? ? 1.?唯一性.SMILES強大的一點就是存在一種唯一的SMILES,使用標準的SMILES,分子的名字和結構是同義的,在唯一的SMILES里面,這也是通用的,世界上任何使用SMILES命名分子的人都會選擇完全相同的名字
? ? ? ? 2.?節(jié)省空間.SMILES的另一個重要特性是测蹲,與大多數其他表示結構的方法相比,它能節(jié)省存儲空間道盏。SMILES占用的空間甚至比二進制表減少50%至70%文捶,甚至是二進制連接表粹排。 例如,23,137個結構的數據庫坠敷,每個結構平均有20個原子,當用SMILES表示時粥帚,每個原子僅使用1.6個字節(jié)限次。 此外卖漫,SMILES的壓縮非常有效。 通過Ziv-Lempel壓縮(即每個原子0.42個字節(jié))旱幼,上面引用的相同數據庫存儲內存減少到其原始大小的27%突委。
三.SMILES有什么用
? ? ? ? - 數據庫關鍵字訪問
? ? ? ? - 研究人員化學信息的交流機制? ?
? ? ? ? - 化學數據輸入
? ? ? ? - ?人工智能和化學專家的語言
四. SMILES規(guī)范
? ? ? ? ? SMILES把分子結構表示為?任意的手性特征圖,這本質上就是分子家描述分子結構的二維圖片.僅僅描述分子圖(即原子和鍵,沒有手性或者同位素信息)的SMILES叫做一般SMILES.對于給定的結構,通常有很多一般SMILES表示方法;規(guī)范化算法用于在所有有效可能性中生成一個特殊的通用SMILES,這個特殊的SMILES叫做唯一的SMILES;用同位素和手性規(guī)格書寫的SMILES叫做異構體SMILES;唯一的異構體SMILES叫做絕對SMILES.看下面的例子
五. 格式規(guī)則
? ? ? ?SMILES?表示法由一系列不包含空格的字符組成鸯两。 可以省略氫原子(氫抑制圖)或不省略氫原子(氫完全圖)钧唐。 芳香結構可以直接指定或以Kekulé形式指定
? ? ? ??有五種通用的SMILES編碼規(guī)則匠襟,對應于原子,鍵帅韧,分支忽舟,閉環(huán)和斷開的規(guī)范淮阐。 有關指定各種異構現象的規(guī)則不這一節(jié)范圍
? ?1.?原子
? ? ? -. ?原子用它們的原子符號表示:這是SMILES中唯一需要使用的字母,每個非氫原子由其括在方括號[]中的原子符號獨立指定
? ? ? -. ?B,C浩姥,N状您,O,P眯分,S弊决,F,Cl傅联,Br和I,如果連接的氫原子數量和原子的最低正化合價相同,則[]可以省略
? ? ? -.?雙字符符號的第二個字母必須以小寫字母輸入
? ? ? -. 芳香環(huán)中的原子由小寫字母表示,脂肪族碳由大寫字母C表示疚察,芳族碳由小寫字母c表示
? ? ? 以下原子符號是有效的SMILES符號:
? ? ? ? ? 在括號內,必須始終指定連接的氫原子數量和原子當前的化合價浪规。氫的數量用符號H表示,后跟可選數字。類似地掸掸,化合價由符號+或 - 之一表示蹭秋,后跟可選數字。如果未指定羽莺,則對于括號內的原子洞豁,就假定連接的氫和電荷的數量為零丈挟。[Fe +++]形式的構造與[Fe + 3]形式同義。 例子是: ?
? ? ? ? ??2. 鍵
? ? ? ? ? ?-.?單鍵长酗,雙鍵桐绒,三鍵和芳香鍵分別用符號 - ,=蚀乔,#和:表示
? ? ? ? ? ?-.?假設相鄰原子通過單鍵或芳香鍵相互連接(可以總是省略單鍵和芳鍵)
? ? ? ? ? ?對于線性結構,SMILES和傳統(tǒng)的圖解符號相比,只是省略了H和單鍵,例如6-羥基-1,4-己二烯可有許多同等有效的SMILES代表菲茬,包括以下三 種:
? ? ? 3. 分支
? ? ?? ? ? ?帶有分支的原子寫在左側,通過()指定,可以堆疊,分支上的元素寫在右側
? ? ? ? 4. 閉環(huán)
? ? ? ? ? ??通過在每個環(huán)中斷開一個鍵來表示環(huán)狀結構睬魂。 該鍵以任何順序編號镀赌,在每個閉環(huán)時緊跟原子符號后用數字表示開環(huán)(或閉環(huán))鍵。這就讓一個連接起來的非循環(huán)圖使用上述三個規(guī)則寫為非循環(huán)結構喉钢。 環(huán)己烷是一個典型的例子:
? ? ? ? ? ? ?通常同一個閉環(huán)有不同的有效SMILES
? ? ? ? ? ? ?如果需要肠虽,表示環(huán)閉合的數字可以重復使用税课。例如豹缀,數字1在規(guī)范中使用了兩次:
? ? ? ? ? 5. 斷開結構
? ? ? ? ? ? ? ? -.??斷開的化合物被寫成由`.`分隔的單獨結構,列出離子或配體的順序是任意的邢笙。
? ? ? ? ? ? ? ? -. ?如果需要侍匙,可以將一種離子的SMILES嵌入另一種離子中
? ? ? ? ? ? ? ? ? ? ? 如苯酚鈉的實例所示
? ? ? ? ? ? ? ? 由點 `.` 分隔的相鄰原子意味著原子彼此不鍵合?
六. 異構體SMILES
? ? ? ? ? 這里介紹用于指定同位素的SMILES規(guī)則想暗,關于雙鍵的配置和手性。 術語異構體SMILES統(tǒng)稱為使用這些規(guī)則編寫的SMILES杨箭。SMILES異構體規(guī)則允許為任何結構完全指定手性,因此储狭,SMILES中的所有異構體規(guī)范規(guī)則都是可選的。 缺少任何屬性的規(guī)范意味著未指定該屬性的值慈参。
? ? ? ? ? 1. 同位素規(guī)則
? ? ? ? ? ? ? ? ??同位素規(guī)范是指在原子符號前面用一個數字表示所需的原子質量的數目驮配。原子質量只能在括號內指定。例如:
? ? ? ? ? ? 2. 圍繞雙重建的配置
? ? ? ? ? ? ? ? ? 雙鍵周圍的配置由`/`和 `\` 指定琐旁,它們是“方向鍵”旋膳,可以被認為是單鍵或芳香鍵(例如默認鍵)的種類途事。 這些符號表示連接原子之間的相對方向性,并且只有當它們出現在兩個雙鍵連接的原子上時才有意義义图。 例如碱工,以下SMILES均適用于E-和Z-1,2-二氟乙烯:
? ? ? ? ? ? ? ? ?SMILES手性慣例與其他手段(如CIP)之間的一個重要區(qū)別是SMILES使用局部手性表示(與絕對手性相反)奏夫,下面舉例說明:
? ? ? ? ? ? 3.?四面體中心周圍的配置
? ? ? ? ? ? ? ? ? ? SMilES使用基于局部手性的非常普遍的手性規(guī)范酗昼。取代使用基于規(guī)則的編號方案來排序手性中心的鄰近原子麻削,取向基于鄰居在SMILES字符串中出現的順序
? ? ? ? ? ? ? ? ? ?最簡單和最常見的手性是四面體,四個相鄰原子在一個中心原子上均勻排列叠荠,稱為“手性中心”扫责。如果所有四個鄰居以不同的方式彼此不同,則該結構的鏡像將不相同者娱。這兩個鏡像被稱為“對映體”,是一個四面體中心的唯一的兩種形式蔫缸。如果兩個(或多個)四個鄰居彼此相同际起,則中心原子將不是手性的(它的鏡像可以疊加在空間中)街望。
? ? ? ? ? ? ? ? ?在SMILES中,四面體中心可以用一個簡化的手性規(guī)范(@或@@)來表示防症,這是一個原子屬性哎甲,它遵循手性原子的原子符號炭玫。如果手性規(guī)范不存在于手性原子中,則其手性不指定吞加。例如:
? ? ? ? ? ? ? ? ?從氨基N到手性C(如SMIELS所寫)裙犹,其他三個鄰居按照它們寫在頂部SMILES中的順序逆時針出現,N[C@](C)(F)C(=O)O(甲基-C衔憨,F叶圃,羧基-C),在底部順時針践图,?N[C@@](F)(C)C(=O)O掺冠。 符號“@”表示以下鄰居是逆時針列出的 “@@”表示鄰居是順時針列出的(反時針方向)。
? ? ? ? ? ? ? 如果中心碳不是SMILES中的第一個原子并且具有附著的隱含氫(它可以具有至多一個并且仍然是手性的)平项,則隱含的氫被認為是跟隨的三個 鄰居的第一個鄰近原子。 四面體規(guī)范闽瓢。 如果中心碳首先出現在SMILES中,則隱含的氫被認為是“來自”原子心赶。 氫可以總是明確寫出(如[H])扣讼,在這種情況下,它們被視為與任何其他原子一樣缨叫。 在每種情況下椭符,隱含的順序與SMILES中的順序完全相同荔燎。 一些有效的丙氨酸SMILES是:
? ? ? ? ? ? ? ?環(huán)閉合鍵的手性順序由環(huán)閉合數字出現在手性原子上的詞匯順序暗示(不是“取代基”原子的詞匯順序)。
七. SMILES公約
? ? ? ? ? ?除上述規(guī)則外销钝,SMILES中普遍使用少量約定有咨。這里簡要討論?
? ? ? ? ? ?1. 氫
? ? ? ? ? ? ? ? ??在為大多數有機結構編寫SMILES時,通常不需要指定氫原子蒸健。 氫的存在可以通過三種方式指定:
? ? ? ? ? ? ? ? ? ? ? ? ?-.?對于沒有括號指定的原子座享,從正常的價假設。
? ? ? ? ? ? ? ? ? ? ? ? ?-. 在括號內似忧,通過提供的氫計數明確計數渣叛;如果未指定,則為零盯捌。
? ? ? ? ? ? ? ? ? ? ? ? ?-. 作為顯式原子……[H]原子淳衙。
? ? ? ? ? ? ? ?“有機”和“無機”SMILES命名法之間沒有區(qū)別。 可以指定任何SMILES中任何原子的連接氫的數量饺著。 例如箫攀,丙烷可以作為[CH3] [CH2] [CH3]而不是CCC輸入。
? ? ? ? ? ? ? ? 有四種情況需要明確氫氣規(guī)范的規(guī)范:
? ? ? ? ? ? ? ? ? ? ?- .帶電的氫幼衰,即質子匠童,[H +]
? ? ? ? ? ? ? ? ? ? ?-. 與其他氫連接的氫,例如分子氫塑顺,[H] [H]
? ? ? ? ? ? ? ? ? ? ?-. 氫連接到除另一個原子以外的氫
? ? ? ? ? ? ? ? ? ? ?-. 同位素氫規(guī)格汤求,例如 在重水中,[2H] O [2H]
? ? ? ? ? ??2. 芳香性
? ? ? ? ? ? ? ? SMILES算法使用Hueckel規(guī)則的擴展版本來識別芳香分子和離子严拒。為了具有芳香性扬绪,環(huán)中的所有原子必須是sp2雜化的,并且可用的“過量”p電子的數量必須滿足Hueckel的4N + 2標準裤唠。例如挤牛,苯寫成c1ccccc1,但C1 = CC = CC = C1 - 環(huán)己三烯(Kekulé形式)的條目導致芳香性的檢測并導致內部結構轉換為芳香族表示种蘸。相反墓赴,c1ccc1和c1ccccccc1的條目將產生環(huán)丁二烯和環(huán)辛四烯的正確抗芳香結構,C1 = CC = C1和C1 = CC = CC = CC = C1航瞭。在這種情況下诫硕,SMILES系統(tǒng)尋找一種結構,該結構保留隱含的sp2雜交刊侯,隱含的氫計數和指定的正式電荷(如果有的話)章办。但是,某些輸入可能不僅是不正確的,而且也是不可能的藕届,例如c1cccc1挪蹭。這里c1cccc1不能轉化為C1 = CCC = C1,因為其中一個碳原子是sp3休偶,帶有兩個連接的氫梁厉。在這種結構中,不能進行交替的單鍵和雙鍵分配踏兜。 SMILES系統(tǒng)會將此標記為“不可能”的輸入词顾。請注意,以下列表中的原子只能被視為芳香族:C庇麦,N计技,O,P山橄,S垮媒,As,Se和*(通配符)航棱。此外睡雇,環(huán)外雙鍵不會破壞芳香性。
? ? ? ?重要的是要記住饮醇,SMILES芳香性檢測算法的目的僅僅是為了化學信息表示它抱!
? ? ? ? 3. 綁定約定
? ? ? ? ? ? ? ? ? ?SMILES沒有規(guī)定應該使用哪種化合價來模擬分子結構。 事實上朴艰,使用SMILES的一個優(yōu)點是它能夠描述相同結構的各種價模型观蓄。 可以連接原子并根據需要顯示電荷分離。 例如祠墅,硝基甲烷可以在SMILES中表示為CN(= O)= O或電荷分離C [N +](= O)[O-](我們傾向于使用前者用于數據庫工作侮穿,因為它保持對稱性)。 兩者都是“正確的”毁嗦,因為它們代表了物質的不同的亲茅,有用的模型。 一般來說狗准,當對稱性不成問題時克锣,大多數化學家更喜歡電荷分離結構,如果它們可以避免代表處于不尋常價態(tài)的原子腔长,例如袭祟,重氮甲烷寫成C = [N +] = [N-]而不是C = [N] =[N]。 ? ? ??
? ? ? ? ?4.?互變異構體
? ? ? ? ? ? ? ?在SMILES中明確指定了互變異構結構饼酿。 沒有“互變異構鍵”榕酒,“移動氫”胚膊,也沒有“移動電荷”規(guī)范故俐。 選擇一種或所有互變異構結構留給使用者并且很大程度上取決于應用想鹰。 給定一種互變異構形式,如果需要药版,大多數化學信息系統(tǒng)將報告所有已知互變異構體的數據辑舷。 SMILES的作用是確切地指定請求哪種互變異構形式,以及哪些有數據槽片。 一個簡單的例子何缓,有兩種可能的互變異構形式,如下所示: