在蛋白質序列中搜索磷酸化模體
問題描述
序列功能模體(sequence functional motif)被定義為能行使功能的短氨基酸或核昔酸序列聂薪,含有一個或多個殘基的功能區(qū)(個人認為可能就是所謂的motif)禾嫉。磷酸化位點、甘露糖基化位點趴拧、識別模體胯盯、 糖基化位點、 轉錄結合位點等都是功能性模體的典型范例计露。 序列功能性模體可以用一種稱為正則表達式的特殊符號表示博脑。正則表達式(regular expression)有時也稱為regexp,是能代表一組字符串的字符串語法票罐,由字符以及元字符組成叉趣。換句話說,如果讀者想用一串字符表達幾個字符串该押,就有必要引入新的規(guī)則疗杉,使得可以允許"多元"含義存在,如通配符蚕礼、重復字符或邏輯組烟具。
一個經(jīng)常在生物學中使用的例子就是 DNA 序列字符 N。 序列 AGNNT 可能是 AGAAT奠蹬, AGCTT朝聋, AGGGT,或許多其他的可能性之一囤躁。 正則表達式以類似的方式工作冀痕,但使用更復 雜的特殊字符集荔睹。
假設想通過單一的表達方式表示以下膚字符串 : "AFL", "GFI", "AYI" , "GWI", "GFI" , "AWI", "GWL", "GYL"。 如果使用一個象征的表示符號言蛇,如"[AG]"來表明在某 個字符串的位置可能出現(xiàn)"A"或"G" 僻他,就可以使用表達式"[AG][FYW] [ILJ"代表上述所有 的膚。 注意腊尚,我們使用的不是字面意義上的"["和"]"吨拗,而是一種"元"的含義。在這種情況下跟伏, "["和"]"稱為元字符丢胚。 通過使用字符和元字符編碼一組字符串的表達,就稱為正則表達式受扳。
另一個例子是功能性模體表達携龟,通常比較短,還可能包含不變位置和可變位置勘高。 例如峡蟋, 一個絲氨酸/蘇氨酸磷酸化模體可以表示為[ST]Q。 當進行蛋白質序列檢索時华望,這種表達方 式將能夠匹配出兩種不同的序列結果 : "SQ"和 "TQ"蕊蝗。 該模體的第一個位置是可變的,而第二個位置是保守的赖舟。 有幾種公共開源資源致力于功能性模體(如 ELM:http://elm.eu.org以及 PROSITE:http://prosite.expasy.org/等)蓬戚。 搜索一套蛋白質序列或者一組序列中是否存在功能性模體,可以進而推斷蛋白質的功能宾抓。 這正是如 ScanProsite(http://prosite.expasy.org/scanprosite/)做的子漩。 下一篇文章將講解一個程序,用于模擬ScanProsite 的功能之一; 即該程序將在蛋白質序列中搜索磷酸化模體石洗,并返回第一個出現(xiàn)的模體提茁。
作者:天明豆豆
鏈接:http://www.reibang.com/p/bd7e0cc59283
來源:簡書
著作權歸作者所有赶袄。商業(yè)轉載請聯(lián)系作者獲得授權,非商業(yè)轉載請注明出處。