?我們關(guān)注蛋白質(zhì)的功能蝌数,而結(jié)構(gòu)和功能聯(lián)系緊密司恳。一旦在氨基酸序列水平發(fā)現(xiàn)有趣的序列(比如一個模體(motif)或者進化上保守的片段)初狰,下一步往往就是研究這段序列的3-D結(jié)構(gòu)。(試圖解決以下問題:這段氨基酸序列是否有助于蛋白質(zhì)結(jié)構(gòu)的穩(wěn)定诱鞠?為什么這段序列是保守的(或多變的)挎挖?它們在蛋白質(zhì)表面嗎?直接參與蛋白質(zhì)功能嗎航夺?與結(jié)合其他分子有關(guān)嗎蕉朵?)
蛋白質(zhì)結(jié)構(gòu)的預(yù)測不算一件容易的事,因此還有兩年一次的國際蛋白質(zhì)結(jié)構(gòu)預(yù)測競賽-CASP阳掐。今年的第十四屆CASP上始衅,AI又贏得了關(guān)注,關(guān)于這些可以看我之前寫的小科普【野生小科普】人工智能Alpha AI缭保。AI的加入給結(jié)構(gòu)生物學帶來了新的技術(shù)汛闸,不過就算是AI也要基于已知的數(shù)據(jù)訓(xùn)練,完全基于物理學和化學原理的結(jié)構(gòu)預(yù)測還沒有出現(xiàn)艺骂。本篇推送即是對基于計算模擬分析蛋白質(zhì)結(jié)構(gòu)的簡單介紹诸老。
一、從序列到二級結(jié)構(gòu)
當晶體學家第一次觀測蛋白質(zhì)結(jié)構(gòu)時钳恕,他們推測氨基酸序列可通過自身折疊形成具有生物活性的分子别伏。相鄰的氨基酸形成基礎(chǔ)結(jié)構(gòu)骨干蹄衷,序列上距離較遠的殘基也可能在空間上直接接觸,形成最終的3-D結(jié)構(gòu)厘肮。
二級結(jié)構(gòu)主要有螺旋(Helices)愧口、折疊(extended or Beta-strands)和無規(guī)則卷曲(Random coils),這些結(jié)構(gòu)往往通過轉(zhuǎn)角(Turns)相連接类茂。
1. 預(yù)測一段蛋白質(zhì)序列的二級結(jié)構(gòu)
目前有一些很不錯的服務(wù)器耍属,基于隱馬爾科夫模型和神經(jīng)網(wǎng)絡(luò)可以準確的預(yù)測蛋白質(zhì)序列的二級結(jié)構(gòu)。
比如下面介紹的PSIPRED
http://bioinf.cs.ucl.ac.uk/psipred/
(還有其他功能巩检,不止是預(yù)測二級結(jié)構(gòu))
這里舉例序列是:
>NP_360043MRNIIYFILSLLFSVTSYALETINIEHGRADPTPIAVNKFDADNSAADVLGHDMVKVISNDLKLSGLFRPISAASFIEEKTGIEYKPLFAAWRQINASLLVNGEVKKLESGKFKVSFILWDTLLEKQLAGEMLEVPKNLWRRAAHKIADKIYEKITGDAGYFDTKIVYVSESSSLPKIKRIALMDYDGANNKYLTNGKSLVLTPRFARSADKIFYVSYATKRRVLVYEKDLKTGKESVVGDFPGISFAPRFSPDGRKAVMSIAKNGSTHIYEIDLATKQLHKLTDGFGINTSPSYSPDGKKIVYNSDRNGVPQLYIMNSDGSDVQRISFGGGSYAAPSWSPRGDYIAFTKITKGDGGKTFNIGIMKACPQDDENSERIITSGYLVESPCWSPNGRVIMFAKGWPSSAKAPGKNKIFAIDLTGHNEREIMTPADASDPEWSGVLN
返回結(jié)果:
不得不提我學習生信過程中最快樂的一點厚骗,就是結(jié)果圖都夠花,哈哈哈哈碴巾。頁面好看,很想放圖丑搔。
2. 預(yù)測其他結(jié)構(gòu)特征
PSIPRED是針對主要二級結(jié)構(gòu)的預(yù)測厦瓢,而PredictProtein無疑更全面一點:
https://predictprotein.org/
包括:前面提到的主要二級結(jié)構(gòu)預(yù)測;蛋白溶劑可及性(Solvent Accessibility)預(yù)測啤月;跨膜螺旋即拓撲結(jié)構(gòu)預(yù)測煮仇;結(jié)合位點預(yù)測;保守區(qū)域分析谎仲;PSI-BLAST結(jié)果等浙垫。
如果通過PredictProtein發(fā)現(xiàn)了什么有趣的特征,可用更專業(yè)的軟件或網(wǎng)站進行進一步分析郑诺。
二夹姥、從序列到3-D結(jié)構(gòu)
1. 在PDB網(wǎng)站檢索和顯示3-D結(jié)構(gòu)
PDB網(wǎng)址:
https://www.rcsb.org/
已知一個有結(jié)構(gòu)信息的蛋白,并且知道它的ID辙诞≌奘郏可以在網(wǎng)站進行簡單搜索,查看結(jié)構(gòu)等信息飞涂。
2. 推測目標蛋白的3-D結(jié)構(gòu)
如果要推測感興趣的一段氨基酸序列的3-D結(jié)構(gòu)旦部,一個簡單直接的方法是通過與已知結(jié)構(gòu)的蛋白質(zhì)的序列比對,即在blastp中選擇PDB數(shù)據(jù)庫较店,進行blast士八。
3. 序列與3-D結(jié)構(gòu)的對應(yīng)
在操作2后,選擇一組序列如下(NP_360043梁呈,NP_415268婚度,NP_404737,NP_249663官卡,NP_438543)陕见,進行多序列比對后可以找到這組序列的保守區(qū)域秘血。通過已知結(jié)構(gòu)的蛋白質(zhì)與序列的對應(yīng)關(guān)系,推測保守序列可能的功能评甜。例如我們發(fā)現(xiàn)了一段蛋白的保守序列灰粮,它對應(yīng)蛋白質(zhì)凹陷部位或者表面,那么可以推測這段序列可能是酶的活性位點或者與其他分子互作有關(guān)忍坷。
(1)下載序列FASTA格式:
用于舉例的5條序列:在NCBI-protein數(shù)據(jù)庫中導(dǎo)出fasta文件NP_360043NP_415268NP_404737NP_249663NP_438543
(2)用多序列fasta文件進行多序列比對粘舟,選擇保守區(qū)域:
(3)分析蛋白模型:
打開NCBI-Structure,檢索上述蛋白序列中分辨率最高的(PDB數(shù)據(jù)庫頁面有顯示resolution佩研,1CRZ是1.95 Angstroms)柑肴。得到結(jié)果頁面如下圖:
https://www.ncbi.nlm.nih.gov/Structure/index.shtml
可以看到上圖標了黃色的部分,下載Cn3D軟件旬薯,然后再下載這個蛋白的結(jié)構(gòu)文件晰骑,就可以用Cn3D軟件打開。操作非常方便绊序,可以直接選中序列硕舆,或者在window→show sequence viewer→view→find patterns里,直接輸入想要了解的pattern骤公。
三抚官、更多工具和網(wǎng)站
1. 尋找相似結(jié)構(gòu)的蛋白質(zhì)-Finding proteins with similar shapes
這是一個上傳蛋白質(zhì)結(jié)構(gòu)文件,在Molecular Modeling Database(MMDB)中檢索相似結(jié)構(gòu)的網(wǎng)站阶捆。當確認蛋白質(zhì)結(jié)構(gòu)后凌节,若想知道這個結(jié)構(gòu)是否是新的,可以用VAST檢索洒试。
(1)NCBI’s structure-structure similarity search service (VAST)
https://www.ncbi.nlm.nih.gov/Structure/VAST/vastsearch.html
2. PDB viewers-Finding other PDB viewers
以下是類似Cn3D軟件的PDB結(jié)構(gòu)查看軟件:
(1)RasMol
http://www.rasmol.org/
(2)DeepView, Swiss-PdbViewer
https://spdbv.vital-it.ch/
3. 對結(jié)構(gòu)進行分類-Classifying your PDB structure
(1)The CATH classification
http://www.cathdb.info/
(2)The Dali 3D neighbor finding server
https://www.ebi.ac.uk/msd-srv/ssm/
(3)The SCOP classification
http://scop.mrc-lmb.cam.ac.uk/
4. 蛋白結(jié)構(gòu)預(yù)測之同源性建模-Doing homology modeling
同源建模是一種依賴模板的預(yù)測方法倍奢,具體原理是相似序列擁有相似結(jié)構(gòu)。以與未知結(jié)構(gòu)蛋白具有同源性的已知結(jié)構(gòu)的蛋白作為模版垒棋,用生物信息學的方法通過計算機模擬和計算娱挨,根據(jù)一級序列預(yù)測其三維空間結(jié)構(gòu)。這個方法適用于目標序列與模板序列一致度高的情況(一致性>30%捕犬,模型準確度可達80%)跷坝,當同源性低,則考慮下面兩種碉碉。
(1)Modeller
https://salilab.org/modeller/
(2)SWISS-MODEL
https://swissmodel.expasy.org/
5. 蛋白結(jié)構(gòu)預(yù)測之穿線法建模-Threading sequences onto PDB structures
也是依賴模板的預(yù)測方法柴钻。有的序列不相似的蛋白也具有相同結(jié)構(gòu),基于這個認知垢粮,通過把序列比對到折疊拓撲結(jié)構(gòu)庫贴届,找出最為匹配序列的折疊模式,將分隔的氨基酸串聯(lián)起來。
(1)FUGUE
https://mizuguchilab.org/fugue/
(2)UCLA Fold recognition
http://www.pdg.cnb.uam.es/cursos/bcn05/Structures/3D_Practicals/P_threading/index.html
(3)The PROSPECT server
https://prospect.erc.monash.edu/
6. 蛋白結(jié)構(gòu)預(yù)測之從頭預(yù)測-Folding proteins in a computer
不依賴模板毫蚓,完全根據(jù)序列建模占键。AI預(yù)測蛋白結(jié)構(gòu)的方法可歸結(jié)為這一類。
(1)Folding@home project Web site
https://foldingathome.org/
7. 觀察運動中的結(jié)構(gòu)-Looking at structures in movement
蛋白質(zhì)分子動力學模擬元潘。
(1)The Brooks Lab site
https://brooks.chem.lsa.umich.edu/index.php?page=charles_l._brooks_iii&subdir=articles/group
(2)The El Nemo site
http://www.sciences.univ-nantes.fr/elnemo/
(3)The Database of Macromolecular Movements site
http://molmovdb.org/
8. 預(yù)測互作-Predicting interactions
(1)FlexX
https://www.biosolveit.de/products/#FlexX
(2)FTDock
http://www.sbg.bio.ic.ac.uk/docking/ftdock.html
(3)Hex
http://hex.loria.fr/
(4)Macromolecular Interactions工具箱
https://www.bio.vu.nl/nvtb/Docking.html
往期相關(guān)內(nèi)容:
【陪你學·生信】三翩概、核苷酸序列數(shù)據(jù)庫的使用
【陪你學·生信】四牲距、蛋白質(zhì)相關(guān)的數(shù)據(jù)庫
【陪你學·生信】五、當你有一段待分析的DNA序列(基礎(chǔ)操作介紹)
【陪你學·生信】六钥庇、當你有一段待分析的氨基酸序列(基礎(chǔ)操作介紹)
【陪你學·生信】七牍鞠、在數(shù)據(jù)庫中檢索相似的序列
【陪你學·生信】九评姨、多序列比對-Multiple Sequence Alignment(MSA)