Covid19-delta毒株引起的疫情搞得大家人心惶惶辆憔,作為一名科學(xué)研究人員,自然希望為疫情的控制盡一份力诅挑。寫這篇帖子是為了將最新開發(fā)的alphafold2和Covid19-delta毒株的藥物研發(fā)結(jié)合起來正什,看一看最新的人工智能技術(shù)可以怎樣輔助藥物研發(fā)。這篇帖子只是一時(shí)興起喜喂,純屬娛樂瓤摧,內(nèi)容也比較粗略,所以求各位看官輕拍玉吁!
1照弥、 背景介紹
Covid19-delta毒株的來源
首先Covid19-delta毒株首先是在印度發(fā)現(xiàn)的,這個(gè)毒株有多厲害进副,相信大家已經(jīng)在各種新聞推送里面了解過了产喉,揚(yáng)州一個(gè)老太太讓整個(gè)揚(yáng)州城淪為高風(fēng)險(xiǎn)疫區(qū),可見這個(gè)毒株有多可怕敢会。
Covid19藥物的主要靶點(diǎn)
Covid19的主要結(jié)果蛋白包括S蛋白(刺突)、E蛋白(包膜)这嚣、M蛋白(跨膜)和N蛋白(核衣殼)鸥昏,在這些結(jié)構(gòu)蛋白中,S蛋白上的突變位點(diǎn)最多姐帚,也最關(guān)鍵吏垮。Covid19主要是通過S蛋白與宿主細(xì)胞表面ACE2受體結(jié)合感染宿主細(xì)胞,因此S蛋白是絕大多數(shù)新冠疫苗發(fā)揮作用的主要靶標(biāo)罐旗。Covid19-delta也是刺突蛋白的氨基酸突變所導(dǎo)致的變異膳汪,導(dǎo)致其傳播能力更強(qiáng)。
本貼的工作主要有(1)通過NCBI檢索Covid19-delta的刺突蛋白(spike protein)的氨基酸序列(2)通過序列比對(duì)九秀,找到刺突蛋白與ACE2受體蛋白的作用的主要domain
alphafold2構(gòu)建Covid19-delta的蛋白三級(jí)結(jié)構(gòu)遗嗽。(3)通過zdock對(duì)Covid19-delta的刺突蛋白與ACE2受體蛋白進(jìn)行分子對(duì)接。(4)分子動(dòng)力學(xué)模擬Covid19-delta與ACE2受體蛋白相互作用的動(dòng)態(tài)過程鼓蜒。
2痹换、 尋找Covid19-delta毒株刺突蛋白序列
首先我們?cè)贜CBI(https://www.ncbi.nlm.nih.gov/datasets/coronavirus/genomes/)上找到Covid19-delta的序列信息,如圖1所示
接下來都弹,在Protein.faa文件中找到刺突蛋白的序列娇豫。我找到了3個(gè)序列(圖2),并且通過DiscoveryStudio比較了三個(gè)序列的相似度畅厢。結(jié)果表明冯痢,這三個(gè)序列相似度在99%左右。
接下來框杜,我需要知道這個(gè)蛋白質(zhì)的主要參與到與ACE2受體識(shí)別的亞基浦楣。為了實(shí)現(xiàn)這個(gè)目標(biāo),我在PDB數(shù)據(jù)庫(https://www1.rcsb.org/)中搜索SARS-Covid19 spike protein與ACE2受體相互作用的模型霸琴。我找到了6個(gè)結(jié)果椒振,選擇了第二個(gè)結(jié)果(7KMB,圖4)梧乘,原因是這個(gè)結(jié)果簡單澎迎,并且反映出了Spike蛋白與ACE2受體之間相互作用的主要domain庐杨。
接下來夹供,需要通過序列比對(duì)的方法灵份,找到在Covid19-delta毒株的spike蛋白中與7KMB對(duì)應(yīng)的蛋白序列位點(diǎn)。為了實(shí)現(xiàn)這一步哮洽,首先將7KMB.pdf文件導(dǎo)入到DS(DiscoveryStudio填渠,以后簡稱DS)(圖5)。F亞基是ACE2 Receptor鸟辅,G亞基是Spike Domain氛什。提取出G亞基,然后將G亞基的序列比對(duì)到前面的3個(gè)Covid19-delta的spike蛋白的序列上匪凉。結(jié)果嘛~枪眉,序列差別挺大的(圖6)。不過三級(jí)結(jié)構(gòu)是什么樣的再层,只有比對(duì)之后才知道贸铜。接下來就是做序列比對(duì)了。
3蒿秦、 使用alphafold2對(duì)刺突蛋白進(jìn)行建模
既然三個(gè)Covid19-delta序列如此相似,那么在三級(jí)結(jié)構(gòu)上也會(huì)非常相似蛋济。我選擇了第一個(gè)QWE80500.1中與7kmbSpike比對(duì)得到的序列作為種子棍鳖,使用Alphafold2對(duì)這段序列進(jìn)行建模。這個(gè)操作比較簡單瘫俊,Alphafold2提供了jupyternotebook鹊杖,可以直接輸入序列,并且使用google colab上的計(jì)算資源進(jìn)行計(jì)算(https://colab.research.google.com/github/sokrypton/ColabFold/blob/main/AlphaFold2.ipynb#scrollTo=kOblAo-xetgx)扛芽。
輸入序列骂蓖,等待運(yùn)算完成。大約5-7min川尖,結(jié)果就計(jì)算出來了(圖 8)登下。從圖中可以發(fā)現(xiàn),計(jì)算氨基酸構(gòu)想評(píng)分都在80分以上叮喳,結(jié)果非常好被芳。
4、 使用zdock進(jìn)行分子對(duì)接
接下來馍悟,需要使用ACE2與預(yù)測(cè)出來的蛋白質(zhì)進(jìn)行zdock對(duì)接畔濒。為了簡化計(jì)算,在對(duì)接過程中锣咒,我選擇了7kmb蛋白中與spike蛋白結(jié)合的氨基酸位點(diǎn)作為對(duì)接偏好性選項(xiàng)(圖9)侵状。
通過zdock赞弥,選擇ZDock Score最高和RMSD最小的Poses(圖10,圖11)趣兄。
5绽左、 分子動(dòng)力學(xué)模擬,探索刺突蛋白與ACE2之間的相互作用
最后一步艇潭,通過分子動(dòng)力學(xué)模擬拼窥,描繪在水相環(huán)境中對(duì)接的蛋白質(zhì)的動(dòng)態(tài)變化過程。這一步按照分子動(dòng)力學(xué)模擬的常規(guī)路線蹋凝,prepare-protein-》Add Forcefield-》solving-》Dynamics(圖12)鲁纠。
最終經(jīng)過13個(gè)小時(shí)運(yùn)算鳍寂,獲得了100ps的50個(gè)comformation房交。從能量狀態(tài)來看,似乎這個(gè)不是一個(gè)非常穩(wěn)定的狀態(tài)(圖13)伐割。分子動(dòng)力學(xué)動(dòng)畫如圖14所示。
總結(jié):本次實(shí)驗(yàn)所做的工作只是簡單地跑了一個(gè)大概地流程刃唤,其中很多細(xì)節(jié)還可以繼續(xù)深挖隔心,比如pose1中spike protein與ACE2受體蛋白之間相互作用的氨基酸殘基的特點(diǎn),再比如后期的分子動(dòng)力學(xué)模擬并沒有達(dá)到穩(wěn)定的狀態(tài)尚胞。受限于我的計(jì)算資源和時(shí)間硬霍,這個(gè)研究還是比較初步的,主要的創(chuàng)新點(diǎn)是使用alphafold2預(yù)測(cè)了Covid19 spike protein的三級(jí)結(jié)構(gòu)笼裳,并且粗略展示了一下這個(gè)蛋白對(duì)接的主要結(jié)果唯卖。這個(gè)研究再寫詳細(xì)一點(diǎn)就是一篇不錯(cuò)的本科畢業(yè)論文了。感謝張寶寶幫我把mp4格式轉(zhuǎn)換為gif躬柬,并且還幫忙整理了文章格式拜轨。好了,這個(gè)研究暫時(shí)告一段落允青,接下來繼續(xù)搬磚去咯橄碾!