蛋白研究過程中,一般認(rèn)為氨基酸的序列決定了蛋白的結(jié)構(gòu)倘屹,結(jié)構(gòu)決定功能(一般指蛋白的三維結(jié)構(gòu))银亲。然而,近50年的研究中纽匙,有一種沒有特定三維結(jié)構(gòu)的蛋白不斷被研究人員發(fā)現(xiàn)群凶,由于這類蛋白無法折疊成穩(wěn)定的三維結(jié)構(gòu)而稱為固有無序蛋白(intrinsically disordered regions,IDRs)哄辣。這類蛋白雖然缺乏穩(wěn)定結(jié)構(gòu)且高度可變请梢,但是研究卻發(fā)現(xiàn)他們?cè)谏矬w內(nèi)行駛著重要的生物學(xué)功能。
尤其是最近相變頻繁登上CNS主刊力穗,越來越多認(rèn)識(shí)到IDRs在相變中的重要作用毅弧。2018 Cell系列相變最強(qiáng)綜述,未來已來当窗,你在哪够坐?
相位分離在多種細(xì)胞過程中起作用,包括形成經(jīng)典的無膜細(xì)胞器崖面、信號(hào)復(fù)合物元咙、細(xì)胞骨架和許多其他超分子組裝。
相位分離的概念為理解序列簡(jiǎn)并(低復(fù)雜性)和蛋白質(zhì)無序區(qū)域的功能提供了新的研究方向巫员。
越來越多的證據(jù)表明庶香,相變和無膜細(xì)胞器的失調(diào)在蛋白聚集相關(guān)的人類疾病中發(fā)揮關(guān)鍵作用。
理解蛋白質(zhì)相位分離背后的物理原理和分子互作機(jī)制可促進(jìn)新型生物材料的研發(fā)简识。
IDRs的存在赶掖,使得蛋白更容易形成液滴狀,誘發(fā)相變生成和調(diào)控的發(fā)生七扰。還在做經(jīng)典生物調(diào)控的你奢赂,如果能關(guān)聯(lián)下相變,可能既能更好的解釋細(xì)胞中的調(diào)控作用(畢竟細(xì)胞不是我們平常見到的溶液颈走,其極度粘稠的特性誘發(fā)不同的調(diào)控規(guī)則)膳灶,又可以跟蹤熱點(diǎn),提升下文章檔次立由。
相變IDRs預(yù)測(cè)
我們推薦一款工具轧钓,MetaDisorder(http://iimcb.genesilico.pl/metadisorder/)司致,一個(gè)整合了多種meta-method方法的蛋白無序預(yù)測(cè)平臺(tái),操作簡(jiǎn)單聋迎,只需2步脂矫,就可以預(yù)測(cè)研究的目標(biāo)蛋白是否有可能參與相變,再?zèng)Q定是否進(jìn)行后期的驗(yàn)證霉晕。
其使用方式如下圖:
按照格式要求輸入氨基酸序列后庭再,點(diǎn)擊submit
,跳轉(zhuǎn)結(jié)果頁面牺堰,點(diǎn)擊Graphicial format
查看圖形可視化的結(jié)果拄轻,點(diǎn)擊Simple text format
查看文本化的結(jié)果。
可視化結(jié)果僅展示了4種MetaDisorder相關(guān)的結(jié)果伟葫,關(guān)于其它多種預(yù)測(cè)算法的結(jié)果點(diǎn)擊右側(cè)灰色圖例
顯示恨搓。
MetaDisorder由于用到的方法多,運(yùn)行會(huì)比較慢筏养。如果特別著急斧抱,也可以使用下面的在線分析工具DISOPRED
(http://bioinf.cs.ucl.ac.uk/psipred/?disopred=1),這是綜合評(píng)估單款最優(yōu)的預(yù)測(cè)工具渐溶。
用戶可以在線提交蛋白質(zhì)序列辉浦,執(zhí)行特定的預(yù)測(cè),并可通過郵件接收預(yù)測(cè)結(jié)果茎辐。這樣可以很方便地得到一個(gè)蛋白質(zhì)序列的非結(jié)構(gòu)區(qū)域信息宪郊,能夠?yàn)榈鞍踪|(zhì)特征分析提供更多的信息。工具的使用方法在Help & Tutorials
頁面有詳細(xì)的圖文介紹拖陆。
除了在線分析平臺(tái)弛槐,DISOPRED也有軟件版,供大批量蛋白結(jié)構(gòu)的預(yù)測(cè)(軟件下載地址:http://bioinfadmin.cs.ucl.ac.uk/downloads/DISOPRED/)依啰。一般下載使用最新版DISOPRED3.16.tar.gz
乎串。
如果你的目標(biāo)蛋白正好有這么一段IDRs,可以試試檢測(cè)是否有相變的存在孔飒。如果對(duì)相變不熟灌闺,還是先建議閱讀 2018 Cell系列相變最強(qiáng)綜述艰争,未來已來坏瞄,你在哪?甩卓。
關(guān)于IDRs鸠匀,如果還想了解更多,請(qǐng)繼續(xù)閱讀逾柿。
IDRs的研究歷史
隨著IDRs不斷被發(fā)現(xiàn)缀棍,人們對(duì)其功能有了深入了解宅此。IDRs在調(diào)節(jié)轉(zhuǎn)錄、翻譯爬范、細(xì)胞信號(hào)轉(zhuǎn)導(dǎo)父腕、蛋白質(zhì)磷酸化、小分子存儲(chǔ)青瀑,以及對(duì)大的多蛋白復(fù)合體(如細(xì)菌鞭毛及核糖體)自組裝的調(diào)控等各方面都發(fā)揮著重要作用璧亮。
如我們熟知的DNA結(jié)合轉(zhuǎn)錄因子(TF),其激活結(jié)構(gòu)域(activation domain, AD)中便包含了固有無序化的低復(fù)雜序列結(jié)構(gòu)域斥难,在真核生物基因轉(zhuǎn)錄階段起著至關(guān)重要的作用枝嘶。在真核生物中,大約有三分之一的蛋白已被鑒定包括長度超過30個(gè)殘基的無序區(qū)域哑诊,且有75%的哺乳動(dòng)物信號(hào)蛋白存在無序區(qū)域群扶。
同時(shí)IDRs也是許多疾病相關(guān)的位點(diǎn),由于在編碼無序區(qū)發(fā)生的染色體異位依然能保證折疊結(jié)構(gòu)域的完整性镀裤,從而會(huì)產(chǎn)生功能異常的融合蛋白竞阐,引發(fā)疾病。
可見IDRs是真核生物蛋白質(zhì)組中的重要組成部分暑劝,并在生命體的生長發(fā)育各個(gè)階段起到重要的調(diào)控作用馁菜。對(duì)這類蛋白質(zhì)的結(jié)構(gòu)、功能铃岔、進(jìn)化特征的認(rèn)識(shí)和蛋白無序區(qū)域的預(yù)測(cè)汪疮,有助于我們更深層次地理解無序蛋白質(zhì)的功能及其參與重要生理病理過程的分子機(jī)制。
如果預(yù)測(cè)到這些IDRs的存在毁习,那么就可以對(duì)感興趣的突變和相互作用進(jìn)行建模智嚷,以了解它們?nèi)绾斡绊懙鞍踪|(zhì)結(jié)構(gòu)和相變發(fā)生,并確定哪些結(jié)構(gòu)域可能適合于進(jìn)一步實(shí)驗(yàn)調(diào)查纺且。
<center>1990-2014年盏道,PubMed中關(guān)于固有無序/非折疊蛋白報(bào)道的數(shù)量</center>
<center>(在PubMed中可通過輸入intrinsically disordered
, intrinsically unstructured
, natively unfolded
, intrinsically unfolded and intrinsically flexible
等進(jìn)行搜索)</center>
IDRs預(yù)測(cè)方法
由于固有無序蛋白結(jié)構(gòu)的不穩(wěn)定性,很難通過實(shí)驗(yàn)手段使他們純化結(jié)晶以得到可靠的實(shí)驗(yàn)數(shù)據(jù)载碌,尤其是大規(guī)模地進(jìn)行無序蛋白質(zhì)結(jié)構(gòu)測(cè)定更是十分困難猜嘱。因此,各種IDRs預(yù)測(cè)軟件快速發(fā)展起來嫁艇,并通過每兩年舉辦一次的蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)比賽(critical assessment of structure prediction朗伶,CASP)來評(píng)估各種預(yù)測(cè)軟件的準(zhǔn)確率。從CASP5開始加入了對(duì)無序蛋白質(zhì)的預(yù)測(cè)步咪,目前已經(jīng)舉行到CASP12(2016年)论皆,CASP13(2018年)比賽正在進(jìn)行中(有興趣的小伙伴可查看官網(wǎng)了解比賽:http://predictioncenter.org/casp13/index.cgi)
<center>表1 部分固有無序蛋白預(yù)測(cè)工具展示</center>
這些預(yù)測(cè)方法可分為四大類:
1. Sequence based
依賴人工神經(jīng)網(wǎng)絡(luò) (artificial neural networks,ANNs)、支持向量機(jī)(support vector machines点晴,SVMs)等機(jī)器學(xué)習(xí)方法開發(fā)的算法感凤。
例如1997年Romero等開發(fā)的第一個(gè)無序區(qū)域預(yù)測(cè)的工具PONDR VL-XT
,它是基于PDB
數(shù)據(jù)庫中67個(gè)無序區(qū)域 (1340個(gè)殘基)和一些有序區(qū)域(16 543個(gè)殘基)建立的一種“雙層前饋式神經(jīng)網(wǎng)絡(luò)”粒督,首次表明單純從氨基酸序列可以預(yù)測(cè)無序區(qū)域陪竿。
之后利用計(jì)算技術(shù)開發(fā)了一系列的算法,如PONDR VL3
屠橄、DISOPRED2
萨惑、POODLE-L
等。
第一類算法的缺點(diǎn)是不能很好地揭示潛在的序列性質(zhì)仇矾。
2. clustering
該方法通過使用蛋白一級(jí)序列生成三級(jí)結(jié)構(gòu)模型庸蔼,并將模型彼此疊加以鑒別蛋白高度可變區(qū)域。這個(gè)方法建立在理論上贮匕,認(rèn)為序列的位置在多個(gè)模型中應(yīng)該是保持一定的秩序規(guī)則姐仅,然而變化的殘基可能是無序的。intFOLD
和DISOclust
便是基于此方法的預(yù)測(cè)工具刻盐。
由于聚類方法不依賴于訓(xùn)練數(shù)據(jù)集掏膏,因此這種方法可能不太能顯示關(guān)于無序區(qū)域長度的偏差。
3. template based
與聚類方法類似敦锌,基于蛋白的一級(jí)序列與已知的同源物做比對(duì)馒疹。如PrDOS
就是基于此方法的預(yù)測(cè)工具,同時(shí)也可以基于氨基酸序列做預(yù)測(cè)乙墙。這個(gè)方法認(rèn)為颖变,蛋白內(nèi)在無序區(qū)域在蛋蛋白家族中應(yīng)該是保守的,通過結(jié)合氨基酸序列的預(yù)測(cè)和同源比對(duì)的方法听想,ProDOS
也可劃分到第四種預(yù)測(cè)方式meta-predictor
中腥刹。
4. meta-predictor approaches
基于參考多個(gè)無序預(yù)測(cè)工具的結(jié)果對(duì)蛋白做進(jìn)一步預(yù)測(cè)。使用該方法的一個(gè)例子是metaPRDOS
汉买,該工具整合了八種不同單獨(dú)預(yù)測(cè)方法的結(jié)果衔峰。meta-predictor
可以提高預(yù)測(cè)的準(zhǔn)確性,因其預(yù)測(cè)結(jié)果比較可靠而常將結(jié)果作為數(shù)據(jù)庫填充的來源蛙粘。如MobiDB
數(shù)據(jù)庫垫卤,利用多種無序預(yù)測(cè)手段的結(jié)果,整合了來自PDB
和DisProt
的無序蛋白質(zhì)出牧。MobiDB
數(shù)據(jù)庫中的每種蛋白穴肘,是基于10種無序預(yù)測(cè)方法的結(jié)果和NMR / X
射線數(shù)據(jù)來挑選的。
預(yù)測(cè)工具性能評(píng)估
為了測(cè)試各工具之間的效果差異崔列,Jennifer D. Atkins 等人用已知結(jié)構(gòu)的心肌肌肉LIM蛋白(MLP)進(jìn)行檢驗(yàn)梢褐。已知MLP的中心區(qū)域含長的無序區(qū)域旺遮,且N
-末端和C
-末端都含有一定程度的無序區(qū)域赵讯。
PDB條目2o10(殘基7-66)和2o13(殘基119-176)僅解析了具有部分接頭序列的LIM結(jié)構(gòu)域盈咳。2o10中殘基1-6、72-83和2o13中的殘基179-187也可能是接頭序列边翼,而殘基109-112,136,137,143,156,163和183-184在2o13內(nèi)未被發(fā)現(xiàn)鱼响。這表明這七個(gè)殘基加上位于66位之后的殘基可能是無序區(qū)域而沒有被解析到。此外组底,66和119之間以及176-194之間的區(qū)域可能包含無序區(qū)域丈积。基于此已知條件债鸡,將MLP提交給各預(yù)測(cè)工具江滨,下表便是各個(gè)預(yù)測(cè)工具的預(yù)測(cè)結(jié)果。
<center>表2 利用不同預(yù)測(cè)軟件心肌肌肉LIM蛋白(MLP)無序區(qū)預(yù)測(cè)結(jié)果的比較</center>
從上表中其實(shí)很難確定到底哪個(gè)工具預(yù)測(cè)最準(zhǔn)確厌均,因?yàn)樗械念A(yù)測(cè)結(jié)果都不一樣唬滑,甚至有些軟件的預(yù)測(cè)結(jié)果與其他結(jié)果相差甚遠(yuǎn)。這體現(xiàn)了獨(dú)個(gè)工具分析的局限性棺弊,也說明我們需要同時(shí)使用多個(gè)工具來盡可能清楚地解析給定序列中無序區(qū)域存在的可能性晶密。
有研究者用其他已知結(jié)構(gòu)的蛋白質(zhì)做過類似的比較,得到了相似的效果模她,即不同的預(yù)測(cè)工具間結(jié)果存在不同程度的差異稻艰。基于前人的研究經(jīng)驗(yàn)得出侈净,DISOPRED
似乎是比較可靠的預(yù)測(cè)方法尊勿,其預(yù)測(cè)最接近已知的無序區(qū)域。
我們不應(yīng)單獨(dú)使用某個(gè)預(yù)測(cè)軟件畜侦,每個(gè)工具都有缺點(diǎn)和優(yōu)點(diǎn)运怖。盡管我們不能保證預(yù)測(cè)軟件能100%地為我們提供正確的結(jié)果,但這些結(jié)果確實(shí)為我們提供了IDRs的較精準(zhǔn)估計(jì)夏伊,從而使我們了解到一些無法通過實(shí)驗(yàn)得到的IDRs結(jié)構(gòu)摇展。
由上可知目前對(duì)IDRs的研究還存在諸多難題,由于結(jié)構(gòu)不穩(wěn)定而無法通過實(shí)驗(yàn)手段進(jìn)行可靠的研究溺忧,就算有了眾多的預(yù)測(cè)軟件咏连,但是也存在一定的局限性。機(jī)遇與挑戰(zhàn)并存是生物研究中的常態(tài)鲁森,希望終有一天科學(xué)家們會(huì)揭開生物體內(nèi)這些不同尋常的蛋白域的功能祟滴。如果有精力,開發(fā)這么一款軟件和數(shù)據(jù)庫也會(huì)對(duì)大家很有幫助歌溉。
參考文獻(xiàn)
[1] 馬沖, 楊冬, 姜穎等. 無序蛋白質(zhì)的判定及其結(jié)構(gòu)垄懂、功能和進(jìn)化特征[J]. 生物化學(xué)與生物物理進(jìn)展, 2015, 42(1): 16-24.
[2] Jennifer D. Atkins. Disorder Prediction Methods, Their Applicability to Different Protein Targets and Their Usefulness for Guiding Experimental Studies [J]. Int. J. Mol. Sci. 2015, 16, 19040-19054.
文獻(xiàn)精讀
王秀杰研究組合作發(fā)現(xiàn)m6A修飾在小腦發(fā)育中的新功能 (附2018上半年m6A研究文章和點(diǎn)評(píng))
把人類寶寶和黑猩猩幼崽一起養(yǎng)大展融,會(huì)發(fā)生什么有趣的事情呢窖认?結(jié)局可能是有些出乎意料的~~
更多閱讀
心得體會(huì) 癌癥數(shù)據(jù)庫 Linux Python
高通量分析 在線畫圖 測(cè)序歷史 超級(jí)增強(qiáng)子