PyMOL可視化蛋白質(zhì)
寫(xiě)在前面的
上次推文介紹了如何用多種方法批量快速下載高通量測(cè)序數(shù)據(jù)伤塌,主要介紹了Aspera的用法和axel用法。這里再額外提一句,Aspera的使用需要足夠的學(xué)習(xí),學(xué)會(huì)如何解決報(bào)錯(cuò)鲸沮,如何解決網(wǎng)絡(luò)協(xié)議問(wèn)題。
這次我再介紹一個(gè)簡(jiǎn)單使用的軟件——PyMOL的使用锅论,昨天晚上讼溺,我的好朋友反饋給我說(shuō)這個(gè)軟件教程密密麻麻一堆,不知道如何下手最易。因?yàn)樗娜蝿?wù)是做蛋白質(zhì)結(jié)構(gòu)的一些分析怒坯,分析過(guò)程中需要用到這個(gè)軟件。PyMOL是可視化蛋白質(zhì)結(jié)果的軟件藻懒,看見(jiàn)這個(gè)命名就知道這個(gè)軟件是基于Python開(kāi)發(fā)的軟件剔猿。我想,很多做蛋白質(zhì)或者是做結(jié)構(gòu)的學(xué)生都會(huì)好奇束析,CNS上面那些高逼格的蛋白質(zhì)結(jié)構(gòu)是怎么畫(huà)出來(lái)的艳馒?其實(shí)就是拿這個(gè)畫(huà)出來(lái)的。話不多說(shuō)员寇,直接上教程弄慰。這個(gè)軟件有windows版本,這次我們直接以windows系統(tǒng)為主體蝶锋,詳細(xì)介紹一下這個(gè)軟件如何用陆爽。該軟件下載網(wǎng)站為https://pymol.org/2/,下載該軟件后是付費(fèi)版本扳缕,如果想要獲取免費(fèi)版本可以用學(xué)生身份下載慌闭。至于如何用學(xué)生身份下載我就不介紹了,畢竟網(wǎng)站自己提供了教程躯舔。下載完學(xué)生版后雙擊軟件是如下界面
PyMOL教程
? ? ? ? 這個(gè)界面是命令行界面驴剔。在左上角輸入命令就可以進(jìn)行相關(guān)操作了。先學(xué)習(xí)最簡(jiǎn)單的使用方法粥庄,如何獲得序列丧失。比如,你自己的手里有一條氨基酸序列(最好是已經(jīng)有人研究過(guò)的惜互,如果沒(méi)有研究過(guò)你需要做從頭建牟级铮或者同源建模,有點(diǎn)錢(qián)做個(gè)冷凍電鏡)训堆。為啥我這里說(shuō)是最好是有人研究過(guò)的描验,因?yàn)橛腥搜芯窟^(guò)這個(gè)蛋白的結(jié)構(gòu)就有最準(zhǔn)確的結(jié)構(gòu)數(shù)據(jù),你可視化的蛋白質(zhì)一定就是這樣的坑鱼,如果你手里的蛋白質(zhì)是沒(méi)有人研究過(guò)的膘流,那么你做從頭建模只有不到30%的準(zhǔn)確性預(yù)測(cè)對(duì)你的結(jié)構(gòu),如果做同源建模你只有大約60%的可能性把你的蛋白質(zhì)部分區(qū)域預(yù)測(cè)準(zhǔn)確,如果你有錢(qián)冷凍電鏡隨便搞睡扬,那我無(wú)話可說(shuō)盟蚣。因?yàn)檫@個(gè)軟件只是一個(gè)可視化軟件,它沒(méi)本事把你的蛋白質(zhì)結(jié)構(gòu)給算出來(lái)卖怜。當(dāng)然如果你的序列實(shí)在是沒(méi)人研究過(guò)屎开,你不妨先放到PDB數(shù)據(jù)庫(kù)比對(duì)比對(duì),把最像的那個(gè)蛋白質(zhì)結(jié)構(gòu)可視化出來(lái)也行马靠。其實(shí)PyMOL有一個(gè)直接爬取PDB數(shù)據(jù)庫(kù)的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)功能奄抽。只要你知道了你的蛋白在PDB數(shù)據(jù)庫(kù)中的ID名稱(chēng)你就可以用這個(gè)軟件下載。我們以Nipah病毒的某個(gè)蛋白復(fù)合物(在PDB數(shù)據(jù)庫(kù)的ID號(hào)為7cel)為例進(jìn)行本次教程
初次下載數(shù)據(jù)輸入
fetch7cel
如果是第二次可視化同樣的蛋白甩鳄,無(wú)需再下載逞度,只需輸入命令load即可
load7cel
如果你不想研究蛋白質(zhì)上的化學(xué)基團(tuán),可以使用命令移除
ascartoon
這樣簡(jiǎn)潔的結(jié)構(gòu)刻畫(huà)出來(lái)了妙啃。由于這是一個(gè)三維視圖档泽,要想選擇一個(gè)最佳的界面需要一些移動(dòng)操作。旋轉(zhuǎn)和縮放是必須要掌握的揖赴。
旋轉(zhuǎn)圖像:對(duì)準(zhǔn)圖像的任意處鼠標(biāo)左鍵然后移動(dòng)鼠標(biāo)馆匿。
縮放圖像:對(duì)準(zhǔn)圖像的任意處鼠標(biāo)右鍵向上移動(dòng)為縮小圖像,向下移動(dòng)為放大圖像燥滑。
移動(dòng)圖像:對(duì)準(zhǔn)圖像的任意處同時(shí)點(diǎn)擊鼠標(biāo)左鍵和中鍵就可以移動(dòng)圖像渐北。
看見(jiàn)這一個(gè)單調(diào)的圖,如果想給圖增加豐富的內(nèi)容就需要更多的操作铭拧。一般情況下赃蛛,我們喜歡明顯地看蛋白質(zhì)的二級(jí)結(jié)構(gòu)如α螺旋,β折疊和無(wú)規(guī)則卷曲搀菩。
#用不同的顏色標(biāo)記蛋白質(zhì)二級(jí)結(jié)構(gòu)呕臂,其中h,s與l+””分別指代α螺旋肪跋,β折疊和無(wú)規(guī)則卷曲诵闭。
colorred,?ss?h;
coloryellow,?ss?s;
colorgreen,?ss?l+””
另外,如果還想額外給氨基酸序列的某個(gè)motif做上顏色標(biāo)記澎嚣,可以采用如下方法
以上這幾種功能是相對(duì)最常用的功能。再調(diào)整好最佳視角后就可以保存輸出
最后成果如下
總結(jié)
掌握一個(gè)成熟的可視化軟件相對(duì)簡(jiǎn)單辞友,學(xué)會(huì)如何下載吩抓,調(diào)整蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)即可捆姜。另外對(duì)于今天小明師兄做的線上線下討論,非常有意思晤郑。限于篇幅問(wèn)題,我就把前面的個(gè)別問(wèn)題再總結(jié)一下:1.對(duì)于reads的測(cè)序長(zhǎng)度問(wèn)題:不同的平臺(tái)測(cè)的reads長(zhǎng)度不一樣,短的有50bp長(zhǎng)的也有150,200bp造寝。選擇多長(zhǎng)的測(cè)序長(zhǎng)度也是看測(cè)序目的磕洪,如果是無(wú)參考基因組那么選擇長(zhǎng)的reads可以保證組裝與mapping的唯一性。2.轉(zhuǎn)錄組測(cè)序與基因芯片相比诫龙,轉(zhuǎn)錄組測(cè)序可以相對(duì)更好地定量析显,但是基因芯片只能較好反映中等表達(dá)的基因,對(duì)于高表達(dá)基因和低表達(dá)基因都會(huì)因?yàn)樵胍襞c背景值問(wèn)題無(wú)法客觀反映签赃。3.對(duì)于轉(zhuǎn)錄組測(cè)序的移除rRNA問(wèn)題谷异,由于原核生物,病毒的mRNA無(wú)ployA锦聊,所以對(duì)于這兩種生物的測(cè)序(病毒是測(cè)感染宿主后)都是通過(guò)移除rRNA策略完成歹嘹。4.對(duì)于鏈特異性測(cè)序,雖然討論也沒(méi)有討論出一個(gè)最出色的結(jié)果孔庭,但是如果遇到了這種測(cè)序數(shù)據(jù)需要分析尺上,在組裝或者定量的軟件中都有對(duì)應(yīng)的參數(shù)選擇是否是鏈特異性測(cè)序。5.對(duì)于是先打斷再測(cè)序還是先逆轉(zhuǎn)錄再測(cè)序的問(wèn)題圆到,這個(gè)不是一定的怎抛,如果目標(biāo)是定量,那么選擇先逆轉(zhuǎn)錄再測(cè)序較好构资,因?yàn)樗谢蚨茧S機(jī)丟失抽诉,互相抵消相對(duì)差異沒(méi)有變。如果是要挖掘新的基因結(jié)構(gòu)吐绵,選擇先打斷再測(cè)序比較好迹淌,這樣可以將gene body較好地反映出。6.對(duì)于Base calling的質(zhì)量計(jì)算己单,有相應(yīng)的數(shù)學(xué)模型如Q30,Q20.這些都是根據(jù)Q=-10logP計(jì)算的唉窃,P是堿基的測(cè)序錯(cuò)誤率。6.對(duì)于序列比對(duì)的算法問(wèn)題纹笼,這里涉及較多數(shù)學(xué)模型纹份,對(duì)于動(dòng)態(tài)規(guī)劃算法,依賴(lài)于打分機(jī)制廷痘,這是一個(gè)較容易理解的算法蔓涧。通過(guò)動(dòng)態(tài)規(guī)劃制成得分表后需要回溯,從而找到序列比對(duì)的結(jié)果笋额。對(duì)于BWT算法元暴,這是一種通過(guò)前綴樹(shù)實(shí)現(xiàn)的算法,通過(guò)找出S序列的所有前綴兄猩,對(duì)前綴進(jìn)行翻轉(zhuǎn)茉盏,按照字典進(jìn)行排序鉴未。排序完成后進(jìn)行模式匹配。這是我在聽(tīng)完小明師兄的課后進(jìn)行的一個(gè)簡(jiǎn)單總結(jié)鸠姨。向小明師兄學(xué)習(xí)铜秆!
作者信息
熊東彥,中國(guó)科學(xué)院武漢病毒研究所在讀研究生讶迁。擅長(zhǎng)方向:轉(zhuǎn)錄組分析连茧,宏基因組分析,R語(yǔ)言編程添瓷、Perl語(yǔ)言編程梅屉。近期推文:生物信息學(xué)分析使用小技巧。
參考
https://pymol.org/2/
寫(xiě)在文末
感謝各位小伙伴對(duì)本文的閱讀和喜愛(ài)哦鳞贷,更多精彩文章請(qǐng)關(guān)注微信公眾號(hào)universebiologygirl坯汤,期待您的加入。關(guān)于學(xué)術(shù)研究或相關(guān)問(wèn)題均可在下方評(píng)論區(qū)留言搀愧,小編會(huì)及時(shí)回復(fù)并解答的惰聂。此外,本文為一手原創(chuàng)咱筛,杜絕轉(zhuǎn)載或其他商用搓幌,謝謝配合。