蛋白質(zhì)互作網(wǎng)絡(luò)(PPI)
蛋白質(zhì)互作網(wǎng)絡(luò)(Protein-Protein Interaction Networks瑞妇,PPI)是由蛋白通過彼此之間的相互作用構(gòu)成,來參與生物信號傳遞娇掏、基因表達調(diào)節(jié)、能量和物質(zhì)代謝及細胞周期調(diào)控等生命過程的各個環(huán)節(jié)勋眯。系統(tǒng)分析大量蛋白在生物系統(tǒng)中的相互作用關(guān)系婴梧,對了解生物系統(tǒng)中蛋白質(zhì)的工作原理,了解疾病等特殊生理狀態(tài)下生物信號和能量物質(zhì)代謝的反應(yīng)機制客蹋,以及了解蛋白之間的功能聯(lián)系都有重要意義塞蹭。
STRING數(shù)據(jù)庫介紹
STRING數(shù)據(jù)庫是一個搜索已知蛋白質(zhì)之間和預(yù)測蛋白質(zhì)之間相互作用的數(shù)據(jù)庫,該數(shù)據(jù)庫可應(yīng)用于2031個物種讶坯,包含960萬種蛋白和1380萬中蛋白質(zhì)之間的相互作用番电。它除了包含有實驗數(shù)據(jù)、從PubMed摘要中文本挖掘的結(jié)果和綜合其他數(shù)據(jù)庫數(shù)據(jù)外辆琅,還有利用生物信息學(xué)的方法預(yù)測的結(jié)果漱办。
研究蛋白之間的相互作用網(wǎng)絡(luò),有助于挖掘核心的調(diào)控基因婉烟,目前已經(jīng)有很多的蛋白質(zhì)相互作用的數(shù)據(jù)庫娩井,而STRING是其中覆蓋的物種最多,相互作用信息最大的一個似袁。目前最新版本為2019年1月19日發(fā)布的String 11.0洞辣。
STRING 使用彈簧模型來生成網(wǎng)絡(luò)圖像咐刨。節(jié)點被模擬為彈簧的質(zhì)量和連線;通過最小化系統(tǒng)的“能量”來計算圖像中節(jié)點的最終位置扬霜。首先定鸟,圖中連線的兩個節(jié)點間的物理距離沒有意義。其次著瓶,雖然算法是確定的联予,但是新的節(jié)點添加到網(wǎng)絡(luò)會導(dǎo)致新圖像中節(jié)點位置完全改變。
STRING網(wǎng)站的使用
(1)界面是這樣的
如果我們輸入的是單個蛋白質(zhì)名稱蟹但,數(shù)據(jù)庫將會輸出與該蛋白質(zhì)互作的所有蛋白質(zhì)的互作圖躯泰;如果我們一次輸入多個蛋白質(zhì)名稱或者序列,數(shù)據(jù)庫將只輸出輸入蛋白質(zhì)之間的互作網(wǎng)絡(luò)圖华糖。
例如:輸入單個基因名稱:mxt (Drosophila melanogaster)
點擊節(jié)點和連線會給出蛋白質(zhì)詳情和證據(jù)詳情麦向。
(2)節(jié)點和邊
(3)選項
String 11.0
Legend
節(jié)點和邊的樣式和含義
Settings
「meaning of network edges」:1)證據(jù):其中顏色表示交互證據(jù)的類型;2)置信線厚度表示數(shù)據(jù)支持的強度客叉;3)分子作用線形狀表示預(yù)測的作用模式诵竭。
「active interaction sources」:可以選擇哪種類型的證據(jù)將有助于預(yù)測分數(shù)。
「minimum required interaction score」:將置信度得分設(shè)置為閾值兼搏,使得只有大于該分的關(guān)系才包括在蛋白網(wǎng)絡(luò)中卵慰。較低的分數(shù)意味著更多的互動,更多的假陽性佛呻。
「network display mode」:1)靜態(tài)圖像:圖像是一個簡單位圖圖像裳朋;2)交互式 svg:圖像是一個可擴展的矢量圖形;3)交互式閃存:蛋白網(wǎng)絡(luò)顯示在 Flash 程序中吓著,可實現(xiàn)更多功能(如鲤嫡,聚類)。
Analysis
給出了蛋白網(wǎng)絡(luò)的簡要統(tǒng)計绑莺,如節(jié)點數(shù)和邊數(shù)暖眼。平均節(jié)點度是蛋白質(zhì)在網(wǎng)絡(luò)中平均有多少相互作用。聚類系數(shù)是網(wǎng)絡(luò)節(jié)點連接的度量纺裁。在Analysis可對網(wǎng)絡(luò)進行功能富集诫肠,包括Biological Process (GO)、Molecular Function
(GO)欺缘、Cellular Component (GO)栋豫、KEGG Pathways與Reactome
Pathways等。
Exports
可導(dǎo)出PNG和SVG格式的網(wǎng)絡(luò)圖谚殊。如果想自己用Cytoscape調(diào)笼才,也可以將蛋白網(wǎng)絡(luò)導(dǎo)出為TSV,可以用Excel打開络凿,其中包括節(jié)點信息骡送、node1_string_internal_id與combined_score等諸多信息。
位圖:PNG 文件格式的網(wǎng)絡(luò)圖像絮记。
高分辨率位圖:PNG格式的圖像摔踱,分辨率為400 dpi。
矢量圖形:可以在Illustrator怨愤、CorelDraw派敷、Dia等中打開和編輯的SVG格式圖像。
表格文本: TSV 格式的數(shù)據(jù)撰洗±河洌可以在 Excel 中打開。(…as simple tabular text output)
XML 摘要:結(jié)構(gòu)化XML格式的數(shù)據(jù)差导。
網(wǎng)絡(luò)坐標:描述網(wǎng)絡(luò)中節(jié)點坐標和顏色的平面文件格式试躏。
蛋白質(zhì)序列 - MFA:多基因格式,含有網(wǎng)絡(luò)中的氨基酸序列设褐。
蛋白質(zhì)注釋:制表符分隔的文件颠蕴,描述網(wǎng)絡(luò)蛋白質(zhì)的名稱,結(jié)構(gòu)域和功能助析。
Clusters
將PPI網(wǎng)絡(luò)進行聚類犀被。蛋白通過聚類形成不同顏色的成簇分布的蛋白互作網(wǎng)絡(luò)圖。
More/Less
點擊上圖More可以得到更復(fù)雜的網(wǎng)絡(luò)外冀,同理點擊Less會使網(wǎng)絡(luò)節(jié)點減少寡键。
(4)STRING得到的TSV文件,導(dǎo)入Cytoscape:Import Networks from File System