文章目錄
第一課 新手上路
第三課 獲取外部數(shù)據(jù)
第四課 表達分析
第五課 使用Agilent Literature Search插件
第六課 GO分析
第七課 模塊和復合物
第八課 整合網(wǎng)絡服務提供的注釋和相互作用網(wǎng)絡
昨天開始學用Cytoscape,其tutorial分為兩個部分沥匈,基礎的和高級 的秦陋〕μ祝基礎教程又分成了四課:Getting Started嵌牺、Filters & Editor、Fetching External Data和Expression Analysis上沐。為防忘記胯努,做個摘記。
第一課 新手上路
地址:http://wiki.cytoscape.org/Presentations/01_Get_Started
Cytoscape可以本地安裝坯苹,也可以web start隆檀。軟件得用java,所以要裝JRE粹湃。我在Ubuntu下裝了OpenJDK恐仑,可以運行。因為以前一直沒把jnlp文件和java關聯(lián)起來为鳄,所 以從沒成功web start過裳仆,試了一下“課文”里給出的鏈接,似乎不太靠譜孤钦,總之是沒法啟動歧斟。
啟動Cytoscape后,得下載兩個樣例文件偏形。以sif為后綴名的是蛋白相互作用網(wǎng)絡信息静袖,里面的蛋白以數(shù)字形式區(qū)別,以na為后綴名的是各數(shù)字id的注釋俊扭,似乎兩者的文件名必須相同才能關聯(lián)起來队橙。
sif文件的打開\導入有兩種方式:File → Import → Network(Multiple File Types)或者直接Ctrol+L,na文件是File → Import → Node Attributes萨惑。Network導入之后有多種顯示風格捐康,2.8版默認風格下,圓圈是各蛋白庸蔼,稱為節(jié)點(node)解总,其間各線為edge,代表相互 作用朱嘴。點中圓圈就選中了一個節(jié)點倾鲫,想要多選粗合,可以采用同時按Shift的方法,也可以先在Select → Mouse Drag Selects設置好選node還是選edge乌昔,然后鼠標拖放隙疚,一選一大片。
此外還可以有目的地選擇磕道。比如可以Select → Nodes → By Name供屉,然后輸入蛋白id,即可選中此節(jié)點溺蕉。大海撈針即告完成伶丐。此操作的快捷鍵是Ctrl+F怎炊。
如果已經(jīng)選中了節(jié)點拒担,還可以Select → Nodes → First neighbors of selected nodes,可將所選蛋白的直接相互作用蛋白選中忱嘹,再選File → New → Network → From selected nodes, all edges漓雅,即將相互作用網(wǎng)絡的一個子網(wǎng)絡剝離出來录别。
Layout菜單的功能比較花哨,是關于相互作用網(wǎng)絡圖的組織原則的邻吞∽樘猓可以亂試一通,一張一張放在ppt里唬人抱冷,呵呵崔列。
一團亂麻般的相互作用網(wǎng)絡圖下是查看節(jié)點或連線所代表的信息的地方,稱為data panel旺遮。按Attributes按鈕會彈出一個小窗口赵讯,可供選擇需要列出的欄目的名字,比如id趣效,或者對應的基因名瘦癌,當然這個基因名信息是從na文件里導入的猪贪。
亂麻左邊的窗口是有多個tab的控制面板跷敬。Network那個tab里可以在導入的 sif里切換。VizMapper tab里可以定制顯示樣式热押,比如圓圈變成方形西傀,或者變大一些,或者換個底色桶癣,連線換個粗細和顏色等等拥褂。如果莫名找不到的話,Cytoscape的菜單欄下 有幾個快捷按鈕牙寞,其中有一個可以打開VizMapper饺鹃。各種樣式設置好之后一定要點Apply莫秆,還可以新建或者另存,便于把所有的網(wǎng)絡打上自創(chuàng)風格的烙 印悔详。
Cytoscape還支持從網(wǎng)上直接導入相互作用網(wǎng)絡镊屎,也是在File → Import → Network (Multiple File Types)一步,選擇remote茄螃,然后輸入url缝驳。從例題來看應該至少兼容SBML格式的。不過lin下代理我還是搞不定归苍,這種“奢侈”的功能姐還是 表癡心妄想了……
第二課 篩選和編輯
地址見:http://wiki.cytoscape.org/Presentations/02_Filter_Edit
首先復習一下用狱,還是以上一課那個sif和na文件。依次導入拼弃、選擇顯示基因名夏伊。課文里說要用到的插件不僅下載地址作廢了,而且似乎并不需要吻氧∈鸷#可能已經(jīng)整合到基本的功能包里了。
現(xiàn)在開始玩玩篩選医男。首先用拖放選一大堆節(jié)點和連線(還是海選)砸狞,然后Select → Use Filters,控制面板里即出現(xiàn)Filters tab镀梭,在此tab中點Options刀森,在彈出的下拉菜單中選Create new filter。
然后開始定義篩選條件报账,比如連線的類型:在Filter Definition里選edge.interaction研底,然后點Add。此時指定了篩選依據(jù)透罢,而具體條件還沒指明榜晦。在Advanced里,輸入 non_core或者core之類的連線類型羽圃,當然Y2H神馬的也行啦乾胶。最后一定要按一下tab左下角的Apply。
此時選中了相互作用類型為non_core的節(jié)點和連線朽寞。之后可以進行多種操作识窿。比如Edit → Delete Selected Nodes/Edges,這樣這些non_core的東西就統(tǒng)統(tǒng)刪除了脑融,剩下你認為更可信的蛋白及其相互作用喻频。
可是還有一些和其他蛋白沒有相互作用的蛋白,我們要把它們找出來肘迎、刪除甥温。很簡單锻煌,如 法炮制,僅僅把相互作用篩選條件換成“*”就行姻蚓,選好后再利用New → Network → From selected nodes, selected edges炼幔,調(diào)整一下layout:Layout → spring-embedded layout,這張圖里只有有相互作用的蛋白史简。不過其實任務還剩個尾巴乃秀,有些蛋白可與自身相互作用,這部分蛋白還在這張圖里圆兵。課文里說可以手動搞定跺讯,不過 不曉得是否有批量處理的辦法。
導入的文件也并不總是完美的殉农,有時需要添加和刪除某些節(jié)點和連線刀脏,此時需要用到控制 面板里的Editor tab。添加節(jié)點的話就在標有“Add a Node”的節(jié)點上點左鍵超凳,然后把節(jié)點拖到右邊的相互作用網(wǎng)絡圖里愈污,在數(shù)據(jù)面板的Node Attribute Browser里可以看到新添的節(jié)點id為node0。在此窗口里點相應欄目轮傍,即可修改其屬性暂雹,比如基因名之類的。
添加連線的話创夜,在Editor tab里點“Directed Edge”杭跪,如法炮制,拖到右邊圖里某個節(jié)點上驰吓,確定相互作用的一方涧尿,然后把另一端拖到某個節(jié)點之上。連線屬性在數(shù)據(jù)面板的Edge Attribute Browser里查看和修改檬贰。
刪除:選中要刪的東西姑廉,然后Edit → Delete Selected Nodes/Edges,此操作的快捷鍵是Del翁涤。
第三課 獲取外部數(shù)據(jù)
地址見:http://wiki.cytoscape.org/Presentations/03_Download_Data
這一課要告訴我們:
a. 從外部服務(比如SGD和BIND)下載Cytocape格式的數(shù)據(jù)桥言;
b. 用cPath插件獲取外部數(shù)據(jù),其中cPath從2.4版以后已經(jīng)整合到Cytoscape核心包里了迷雪。
SGD是酵母的庫限书,Saccharomyces Genome Database,提供physical和genetic相互作用的信息章咧,提供sif格式的下載,地址 在:http://db.yeastgenome.org/cgi-bin/batchDownload能真。下載頁面的說明挺簡單赁严,總之是指定想下的東西再 重定向到另外一個頁面扰柠,然后另存為就行了。
BIND是Biomolecular Interaction Network Database疼约,主要提供蛋白相互作用信息卤档,現(xiàn)在整合到BOND庫里了。下載地址是http://bond.unleashedinformatics.com/程剥,要注冊劝枣,免費。登錄后進入首頁织鲸,搜索目標分子舔腾,搜到的相關信息分成五 類:summary、sequences搂擦、interactions稳诚、complexes和pathways。打開interactions瀑踢,在結果欄的 右上角有導出功能扳还,選擇導出成sif格式即可。
另外還有Pathway Commons庫橱夭,地址是http://www.pathwaycommons.org/氨距。課文也不知道啥時候編的,說建成后會超過BIND庫棘劣,瞧瞧網(wǎng)站 的意思衔蹲,至少上線兩年了,應該已經(jīng)算建成了吧呈础。目前已經(jīng)整合的庫包括:BioGRID舆驶、Cancer Cell Map、HPRD而钞、HumanCyc沙廉、IMID、IntAct臼节、MINT撬陵、NCI / Nature Pathway Interaction Database,具體的說明見Pathguide网缝。說起來Pathguide也是個奇網(wǎng)站巨税,是個介紹全部325個途徑和相互作用相關的數(shù)據(jù)庫的概況的數(shù) 據(jù)庫,相當于目錄或者提要粉臊。從這里你可以找到蛋白-蛋白相互作用草添、代謝途徑、信號傳導途徑扼仲、表達途徑远寸、轉(zhuǎn)錄因子/基因調(diào)控網(wǎng)絡抄淑、蛋白-復合物相互作用、 genetic相互作用網(wǎng)絡驰后、protein sequence focused等等類型的數(shù)據(jù)庫肆资,查看其概況,然后決定去哪個庫搜索信息灶芝。
最后是用cPath插件從CPpath數(shù)據(jù)庫直接獲取數(shù)據(jù)郑原,后者從08開始就不更新了,而且建議用戶使用Pathway commons夜涕。
下載多個源的相互作用網(wǎng)絡文件后犯犁,可以融合成一張圖,需要用到Graph Merge插件钠乏。這個插件可能也整合進核心包了栖秕,疑似Plugins下的Advanced Network Merge。
第四課 表達分析
地址見:http://wiki.cytoscape.org/Presentations/04_Expression_Data
終于開始做正經(jīng)事兒了晓避,先唏噓二點五秒鐘~~
好了唏噓完畢簇捍,開始學習。首先下載三個文件:galFiltered.sif俏拱、galExpData.pvals和galExpData.mrna暑塑。接下來通過操作下載的示例文件來學習:
1. 導入galFiltered.sif,彈出數(shù)據(jù)面板和結果面板锅必,最大化畫布事格,用spring-embedded風格顯示。
2. 文本編輯器打開mrna文件搞隐,可以看到第一行是數(shù)據(jù)標簽驹愚。對應于相互作用網(wǎng)絡圖,第一欄為節(jié)點名稱劣纲,必須和sif文件里的節(jié)點名一模一樣喲逢捺;第二欄是基因 座名,Cytoscape里目前不顯示癞季;后面各欄是表達信息劫瞳。各欄之間用whitespace隔開。這個mrna應該就是芯片直接導出的數(shù)據(jù)的格式吧绷柒?
3. 導入表達信息:Import → Attribute/Expression Matrix...志于,快捷鍵Ctrl+E。導入后废睦,Node Attribute Browser里就能看到這個節(jié)點的表達量了伺绽。
基礎工作就此結束,下面要玩花哨的活兒了。
4. 首先可以根據(jù)表達量高低給節(jié)點上不同的顏色憔恳。在VizMapper里先新建個顯示風格瓤荔,然后雙擊Node color净蚤,選擇按照某類表達量分類钥组,選continuous mapping,然后點開下面那張顏色圖設置閾值和顏色今瀑。別忘了按Apply喲程梦。
下面是一些背景知識。Gal1橘荠、Gal4和Gal80都是酵母轉(zhuǎn)錄因子屿附,在相互作用 網(wǎng)絡里分別對應YBR020W、YPL248C和YML051W哥童。相互作用有兩種類型:protein-protein (pp)和protein-DNA (pd)挺份。表達量信息分別是Gal1、Gal4和Gal80的表達異常情況下的值≈福現(xiàn)在我們要看這三個轉(zhuǎn)錄因子表達異常影響到的基因匀泊。
5. 首先要把pp相互作用除去。用filter和Delete Selected Nodes and Edges朵你。然后用yFiles Organic layout查看剩下的連線各聘。
6. 查看剩下的強烈誘導或抑制的節(jié)點,選擇它們抡医,選擇其直接相鄰節(jié)點躲因,復制到新的相互作用圖里便于查看。然后可以好好看看轉(zhuǎn)錄因子對不同蛋白的表達量的作用了忌傻。
第五課 使用Agilent Literature Search插件
地址見:http://wiki.cytoscape.org/Presentations/05_Literature
進入高級課程了大脉,呵呵。其實就是完成了一半水孩,換個fancy的名字而已镰矿。不過還是挺有效,覺得小有成就感荷愕。
本課中將要學到:
a. 利用Agilent Literature Search從文獻搜索關鍵詞中建立putative分子間聯(lián)系的相互作用網(wǎng)絡衡怀;
b. 研究插件建立的聯(lián)系,刪除自己認為不靠譜的安疗;
c. 利用上下文信息改進搜索抛杨。
需要注意的是隨著文獻的增多,文中提供的提取文獻信息的模型可能會過時荐类。因此需要學會改進搜索怖现。
首先要下載和安裝Agilent Literature Search(ALS)插件。下載jar后放到plugins文件夾,關了重新開Cytoscape就可以了屈嗤。打開Plugins → Agilent Literature Search潘拨,同意協(xié)議,彈出搜索設置框饶号,設置搜索關鍵字铁追、種屬關鍵字、每頁顯示paper數(shù)茫船,Edit下可以設置代理琅束。設置好后按藍色的小三角,結果框 顯示paper海算谈,同時畫布上顯示從文獻信息里構建出來的相互作用網(wǎng)絡涩禀。
文獻搜索和網(wǎng)絡構建的詳細機制是這樣的:首先根據(jù)關鍵詞基于摘要和關鍵詞搜索文獻;然后掃描文章內(nèi)容然眼,不論是否包含搜索關鍵字艾船,都創(chuàng)建一個由putative相互作用構成的網(wǎng)絡。因此有時會看到?jīng)]有指定要搜索的蛋白或者基因高每,除掉它們的話提高匹配的數(shù)量閾值就行了屿岂。
得到初步結果之后,接下來就是做paper民工的活計了觉义。選中圖里的連線雁社,右鍵,選 擇Evidence from Literature晒骇,彈出的小菜單包括Show Sentences from the Literature霉撵、Gather Evidence from the Literature、Extend Network from the Literature還有Highlight Search Terms洪囤。選擇Show Sentences from the Literature徒坡,彈出窗口,里面是創(chuàng)建網(wǎng)絡基于的文獻語句瘤缩。覺得不靠譜的話就右鍵點擊該句子喇完,然后Delete Sentence掉。此句對應的連線的所有句子都刪除掉了剥啤,連線就很知趣地消失了锦溪,兩個節(jié)點也不見了,強大呀~~~
除了以句子為判定單位府怯,還可以以paper為判定單位刻诊。在文獻搜索窗口的 “Query Matches”部分右鍵點擊某篇paper,點“Delete Match”牺丙,該paper對應的連線就全部消失了则涯。如果paper旁邊有一個小的Cytoscape的logo复局,則右鍵菜單里會出現(xiàn) “Highlight Match”一項。它的功能是高亮來自該paper的所有節(jié)點和連線(默認顯示風格下粟判,節(jié)點變黃亿昏,連線變紅)。
最后档礁,如果要保存搜索結果的話角钩,搜索窗口的File菜單下有兩個選項:“Load Search Results”和“Save Search Results”。后面的我就不廢話啦事秀。
接下來是手藝活兒:改進搜索彤断。首先我們來熟悉一下搜索窗口里的各式奇門設置:a. “Extraction Controls”部分的下拉菜單中選野舶,右上角 “Context”框里的關鍵詞會想應改變易迹;b. 每個搜索引擎的匹配數(shù)上限。公共搜索引擎太強大平道,匹配數(shù)上限設太高可能導致返回海量數(shù)據(jù)睹欲,進而導致超大型相互作用網(wǎng)絡,進而導致……死機一屋,所以還是謹慎為 妙窘疮;c. “Extraction Controls”下,“Interaction Lexicon”控制用于判定putative相互作用的動詞的列表冀墨。選“l(fā)imited”則只有句子里包含諸如激活闸衫、甲基化、切割之類的“高置信度”的 動詞時才算作putative相互作用诽嘉;選“relaxed”則范圍放寬蔚出,諸如加入、提高虫腋、誘導之類的也算骄酗;d. View菜單下可選搜索引擎,只有三種:PM悦冀、OMIM和USPTO趋翻;e. “Search Controls”下的“Use Aliases”按鈕,即可使用蛋白的姓名別名曾用名盒蟆,比如p53就成了p53 OR trp53 OR tp53踏烙,這樣搜索結果的完整性可大大提高;f. 輸入關鍵詞历等,一行一個讨惩,超過一個單詞則需用引號括起來;g. “Context”框里不僅可以設置物種(其實刪掉也無妨)募闲,還能指定主題步脓,比如癌癥(cancer)、阿爾茨海默癥等,可讓搜索結果特異性更好靴患。g. 如果你也是個CNS控仍侥,可以在“Query Editor”框里指定:(P53) AND Cancer AND (Science[ta] OR Nature[ta]),這個表達式的意思是搜索發(fā)表在S和N上的帶有P53和Cancer關鍵字(也有可能帶別名的)的paper鸳君。更多高級搜索的語法 見數(shù)據(jù)庫的幫助文件农渊,如我自己常用的PM:http://www.ncbi.nlm.nih.gov/books/NBK3827/#pubmedhelp.Search_Field_Descrip。
所有都設好后按下方的藍三角開始搜索或颊。
在分析相互作用網(wǎng)絡的過程中砸紊,也可以隨時利用文獻搜索。比如右擊某條連 線囱挑,LinkOut → Entrez → Pubmed醉顽,選擇后打開默認瀏覽器,顯示PM搜索結果平挑。課文兒說搜索完成后Edge Attribute瀏覽器里會多出幾個屬性游添,包括:a. HasTSI,代表該相互作用是否有文獻支持通熄;b. NumberOfSources唆涝,代表支持該相互作用的paper的數(shù)目;c. nbrSentences唇辨,代表支持該相互作用的句子的數(shù)目廊酣。此外Cytoscape主程序的Evidence from Literature菜單下選中“Show Sentences from the Literature”后,會彈出窗口赏枚,列出支持該相互作用的句子亡驰,給出此列表的搜索沿用最近一次搜索的設置。不過這兩個結果我都沒做出來嗡贺,可能還是因為 不能連通PM隐解,導致不能初始化搜索所致。
對節(jié)點也能用這個方法搜索诫睬,等效于對連接該節(jié)點的所有連線做搜索煞茫。
第六課 GO分析
地址見:http://wiki.cytoscape.org/Presentations/06_GO
要學習聲名赫赫的BiNGO了,話說我就是因為這插件才開始決心學用Cytoscape的摄凡,小激動一下续徽。
以酵母那個galFiltered.sif為例,Ctrl+L load進來亲澡。接著導入GO信息:File → Import → Ontology and Annotation...钦扭。彈出的窗口里設置annotation和ontology類型,ms是選好之后直連的床绪,不過苦命的姐還是選Browse下的 Browse Local Files吧客情。設定好之后按右下角的Import其弊。
導入GO信息后要對顯示設置做些修改,讓GO信息顯示容易尋找和查看膀斋。點快捷欄最右 邊那個一頁紙上壓著個大螺絲的圖標梭伐,Search on Attribute下把Unique Identifierannotation.GO BIOLOGICAL_PROCESS,當然神馬annotation.GO CELLULAR_COMPONENT之類的也可以啦仰担。最后點右下角的Reindex Network糊识。然后主窗口里紙和螺絲旁邊那個搜索框里搜索的類型就改成了GO BP,還帶關鍵字選項的喲摔蓝。
接下來學習激動人心的GO term富集分析:
1. Select → Nodes → By Name...赂苗。太弱?好吧贮尉,Ctrl+F拌滋。選Gal4吧。
2. Select → Nodes → First Neighbors of Selected Nodes绘盟。太弱鸠真?好吧,Ctrl+6龄毡。
3.New → Network → From selected nodes, all edges。太弱锡垄?好吧沦零,Ctrl+N。
4. 切換到新建的網(wǎng)絡货岭。Select → Nodes → Select all nodes路操。太弱?好吧千贯,Ctrl+Alt+A屯仗,5。
5. Plugins下點開BiNGO搔谴。彈出BiNGO設置窗口魁袜,按照偏好,完成后面的設置:a. 給聚類分析取個名字敦第;b. 勾上“Get Cluster from Network”框峰弹;c. “Select a statistical test”下,選擇“Hypergeometric”芜果,如果數(shù)據(jù)量非常大鞠呈,可以選用“Binomial”,不過一般的處理用Hypergeometric 即可右钾;d. “Select a multiple testing correction”下蚁吝,選用“Benjamini & Hochberg False Discovery Rate (FDR)”旱爆,這種FDR計算方法比Bonferroni較為不保守,不過多數(shù)情況下已經(jīng)夠用窘茁;e. “Choose a significance level”輸入“0.05”疼鸟,此閾值控制計算結果中報告的GO分類的細致程度,0.05并不一定足夠保守庙曙,不過可以根據(jù)結果調(diào)整此閾值空镜;f. “Select the categories to be visualized”下選擇“Overrepresented categories after correction”,這樣結果中就能直接看到富集的分類捌朴,當然選別的也可以吴攒;g. “Select reference set”下,選擇“Test cluster versus complete annotation”砂蔽,即富集計算的比較背景是所有得以GO注釋的基因洼怔;h. “Select ontology”下選擇GO_Biological_Process”,計算GO BP大類下的各分類的富集程度左驾,當然別的也行镣隶,比如我的主要是GO CC啦;i. “Select organism/annotation”下翻啊翻啊翻诡右,翻到樣品所屬的物種安岂;j. 勾上“Check box for saving Data”,點擊“Save BiNGO Data file”按鈕帆吻,選定目的目錄域那,BiNGO會導出一個文本文檔,內(nèi)列出各顯著富集的節(jié)點的p值猜煮,文件名即最開始給聚類分析起的名字次员,后綴名是.bgo。此 外王带,文件里還列出分析時所用參數(shù)和得到富集的GO term淑蔚。
6. 一大堆選完后,點擊“Start BiNGO”愕撰。分析完成后彈出運行報告刹衫,內(nèi)容在bgo文件里也有。還返回一個相互作用網(wǎng)絡盟戏,顯示上一步f下選的那些節(jié)點绪妹。節(jié)點的標簽顯示的是屬于上一步h 下選的GO注釋種類的term。默認顏色分布:富集程度越高則節(jié)點背景越偏橙色柿究,越低則越靠近黃色邮旷。白色節(jié)點表示未被顯著富集,之所以出現(xiàn)在結果中是因為 他們的某個子節(jié)點顯著富集蝇摸。結果中節(jié)點的多少是與提交到分析的節(jié)點的多少成正比的婶肩。
6. Node Attribute瀏覽器下點“Select Attributes”办陷,能看到多了一些屬性,均以聚類名結尾律歼,包括:a. description_test民镜,顯示GO term;b. adjustedPValue_test险毁,multiple hypothesis testing后的p值制圈,后面四個是該testing中要用到的值;c. n_test畔况,此GO term下的節(jié)點的數(shù)目鲸鹦;d. x_test,所選的節(jié)點中此GO term下的節(jié)點數(shù)目跷跪;e. N_test馋嗜,背景基因組中帶有所選類型的GO注釋的節(jié)點的數(shù)目;f. X_test吵瞻,所選的節(jié)點的數(shù)目葛菇。
7. 勾上這些屬性,逐個考察橡羞。
8. 下面可以玩一玩初級視覺游戲眯停。選擇白節(jié)點,或者加上你覺得太黃太暴力的幾個節(jié)點尉姨,然后Select → Nodes → Hide node selection庵朝,這些看著不爽的節(jié)點就知趣地消失了。
9. 當然它們隨時待命又厉,召之即來:Select → Nodes → Show all nodes。
下面玩一個不同類型處理的combo椎瘟。目前的情況是得到了Gal4敲除或沉默或過表 達后得到富集的子相互作用網(wǎng)絡覆致,而該網(wǎng)絡來源于半乳糖利用這條途徑,于是想看看在這些富集的GO term中肺蔚,哪些屬于僅僅涉及半乳糖利用途徑煌妈,又是哪些還特異地與Gal4效應子網(wǎng)絡相關。為區(qū)分這兩類節(jié)點宣羊,首先分出一個子網(wǎng)絡璧诵,然后做BiNGO富集 分析,詳細操作如下:
1. 回到媽媽網(wǎng)絡仇冯,選中Gal4的Ctrl+6之宿。
2. BiNGO設置窗口的“Select Reference Set”選“Test cluster versus network”,當然苛坚,得給這個聚類分析起個新名字比被,就比如test2吧色难。運行BiNGO。
3. 比較新老BiNGO結果網(wǎng)絡等缀。新結果中丟失的term可能僅與半乳糖利用相關枷莉。
4. Node Attribute瀏覽器下點“Select Attributes”,能看到有些屬性變了尺迂,現(xiàn)在有adjustedPValue_test(代表以整個基因組為背景時的富集程度)和 adjustedPValue_test2(代表以整個子網(wǎng)絡為背景時的富集程度)笤妙∠嗍眩可以選中這些屬性韩脏,然后考察各節(jié)點的這兩個屬性的數(shù)值巧勤。
第七課 模塊和復合物
地址見:http://wiki.cytoscape.org/Presentations/07_Complexes
相互作用網(wǎng)絡中的模塊的原理類似程序腳本中的模塊整袁,均以功能為內(nèi)在聯(lián)系孝扛,為簡化相互作用網(wǎng)絡的圖形表示形式鞭铆,可將模塊用一節(jié)點代替蛮位,勉強類似與Python中的模塊腳本吧穷吮。
這一課可以學到的新招包括:
1. 如何鑒定putative復合物严蓖,包括兩種方式:a. 通過網(wǎng)絡connectivity薄嫡;b. 通過connectivity以及共表達;
2. 如何利用表達數(shù)據(jù)鑒定對實驗條件反應顯著的putative模塊或途徑颗胡。
善其事毫深,利其器。需要下載一堆插件:MCODE毒姨、Dynamic Expression plugin哑蔫、jActiveModules、BiNGO弧呐。其中Dynamic Expression plugin和表達數(shù)據(jù)文件連接失效了闸迷。Aging呀aging~~
首先練習用MCODE找復合物成分,原理:內(nèi)部連線多俘枫,是復合物模塊的幾率則大腥沽。詳細過程:
啟動軟件,載入sif鸠蚪,Plugins → MCODE → Start MCODE今阳,彈出MCODE窗口。點擊底部的“Analyze”茅信,想改設置的話點“Advanced Options”盾舌。分析結束,返回結果蘸鲸,包括復合物的節(jié)點和連線組成以及分數(shù)妖谴。顯著的復合物一般分數(shù)較高(>1),且節(jié)點和連線不至于很不靠譜棚贾。點 擊結果即可在畫布里選中相應節(jié)點窖维。然后我們用BiNGO考察這個子網(wǎng)絡中GO注釋富集的情況榆综,以獲得間接證據(jù)支持。顯示GO BP中得到富集的類下的節(jié)點铸史,然后和MCODE分析的節(jié)點交叉比對鼻疮。如果發(fā)現(xiàn)兩者重合程度很高,那么所發(fā)現(xiàn)的復合物為陽性的可信度則提高了琳轿。
剛才那種方法需要相互作用數(shù)據(jù)判沟,除此之外,利用表達數(shù)據(jù)也可以鑒定復合物崭篡,這回是jActiveModules和BiNGO搭檔挪哄。詳細過程:
啟動,載入琉闪。File → Import → Attribute/Expression Matrix...迹炼,這里所載入的表達數(shù)據(jù)里要有significance值。Plugins → jActiveModules → Active Modules: Set Parameters颠毙;選擇要采用的表達數(shù)據(jù)斯入;設置所返回的putative hit的數(shù)目;點“Dismiss”關閉窗口蛀蜜。Plugins → jActiveModules → Active Modules: Find Modules刻两,此時插件開始運行。
結束后彈出Conditions vs. Pathways窗口滴某,其中size表示子網(wǎng)絡/復合物所包含的節(jié)點數(shù)磅摹,score表示可信度分數(shù),紅色表示“significant”霎奢,白色反之户誓。此窗口內(nèi)選中某行,在畫布中即選中了所對應的節(jié)點幕侠。
之后的工作和剛才一樣厅克,可以從子網(wǎng)絡的BiNGO富集分析中得到側面支持。當然也可以用ALS搜paper橙依,看看文獻中是否有類似報道。
下課硕旗,課文讓喝咖啡窗骑。嗯,要聽老師的話~~
第八課 整合網(wǎng)絡服務提供的注釋和相互作用網(wǎng)絡
地址見:http://wiki.cytoscape.org/Presentations/08_Web_Services
最后一課漆枚,內(nèi)容很多创译。包括:
1. 如何從公共數(shù)據(jù)庫導入相互作用網(wǎng)絡;
2. 如何導入注釋和映射ID墙基;
3. 如何融合多個數(shù)據(jù)來源的相互作用網(wǎng)絡软族;
4. 如何將已知的途徑映射到相互作用網(wǎng)絡刷喜。
從其中第三部分開始爛尾,偏偏我對后兩小節(jié)興趣大一些立砸。不管了掖疮,看看總有益,剩下的自己琢磨颗祝。
下面要完成一個大實驗浊闪,總的目的是整合關于PPAR-gamma的所有已知信息。
第一部分:數(shù)據(jù)庫搜索和導入
1. 安裝一堆插件:a. 相互作用網(wǎng)絡/屬性導入客戶端:NCBIClient螺戳、NCBIEntrezGeneUserInterface搁宾、IntActWSClient、 BiomartClient(0.80及以上)倔幼、MiMI盖腿、GPML;b. 數(shù)據(jù)融合:AdvancedNetworkMerge(2.8版中默認裝好)损同;c. 腳本編寫:RubyScriptingEngine翩腐、ScriptingEngineManager;d. 搜索:Enhanced Search揖庄。
2. 第二個熱身運動是增大Java中Permanent部分所分配的內(nèi)存栗菜,編輯cytoscape.sh,找到-Xss5M -Xmx1024M -XX:MaxPermSize=128m蹄梢,其中-XX:MaxPermSize即為要修改處疙筹。如果所載入插件過多,則導致這一部分內(nèi)存溢滿禁炒,則 Cytoscape可能crash掉而咆。默認大小是64 M,128 M應該夠了吧幕袱。
3. 接下來瘋狂導入數(shù)據(jù)中:File → Import → Network from Web Services...暴备,選擇數(shù)據(jù)源“NCBI Entrez EUtilities Web Service Client”,關鍵詞是“pparg AND human[ORGN]”们豌。搜索完畢涯捻,返回網(wǎng)絡,命名望迎,Layout → yFiles → Organic障癌。返回的網(wǎng)絡的數(shù)據(jù)來自NCBI Entrez Gene data set,后者涵蓋了BIND辩尊、BioGRID和HPRD涛浙。哈欠,都是人的……
4. 導入屬性:File → Import → Import Attributes from NCBI Entrez Gene。選中所有屬性轿亮,Key Attribute設為ID疮薇。點擊右下角的“Import”。導入完成后即坐擁多種注釋我注,包括KEGG按咒、GeneRIF、GO仓手、publication神 馬的胖齐。
5. 從Pathway Commons導入已知的通路和相互作用:File → Import → Network from Web Services...,選擇數(shù)據(jù)源“Pathway Commons Web Service Client”嗽冒,輸入關鍵詞呀伙,選擇物種,點“Serach”添坊。導入所有結果剿另,雙擊即可。
6. 從IntAct導入二元相互作用數(shù)據(jù):File → Import → Network from Web Services...贬蛙,選擇數(shù)據(jù)源“IntAct Web Service Client”雨女,輸入關鍵詞“PPARG AND species:human”,點“Serach”阳准。此時僅返回與PPAR-gamma直接發(fā)生相互作用的蛋白/基因氛堕。選擇所有節(jié)點,在其中一個上右擊野蝇, 選擇Use Web Services → IntAct Web Service Cleint → Get neighbours by ID(s)讼稚,得到三跳以內(nèi)的相互作用蛋白/基因。
7. 稍微整理一下所有抓取的網(wǎng)絡:View → Arrange Network Windows → Tiled绕沈。
8. 用高級手段BioRuby導入KEGG途徑锐想。首先要下載一個rb腳本(哪天參考一下,順便改進改進乍狐,提交到BioPython赠摇,wkk)。運行腳 本:Plugins → Scripting Language Consoles → Open Ruby Console打開Ruby控制臺浅蚪。cd進入腳本進入腳本目錄藕帜,搜索:keggapi.bfind("pathway pparg human")。結果返回一大堆話惜傲,取“path:”那幾個字耘戚,比如“path:hsa03320 PPAR signaling pathway”。順藤摸瓜操漠,pathway_id = "path:hsa03320"; source "剛才下的那個腳本"。圖就出來了。還挺簡單浊伙。屬性包括KEGG ID和Entrez Gene ID撞秋。
9. 從WikiPathways(Wiki風格界面的curated的途徑數(shù)據(jù)庫,格式為GPML嚣鄙,Cytoscape兼容)導入已知的通路和相互作 用:File → Import → Network from Web Services...吻贿,選擇數(shù)據(jù)源“WikiPathways Web Service Client”,關鍵詞輸入“pparg”哑子,選擇物種舅列,點“Serach”。導入所有結果卧蜓,雙擊即可帐要。
10. 用ALS從文獻中搜索構建相互作用網(wǎng)絡。方法見前一課課文兒弥奸,在此不贅榨惠。需要注意的是,得到的相互作用網(wǎng)絡不帶有節(jié)點和連線的注釋/ID數(shù)據(jù)集盛霎。如果想添 加注釋赠橙,可以用BioMart網(wǎng)絡服務客戶端獲取。首先愤炸,需要從節(jié)點ID創(chuàng)建一個新的屬性期揪。這里有個小小麻煩,Cytoscape是大小寫敏感的规个,而 ALS結果里的結果ID都是小寫的凤薛,與基因標志的通用格式不同。這樣的話會出現(xiàn)映射不上的問題绰姻,所以要轉(zhuǎn)換一下枉侧。嗯,小case狂芋,聽姐的話榨馁,學 Python去吧,欽此帜矾。
11. 下面從BioMart中導入注釋信息:File → Import → Import Attributes from BioMart...翼虫,數(shù)據(jù)源選擇“ENSEMBL GENES (Homo Sapience)”,“key attribute”選擇“Gene Symbol”屡萤,“Data Type”選“HGNC Symbol”珍剑。選擇想要導入的注釋類型。點“Import”死陆。搞定招拙。
12. 不過BioMart庫有時也不是太全唧瘾,有的蛋白在庫里找不到。這時可以用命令行工具創(chuàng)建ID映射表别凤,操作如下:a. 選中所有節(jié)點饰序;b. Attribute瀏覽器中選擇“EntrezGene ID”和“Gene Symbol”,按前者排序规哪,找到?jīng)]有注釋的節(jié)點求豫,復制之;c. Ruby中創(chuàng)建變量symbols诉稍,賦值為剛才復制的基因標識蝠嘉;d. 輸入命令“query.gsub(/\n/, " OR ")”、“query = "(" + query + ") AND human[ORGN]"”杯巨;e. 創(chuàng)建NCBI EUtilities網(wǎng)絡服務客戶端蚤告,構建搜索,開始搜索舔箭; f. 從結果中提取ID列表罩缴,獲取總結,以表格形式寫入文本文件层扶;g. 利用File → Import → Attribute from table導入表格箫章,即得到的節(jié)點已經(jīng)映射到Entrez Gene ID的文件。
13. 此外還有從MiMI數(shù)據(jù)庫導入相互作用的方法镜会,應該也可以通過插件完成檬寂。
至此第一部分基本完成,下面開始第二部分戳表,基因列表的各種操作桶至,總的目的是從一份基因列表出發(fā),在Cytoscape中看到他們之間的相互作用匾旭。
14. 如果是Entrez Gene ID镣屹,則打開File → Import → Network from Web Service,選擇“NCBI Entrez EUtilities Web Service Client”數(shù)據(jù)源价涝,搜索框里粘帖基因列表女蜈。
15. 導入注釋。
16. 利用Enhanced Search插件選擇多個節(jié)點色瘩∥苯眩基因ID列表粘帖至工具欄的ESP窗口里,點“Enter”居兆,即可選中所輸入的節(jié)點覆山,并查看這些節(jié)點在圖中的位置。
17. 融合相互作用網(wǎng)絡時有時希望標出各節(jié)點的來源泥栖,這一點可以通過添加屬性開始簇宽。在節(jié)點屬性瀏覽器窗口中點擊“String Attribute”勋篓,命名屬性。
18. 回到節(jié)點屬性瀏覽器晦毙,點擊“Batch Attribute Editor”生巡。在“Operation”頁中,選擇“Set”见妒,然后選擇想要設置的屬性名,輸入屬性值甸陌。點擊“Go”须揣。
幾個cookbook recipe。
第一例 獲取某一途徑中的基因列表
1. 打開BioRuby控制臺钱豁,輸入“keggapi.get_genes_by_pathway("path:mmu03320")”耻卡,其中“path:mmu03320”是途徑的KEGG term。返回一系列KEGG的基因ID牲尺。
2. 結果需要除去“mmu:”的前綴卵酪,并把所有id從一個列表連接成一個字符串。用BioRuby的話谤碳,是這么寫:“query = gene_list.join(" ").gsub(/mmu:/, "")”溃卡。
課文最后說BioRuby提供很多KEGG和其他數(shù)據(jù)庫的提取信息的簡單方式,不知Python插件功能怎么樣蜒简?
來源:生物秀