轉(zhuǎn)自:https://www.plob.org/article/6289.html
昨天開始學(xué)用Cytoscape延曙,其tutorial分為兩個(gè)部分豌鹤,基礎(chǔ)的和高級(jí) 的≈Φ蓿基礎(chǔ)教程又分成了四課:Getting Started布疙、Filters & Editor、Fetching External Data和Expression Analysis愿卸。為防忘記灵临,做個(gè)摘記。
第一課 新手上路
地址:http://wiki.cytoscape.org/Presentations/01_Get_Started
Cytoscape可以本地安裝趴荸,也可以web start儒溉。軟件得用java,所以要裝JRE发钝。我在Ubuntu下裝了OpenJDK顿涣,可以運(yùn)行。因?yàn)橐郧耙恢睕](méi)把jnlp文件和java關(guān)聯(lián)起來(lái)酝豪,所 以從沒(méi)成功web start過(guò)涛碑,試了一下“課文”里給出的鏈接,似乎不太靠譜孵淘,總之是沒(méi)法啟動(dòng)蒲障。
啟動(dòng)Cytoscape后,得下載兩個(gè)樣例文件瘫证。以sif為后綴名的是蛋白相互作用網(wǎng)絡(luò)信息揉阎,里面的蛋白以數(shù)字形式區(qū)別,以na為后綴名的是各數(shù)字id的注釋背捌,似乎兩者的文件名必須相同才能關(guān)聯(lián)起來(lái)毙籽。
sif文件的打開\導(dǎo)入有兩種方式:File → Import → Network(Multiple File Types)或者直接Ctrol+L,na文件是File → Import → Node Attributes毡庆。Network導(dǎo)入之后有多種顯示風(fēng)格坑赡,2.8版默認(rèn)風(fēng)格下巡扇,圓圈是各蛋白,稱為節(jié)點(diǎn)(node)垮衷,其間各線為edge,代表相互 作用乖坠。點(diǎn)中圓圈就選中了一個(gè)節(jié)點(diǎn)搀突,想要多選,可以采用同時(shí)按Shift的方法熊泵,也可以先在Select → Mouse Drag Selects設(shè)置好選node還是選edge仰迁,然后鼠標(biāo)拖放,一選一大片顽分。
此外還可以有目的地選擇徐许。比如可以Select → Nodes → By Name,然后輸入蛋白id卒蘸,即可選中此節(jié)點(diǎn)雌隅。大海撈針即告完成。此操作的快捷鍵是Ctrl+F缸沃。
如果已經(jīng)選中了節(jié)點(diǎn)恰起,還可以Select → Nodes → First neighbors of selected nodes,可將所選蛋白的直接相互作用蛋白選中趾牧,再選File → New → Network → From selected nodes, all edges检盼,即將相互作用網(wǎng)絡(luò)的一個(gè)子網(wǎng)絡(luò)剝離出來(lái)。
Layout菜單的功能比較花哨翘单,是關(guān)于相互作用網(wǎng)絡(luò)圖的組織原則的吨枉。可以亂試一通哄芜,一張一張放在ppt里唬人貌亭,呵呵。
一團(tuán)亂麻般的相互作用網(wǎng)絡(luò)圖下是查看節(jié)點(diǎn)或連線所代表的信息的地方忠烛,稱為data panel属提。按Attributes按鈕會(huì)彈出一個(gè)小窗口,可供選擇需要列出的欄目的名字美尸,比如id冤议,或者對(duì)應(yīng)的基因名,當(dāng)然這個(gè)基因名信息是從na文件里導(dǎo)入的师坎。
亂麻左邊的窗口是有多個(gè)tab的控制面板恕酸。Network那個(gè)tab里可以在導(dǎo)入的 sif里切換。VizMapper tab里可以定制顯示樣式胯陋,比如圓圈變成方形蕊温,或者變大一些袱箱,或者換個(gè)底色,連線換個(gè)粗細(xì)和顏色等等义矛。如果莫名找不到的話发笔,Cytoscape的菜單欄下 有幾個(gè)快捷按鈕,其中有一個(gè)可以打開VizMapper凉翻。各種樣式設(shè)置好之后一定要點(diǎn)Apply了讨,還可以新建或者另存,便于把所有的網(wǎng)絡(luò)打上自創(chuàng)風(fēng)格的烙 印制轰。
Cytoscape還支持從網(wǎng)上直接導(dǎo)入相互作用網(wǎng)絡(luò)前计,也是在File → Import → Network (Multiple File Types)一步,選擇remote垃杖,然后輸入url男杈。從例題來(lái)看應(yīng)該至少兼容SBML格式的。不過(guò)lin下代理我還是搞不定调俘,這種“奢侈”的功能姐還是 表癡心妄想了……
第二課 篩選和編輯
地址見:http://wiki.cytoscape.org/Presentations/02_Filter_Edit
首先復(fù)習(xí)一下伶棒,還是以上一課那個(gè)sif和na文件。依次導(dǎo)入脉漏、選擇顯示基因名苞冯。課文里說(shuō)要用到的插件不僅下載地址作廢了,而且似乎并不需要侧巨【顺可能已經(jīng)整合到基本的功能包里了。
現(xiàn)在開始玩玩篩選司忱。首先用拖放選一大堆節(jié)點(diǎn)和連線(還是海選)皇忿,然后Select → Use Filters,控制面板里即出現(xiàn)Filters tab坦仍,在此tab中點(diǎn)Options鳍烁,在彈出的下拉菜單中選Create new filter。
然后開始定義篩選條件繁扎,比如連線的類型:在Filter Definition里選edge.interaction幔荒,然后點(diǎn)Add。此時(shí)指定了篩選依據(jù)梳玫,而具體條件還沒(méi)指明爹梁。在Advanced里,輸入 non_core或者core之類的連線類型提澎,當(dāng)然Y2H神馬的也行啦姚垃。最后一定要按一下tab左下角的Apply。
此時(shí)選中了相互作用類型為non_core的節(jié)點(diǎn)和連線盼忌。之后可以進(jìn)行多種操作积糯。比如Edit → Delete Selected Nodes/Edges掂墓,這樣這些non_core的東西就統(tǒng)統(tǒng)刪除了,剩下你認(rèn)為更可信的蛋白及其相互作用看成。
可是還有一些和其他蛋白沒(méi)有相互作用的蛋白君编,我們要把它們找出來(lái)、刪除川慌。很簡(jiǎn)單啦粹,如 法炮制,僅僅把相互作用篩選條件換成“*”就行窘游,選好后再利用New → Network → From selected nodes, selected edges,調(diào)整一下layout:Layout → spring-embedded layout跳纳,這張圖里只有有相互作用的蛋白忍饰。不過(guò)其實(shí)任務(wù)還剩個(gè)尾巴,有些蛋白可與自身相互作用寺庄,這部分蛋白還在這張圖里艾蓝。課文里說(shuō)可以手動(dòng)搞定,不過(guò) 不曉得是否有批量處理的辦法斗塘。
導(dǎo)入的文件也并不總是完美的赢织,有時(shí)需要添加和刪除某些節(jié)點(diǎn)和連線,此時(shí)需要用到控制 面板里的Editor tab馍盟。添加節(jié)點(diǎn)的話就在標(biāo)有“Add a Node”的節(jié)點(diǎn)上點(diǎn)左鍵于置,然后把節(jié)點(diǎn)拖到右邊的相互作用網(wǎng)絡(luò)圖里,在數(shù)據(jù)面板的Node Attribute Browser里可以看到新添的節(jié)點(diǎn)id為node0贞岭。在此窗口里點(diǎn)相應(yīng)欄目八毯,即可修改其屬性,比如基因名之類的瞄桨。
添加連線的話话速,在Editor tab里點(diǎn)“Directed Edge”,如法炮制芯侥,拖到右邊圖里某個(gè)節(jié)點(diǎn)上泊交,確定相互作用的一方,然后把另一端拖到某個(gè)節(jié)點(diǎn)之上柱查。連線屬性在數(shù)據(jù)面板的Edge Attribute Browser里查看和修改廓俭。
刪除:選中要?jiǎng)h的東西,然后Edit → Delete Selected Nodes/Edges物赶,此操作的快捷鍵是Del白指。
第三課 獲取外部數(shù)據(jù)
地址見:http://wiki.cytoscape.org/Presentations/03_Download_Data
這一課要告訴我們:
a. 從外部服務(wù)(比如SGD和BIND)下載Cytocape格式的數(shù)據(jù);
b. 用cPath插件獲取外部數(shù)據(jù)酵紫,其中cPath從2.4版以后已經(jīng)整合到Cytoscape核心包里了告嘲。
SGD是酵母的庫(kù)错维,Saccharomyces Genome Database,提供physical和genetic相互作用的信息橄唬,提供sif格式的下載隙券,地址 在:http://db.yeastgenome.org/cgi-bin/batchDownload蚪缀。下載頁(yè)面的說(shuō)明挺簡(jiǎn)單,總之是指定想下的東西再 重定向到另外一個(gè)頁(yè)面,然后另存為就行了粥惧。
BIND是Biomolecular Interaction Network Database,主要提供蛋白相互作用信息迅矛,現(xiàn)在整合到BOND庫(kù)里了型宝。下載地址是 http://bond.unleashedinformatics.com/,要注冊(cè)捂襟,免費(fèi)咬腕。登錄后進(jìn)入首頁(yè),搜索目標(biāo)分子葬荷,搜到的相關(guān)信息分成五 類:summary涨共、sequences、interactions宠漩、complexes和pathways举反。打開interactions,在結(jié)果欄的 右上角有導(dǎo)出功能扒吁,選擇導(dǎo)出成sif格式即可火鼻。
另外還有Pathway Commons庫(kù),地址是http://www.pathwaycommons.org/雕崩。課文也不知道啥時(shí)候編的凝危,說(shuō)建成后會(huì)超過(guò)BIND庫(kù),瞧瞧網(wǎng)站 的意思晨逝,至少上線兩年了蛾默,應(yīng)該已經(jīng)算建成了吧。目前已經(jīng)整合的庫(kù)包括:BioGRID捉貌、Cancer Cell Map支鸡、HPRD、HumanCyc趁窃、IMID牧挣、IntAct、MINT醒陆、NCI / Nature Pathway Interaction Database瀑构,具體的說(shuō)明見Pathguide。說(shuō)起來(lái)Pathguide也是個(gè)奇網(wǎng)站刨摩,是個(gè)介紹全部325個(gè)途徑和相互作用相關(guān)的數(shù)據(jù)庫(kù)的概況的數(shù) 據(jù)庫(kù)寺晌,相當(dāng)于目錄或者提要世吨。從這里你可以找到蛋白-蛋白相互作用、代謝途徑呻征、信號(hào)傳導(dǎo)途徑耘婚、表達(dá)途徑、轉(zhuǎn)錄因子/基因調(diào)控網(wǎng)絡(luò)陆赋、蛋白-復(fù)合物相互作用沐祷、 genetic相互作用網(wǎng)絡(luò)、protein sequence focused等等類型的數(shù)據(jù)庫(kù)攒岛,查看其概況赖临,然后決定去哪個(gè)庫(kù)搜索信息。
最后是用cPath插件從CPpath數(shù)據(jù)庫(kù)直接獲取數(shù)據(jù)灾锯,后者從08開始就不更新了思杯,而且建議用戶使用Pathway commons。
下載多個(gè)源的相互作用網(wǎng)絡(luò)文件后挠进,可以融合成一張圖,需要用到Graph Merge插件誊册。這個(gè)插件可能也整合進(jìn)核心包了领突,疑似Plugins下的Advanced Network Merge。
第四課 表達(dá)分析
地址見:http://wiki.cytoscape.org/Presentations/04_Expression_Data
終于開始做正經(jīng)事兒了案怯,先唏噓二點(diǎn)五秒鐘~~
好了唏噓完畢君旦,開始學(xué)習(xí)。首先下載三個(gè)文件:galFiltered.sif嘲碱、galExpData.pvals和galExpData.mrna金砍。接下來(lái)通過(guò)操作下載的示例文件來(lái)學(xué)習(xí):
1. 導(dǎo)入galFiltered.sif,彈出數(shù)據(jù)面板和結(jié)果面板麦锯,最大化畫布恕稠,用spring-embedded風(fēng)格顯示。
2. 文本編輯器打開mrna文件扶欣,可以看到第一行是數(shù)據(jù)標(biāo)簽鹅巍。對(duì)應(yīng)于相互作用網(wǎng)絡(luò)圖,第一欄為節(jié)點(diǎn)名稱料祠,必須和sif文件里的節(jié)點(diǎn)名一模一樣喲骆捧;第二欄是基因 座名,Cytoscape里目前不顯示髓绽;后面各欄是表達(dá)信息敛苇。各欄之間用whitespace隔開。這個(gè)mrna應(yīng)該就是芯片直接導(dǎo)出的數(shù)據(jù)的格式吧顺呕?
3. 導(dǎo)入表達(dá)信息:Import → Attribute/Expression Matrix...枫攀,快捷鍵Ctrl+E括饶。導(dǎo)入后,Node Attribute Browser里就能看到這個(gè)節(jié)點(diǎn)的表達(dá)量了脓豪。
基礎(chǔ)工作就此結(jié)束巷帝,下面要玩花哨的活兒了。
4. 首先可以根據(jù)表達(dá)量高低給節(jié)點(diǎn)上不同的顏色扫夜。在VizMapper里先新建個(gè)顯示風(fēng)格楞泼,然后雙擊Node color,選擇按照某類表達(dá)量分類笤闯,選continuous mapping堕阔,然后點(diǎn)開下面那張顏色圖設(shè)置閾值和顏色。別忘了按Apply喲颗味。
下面是一些背景知識(shí)超陆。Gal1、Gal4和Gal80都是酵母轉(zhuǎn)錄因子浦马,在相互作用 網(wǎng)絡(luò)里分別對(duì)應(yīng)YBR020W时呀、YPL248C和YML051W。相互作用有兩種類型:protein-protein (pp)和protein-DNA (pd)晶默。表達(dá)量信息分別是Gal1谨娜、Gal4和Gal80的表達(dá)異常情況下的值。現(xiàn)在我們要看這三個(gè)轉(zhuǎn)錄因子表達(dá)異常影響到的基因磺陡。
5. 首先要把pp相互作用除去趴梢。用filter和Delete Selected Nodes and Edges。然后用yFiles Organic layout查看剩下的連線币他。
6. 查看剩下的強(qiáng)烈誘導(dǎo)或抑制的節(jié)點(diǎn)坞靶,選擇它們,選擇其直接相鄰節(jié)點(diǎn)蝴悉,復(fù)制到新的相互作用圖里便于查看彰阴。然后可以好好看看轉(zhuǎn)錄因子對(duì)不同蛋白的表達(dá)量的作用了。
第五課 使用Agilent Literature Search插件
地址見:http://wiki.cytoscape.org/Presentations/05_Literature
進(jìn)入高級(jí)課程了拍冠,呵呵硝枉。其實(shí)就是完成了一半,換個(gè)fancy的名字而已倦微。不過(guò)還是挺有效妻味,覺(jué)得小有成就感。
本課中將要學(xué)到:
a. 利用Agilent Literature Search從文獻(xiàn)搜索關(guān)鍵詞中建立putative分子間聯(lián)系的相互作用網(wǎng)絡(luò)欣福;
b. 研究插件建立的聯(lián)系责球,刪除自己認(rèn)為不靠譜的;
c. 利用上下文信息改進(jìn)搜索。
需要注意的是隨著文獻(xiàn)的增多雏逾,文中提供的提取文獻(xiàn)信息的模型可能會(huì)過(guò)時(shí)嘉裤。因此需要學(xué)會(huì)改進(jìn)搜索。
首先要下載和安裝Agilent Literature Search(ALS)插件栖博。下載jar后放到plugins文件夾屑宠,關(guān)了重新開Cytoscape就可以了。打開Plugins → Agilent Literature Search仇让,同意協(xié)議典奉,彈出搜索設(shè)置框,設(shè)置搜索關(guān)鍵字丧叽、種屬關(guān)鍵字卫玖、每頁(yè)顯示paper數(shù),Edit下可以設(shè)置代理踊淳。設(shè)置好后按藍(lán)色的小三角假瞬,結(jié)果框 顯示paper海,同時(shí)畫布上顯示從文獻(xiàn)信息里構(gòu)建出來(lái)的相互作用網(wǎng)絡(luò)迂尝。
文獻(xiàn)搜索和網(wǎng)絡(luò)構(gòu)建的詳細(xì)機(jī)制是這樣的:首先根據(jù)關(guān)鍵詞基于摘要和關(guān)鍵詞搜索文獻(xiàn)脱茉;然后掃描文章內(nèi)容,不論是否包含搜索關(guān)鍵字垄开,都創(chuàng)建一個(gè)由putative相互作用構(gòu)成的網(wǎng)絡(luò)琴许。因此有時(shí)會(huì)看到?jīng)]有指定要搜索的蛋白或者基因,除掉它們的話提高匹配的數(shù)量閾值就行了说榆。
得到初步結(jié)果之后,接下來(lái)就是做paper民工的活計(jì)了寸认。選中圖里的連線签财,右鍵,選 擇Evidence from Literature偏塞,彈出的小菜單包括Show Sentences from the Literature唱蒸、Gather Evidence from the Literature、Extend Network from the Literature還有Highlight Search Terms灸叼。選擇Show Sentences from the Literature神汹,彈出窗口,里面是創(chuàng)建網(wǎng)絡(luò)基于的文獻(xiàn)語(yǔ)句古今。覺(jué)得不靠譜的話就右鍵點(diǎn)擊該句子屁魏,然后Delete Sentence掉。此句對(duì)應(yīng)的連線的所有句子都刪除掉了捉腥,連線就很知趣地消失了氓拼,兩個(gè)節(jié)點(diǎn)也不見了,強(qiáng)大呀~~~
除了以句子為判定單位,還可以以paper為判定單位桃漾。在文獻(xiàn)搜索窗口的 “Query Matches”部分右鍵點(diǎn)擊某篇paper坏匪,點(diǎn)“Delete Match”,該paper對(duì)應(yīng)的連線就全部消失了撬统。如果paper旁邊有一個(gè)小的Cytoscape的logo适滓,則右鍵菜單里會(huì)出現(xiàn) “Highlight Match”一項(xiàng)。它的功能是高亮來(lái)自該paper的所有節(jié)點(diǎn)和連線(默認(rèn)顯示風(fēng)格下恋追,節(jié)點(diǎn)變黃凭迹,連線變紅)。
最后几于,如果要保存搜索結(jié)果的話蕊苗,搜索窗口的File菜單下有兩個(gè)選項(xiàng):“Load Search Results”和“Save Search Results”。后面的我就不廢話啦沿彭。
接下來(lái)是手藝活兒:改進(jìn)搜索朽砰。首先我們來(lái)熟悉一下搜索窗口里的各式奇門設(shè)置:a. “Extraction Controls”部分的下拉菜單中選,右上角 “Context”框里的關(guān)鍵詞會(huì)想應(yīng)改變喉刘;b. 每個(gè)搜索引擎的匹配數(shù)上限瞧柔。公共搜索引擎太強(qiáng)大,匹配數(shù)上限設(shè)太高可能導(dǎo)致返回海量數(shù)據(jù)睦裳,進(jìn)而導(dǎo)致超大型相互作用網(wǎng)絡(luò)造锅,進(jìn)而導(dǎo)致……死機(jī),所以還是謹(jǐn)慎為 妙廉邑;c. “Extraction Controls”下哥蔚,“Interaction Lexicon”控制用于判定putative相互作用的動(dòng)詞的列表。選“l(fā)imited”則只有句子里包含諸如激活蛛蒙、甲基化糙箍、切割之類的“高置信度”的 動(dòng)詞時(shí)才算作putative相互作用;選“relaxed”則范圍放寬牵祟,諸如加入深夯、提高、誘導(dǎo)之類的也算诺苹;d. View菜單下可選搜索引擎咕晋,只有三種:PM、OMIM和USPTO收奔;e. “Search Controls”下的“Use Aliases”按鈕掌呜,即可使用蛋白的姓名別名曾用名,比如p53就成了p53 OR trp53 OR tp53坪哄,這樣搜索結(jié)果的完整性可大大提高站辉;f. 輸入關(guān)鍵詞呢撞,一行一個(gè),超過(guò)一個(gè)單詞則需用引號(hào)括起來(lái)饰剥;g. “Context”框里不僅可以設(shè)置物種(其實(shí)刪掉也無(wú)妨)殊霞,還能指定主題,比如癌癥汰蓉、阿爾茨海默癥等绷蹲,可讓搜索結(jié)果特異性更好。g. 如果你也是個(gè)CNS控顾孽,可以在“Query Editor”框里指定:(P53) AND Cancer AND (Science[ta] OR Nature[ta])祝钢,這個(gè)表達(dá)式的意思是搜索發(fā)表在S和N上的帶有P53和Cancer關(guān)鍵字(也有可能帶別名的)的paper。更多高級(jí)搜索的語(yǔ)法 見數(shù)據(jù)庫(kù)的幫助文件若厚,如我自己常用的PM:http://www.ncbi.nlm.nih.gov/books/NBK3827 /#pubmedhelp.Search_Field_Descrip拦英。
所有都設(shè)好后按下方的藍(lán)三角開始搜索。
在分析相互作用網(wǎng)絡(luò)的過(guò)程中测秸,也可以隨時(shí)利用文獻(xiàn)搜索疤估。比如右擊某條連 線,LinkOut → Entrez → Pubmed霎冯,選擇后打開默認(rèn)瀏覽器铃拇,顯示PM搜索結(jié)果。課文兒說(shuō)搜索完成后Edge Attribute瀏覽器里會(huì)多出幾個(gè)屬性沈撞,包括:a. HasTSI慷荔,代表該相互作用是否有文獻(xiàn)支持;b. NumberOfSources缠俺,代表支持該相互作用的paper的數(shù)目显晶;c. nbrSentences,代表支持該相互作用的句子的數(shù)目壹士。此外Cytoscape主程序的Evidence from Literature菜單下選中“Show Sentences from the Literature”后磷雇,會(huì)彈出窗口,列出支持該相互作用的句子墓卦,給出此列表的搜索沿用最近一次搜索的設(shè)置倦春。不過(guò)這兩個(gè)結(jié)果我都沒(méi)做出來(lái)户敬,可能還是因?yàn)?不能連通PM落剪,導(dǎo)致不能初始化搜索所致。
對(duì)節(jié)點(diǎn)也能用這個(gè)方法搜索尿庐,等效于對(duì)連接該節(jié)點(diǎn)的所有連線做搜索忠怖。
第六課 GO分析
地址見:http://wiki.cytoscape.org/Presentations/06_GO
要學(xué)習(xí)聲名赫赫的BiNGO了,話說(shuō)我就是因?yàn)檫@插件才開始決心學(xué)用Cytoscape的抄瑟,小激動(dòng)一下凡泣。
以酵母那個(gè)galFiltered.sif為例,Ctrl+L load進(jìn)來(lái)。接著導(dǎo)入GO信息:File → Import → Ontology and Annotation...鞋拟。彈出的窗口里設(shè)置annotation和ontology類型骂维,ms是選好之后直連的,不過(guò)苦命的姐還是選Browse下的 Browse Local Files吧贺纲。設(shè)定好之后按右下角的Import航闺。
導(dǎo)入GO信息后要對(duì)顯示設(shè)置做些修改,讓GO信息顯示容易尋找和查看猴誊。點(diǎn)快捷欄最右 邊那個(gè)一頁(yè)紙上壓著個(gè)大螺絲的圖標(biāo)潦刃,Search on Attribute下把Unique Identifierannotation.GO BIOLOGICAL_PROCESS,當(dāng)然神馬annotation.GO CELLULAR_COMPONENT之類的也可以啦懈叹。最后點(diǎn)右下角的Reindex Network乖杠。然后主窗口里紙和螺絲旁邊那個(gè)搜索框里搜索的類型就改成了GO BP,還帶關(guān)鍵字選項(xiàng)的喲澄成。
接下來(lái)學(xué)習(xí)激動(dòng)人心的GO term富集分析:
1. Select → Nodes → By Name...胧洒。太弱?好吧环揽,Ctrl+F略荡。選Gal4吧。
2. Select → Nodes → First Neighbors of Selected Nodes歉胶。太弱汛兜?好吧,Ctrl+6通今。
3.New → Network → From selected nodes, all edges粥谬。太弱?好吧辫塌,Ctrl+N漏策。
4. 切換到新建的網(wǎng)絡(luò)。Select → Nodes → Select all nodes臼氨。太弱掺喻?好吧,Ctrl+Alt+A储矩,5感耙。
5. Plugins下點(diǎn)開BiNGO。彈出BiNGO設(shè)置窗口持隧,按照偏好即硼,完成后面的設(shè)置:a. 給聚類分析取個(gè)名字;b. 勾上“Get Cluster from Network”框屡拨;c. “Select a statistical test”下只酥,選擇“Hypergeometric”褥实,如果數(shù)據(jù)量非常大,可以選用“Binomial”裂允,不過(guò)一般的處理用Hypergeometric 即可损离;d. “Select a multiple testing correction”下,選用“Benjamini & Hochberg False Discovery Rate (FDR)”绝编,這種FDR計(jì)算方法比Bonferroni較為不保守草冈,不過(guò)多數(shù)情況下已經(jīng)夠用;e. “Choose a significance level”輸入“0.05”瓮增,此閾值控制計(jì)算結(jié)果中報(bào)告的GO分類的細(xì)致程度怎棱,0.05并不一定足夠保守,不過(guò)可以根據(jù)結(jié)果調(diào)整此閾值绷跑;f. “Select the categories to be visualized”下選擇“Overrepresented categories after correction”拳恋,這樣結(jié)果中就能直接看到富集的分類,當(dāng)然選別的也可以砸捏;g. “Select reference set”下谬运,選擇“Test cluster versus complete annotation”,即富集計(jì)算的比較背景是所有得以GO注釋的基因垦藏;h. “Select ontology”下選擇GO_Biological_Process”梆暖,計(jì)算GO BP大類下的各分類的富集程度,當(dāng)然別的也行掂骏,比如我的主要是GO CC啦轰驳;i. “Select organism/annotation”下翻啊翻啊翻,翻到樣品所屬的物種弟灼;j. 勾上“Check box for saving Data”级解,點(diǎn)擊“Save BiNGO Data file”按鈕,選定目的目錄田绑,BiNGO會(huì)導(dǎo)出一個(gè)文本文檔勤哗,內(nèi)列出各顯著富集的節(jié)點(diǎn)的p值,文件名即最開始給聚類分析起的名字掩驱,后綴名是.bgo芒划。此 外,文件里還列出分析時(shí)所用參數(shù)和得到富集的GO term欧穴。
6. 一大堆選完后民逼,點(diǎn)擊“Start BiNGO”。分析完成后彈出運(yùn)行報(bào)告苔可,內(nèi)容在bgo文件里也有缴挖。還返回一個(gè)相互作用網(wǎng)絡(luò)袋狞,顯示上一步f下選的那些節(jié)點(diǎn)焚辅。節(jié)點(diǎn)的標(biāo)簽顯示的是屬于上一步h 下選的GO注釋種類的term映屋。默認(rèn)顏色分布:富集程度越高則節(jié)點(diǎn)背景越偏橙色,越低則越靠近黃色同蜻。白色節(jié)點(diǎn)表示未被顯著富集棚点,之所以出現(xiàn)在結(jié)果中是因?yàn)?他們的某個(gè)子節(jié)點(diǎn)顯著富集。結(jié)果中節(jié)點(diǎn)的多少是與提交到分析的節(jié)點(diǎn)的多少成正比的湾蔓。
6. Node Attribute瀏覽器下點(diǎn)“Select Attributes”瘫析,能看到多了一些屬性,均以聚類名結(jié)尾默责,包括:a. description_test贬循,顯示GO term;b. adjustedPValue_test桃序,multiple hypothesis testing后的p值杖虾,后面四個(gè)是該testing中要用到的值;c. n_test媒熊,此GO term下的節(jié)點(diǎn)的數(shù)目奇适;d. x_test,所選的節(jié)點(diǎn)中此GO term下的節(jié)點(diǎn)數(shù)目芦鳍;e. N_test嚷往,背景基因組中帶有所選類型的GO注釋的節(jié)點(diǎn)的數(shù)目;f. X_test柠衅,所選的節(jié)點(diǎn)的數(shù)目皮仁。
7. 勾上這些屬性,逐個(gè)考察菲宴。
8. 下面可以玩一玩初級(jí)視覺(jué)游戲魂贬。選擇白節(jié)點(diǎn),或者加上你覺(jué)得太黃太暴力的幾個(gè)節(jié)點(diǎn)裙顽,然后Select → Nodes → Hide node selection付燥,這些看著不爽的節(jié)點(diǎn)就知趣地消失了。
9. 當(dāng)然它們隨時(shí)待命愈犹,召之即來(lái):Select → Nodes → Show all nodes键科。
下面玩一個(gè)不同類型處理的combo。目前的情況是得到了Gal4敲除或沉默或過(guò)表 達(dá)后得到富集的子相互作用網(wǎng)絡(luò)漩怎,而該網(wǎng)絡(luò)來(lái)源于半乳糖利用這條途徑勋颖,于是想看看在這些富集的GO term中,哪些屬于僅僅涉及半乳糖利用途徑勋锤,又是哪些還特異地與Gal4效應(yīng)子網(wǎng)絡(luò)相關(guān)饭玲。為區(qū)分這兩類節(jié)點(diǎn),首先分出一個(gè)子網(wǎng)絡(luò)叁执,然后做BiNGO富集 分析茄厘,詳細(xì)操作如下:
1. 回到媽媽網(wǎng)絡(luò)矮冬,選中Gal4的Ctrl+6。
2. BiNGO設(shè)置窗口的“Select Reference Set”選“Test cluster versusnetwork”次哈,當(dāng)然胎署,得給這個(gè)聚類分析起個(gè)新名字,就比如test2吧窑滞。運(yùn)行BiNGO琼牧。
3. 比較新老BiNGO結(jié)果網(wǎng)絡(luò)。新結(jié)果中丟失的term可能僅與半乳糖利用相關(guān)哀卫。
4. Node Attribute瀏覽器下點(diǎn)“Select Attributes”巨坊,能看到有些屬性變了,現(xiàn)在有adjustedPValue_test(代表以整個(gè)基因組為背景時(shí)的富集程度)和 adjustedPValue_test2(代表以整個(gè)子網(wǎng)絡(luò)為背景時(shí)的富集程度)此改”Ь浚可以選中這些屬性,然后考察各節(jié)點(diǎn)的這兩個(gè)屬性的數(shù)值带斑。
第七課 模塊和復(fù)合物
地址見:http://wiki.cytoscape.org/Presentations/07_Complexes
相互作用網(wǎng)絡(luò)中的模塊的原理類似程序腳本中的模塊鼓寺,均以功能為內(nèi)在聯(lián)系,為簡(jiǎn)化相互作用網(wǎng)絡(luò)的圖形表示形式勋磕,可將模塊用一節(jié)點(diǎn)代替妈候,勉強(qiáng)類似與Python中的模塊腳本吧。
這一課可以學(xué)到的新招包括:
1. 如何鑒定putative復(fù)合物挂滓,包括兩種方式:a. 通過(guò)網(wǎng)絡(luò)connectivity苦银;b. 通過(guò)connectivity以及共表達(dá);
2. 如何利用表達(dá)數(shù)據(jù)鑒定對(duì)實(shí)驗(yàn)條件反應(yīng)顯著的putative模塊或途徑赶站。
善其事幔虏,利其器。需要下載一堆插件:MCODE贝椿、Dynamic Expression plugin想括、jActiveModules、BiNGO烙博。其中Dynamic Expression plugin和表達(dá)數(shù)據(jù)文件連接失效了瑟蜈。Aging呀aging~~
首先練習(xí)用MCODE找復(fù)合物成分,原理:內(nèi)部連線多渣窜,是復(fù)合物模塊的幾率則大铺根。詳細(xì)過(guò)程:
啟動(dòng)軟件,載入sif乔宿,Plugins → MCODE → Start MCODE位迂,彈出MCODE窗口。點(diǎn)擊底部的“Analyze”,想改設(shè)置的話點(diǎn)“Advanced Options”掂林。分析結(jié)束臣缀,返回結(jié)果,包括復(fù)合物的節(jié)點(diǎn)和連線組成以及分?jǐn)?shù)党饮。顯著的復(fù)合物一般分?jǐn)?shù)較高(>1),且節(jié)點(diǎn)和連線不至于很不靠譜驳庭。點(diǎn) 擊結(jié)果即可在畫布里選中相應(yīng)節(jié)點(diǎn)刑顺。然后我們用BiNGO考察這個(gè)子網(wǎng)絡(luò)中GO注釋富集的情況,以獲得間接證據(jù)支持饲常。顯示GO BP中得到富集的類下的節(jié)點(diǎn)蹲堂,然后和MCODE分析的節(jié)點(diǎn)交叉比對(duì)。如果發(fā)現(xiàn)兩者重合程度很高贝淤,那么所發(fā)現(xiàn)的復(fù)合物為陽(yáng)性的可信度則提高了柒竞。
剛才那種方法需要相互作用數(shù)據(jù),除此之外播聪,利用表達(dá)數(shù)據(jù)也可以鑒定復(fù)合物朽基,這回是jActiveModules和BiNGO搭檔。詳細(xì)過(guò)程:
啟動(dòng)离陶,載入稼虎。File → Import → Attribute/Expression Matrix...,這里所載入的表達(dá)數(shù)據(jù)里要有significance值招刨。Plugins → jActiveModules → Active Modules: Set Parameters霎俩;選擇要采用的表達(dá)數(shù)據(jù);設(shè)置所返回的putative hit的數(shù)目沉眶;點(diǎn)“Dismiss”關(guān)閉窗口打却。Plugins → jActiveModules → Active Modules: Find Modules,此時(shí)插件開始運(yùn)行谎倔。
結(jié)束后彈出Conditions vs. Pathways窗口柳击,其中size表示子網(wǎng)絡(luò)/復(fù)合物所包含的節(jié)點(diǎn)數(shù),score表示可信度分?jǐn)?shù)片习,紅色表示“significant”腻暮,白色反之。此窗口內(nèi)選中某行毯侦,在畫布中即選中了所對(duì)應(yīng)的節(jié)點(diǎn)哭靖。
之后的工作和剛才一樣,可以從子網(wǎng)絡(luò)的BiNGO富集分析中得到側(cè)面支持侈离。當(dāng)然也可以用ALS搜paper试幽,看看文獻(xiàn)中是否有類似報(bào)道。
下課,課文讓喝咖啡铺坞。嗯起宽,要聽老師的話~~
第八課 整合網(wǎng)絡(luò)服務(wù)提供的注釋和相互作用網(wǎng)絡(luò)
地址見:http://wiki.cytoscape.org/Presentations/08_Web_Services
最后一課,內(nèi)容很多济榨。包括:
1. 如何從公共數(shù)據(jù)庫(kù)導(dǎo)入相互作用網(wǎng)絡(luò)坯沪;
2. 如何導(dǎo)入注釋和映射ID;
3. 如何融合多個(gè)數(shù)據(jù)來(lái)源的相互作用網(wǎng)絡(luò)擒滑;
4. 如何將已知的途徑映射到相互作用網(wǎng)絡(luò)腐晾。
從其中第三部分開始爛尾,偏偏我對(duì)后兩小節(jié)興趣大一些丐一。不管了藻糖,看看總有益,剩下的自己琢磨库车。
下面要完成一個(gè)大實(shí)驗(yàn)巨柒,總的目的是整合關(guān)于PPAR-gamma的所有已知信息。
第一部分:數(shù)據(jù)庫(kù)搜索和導(dǎo)入
1. 安裝一堆插件:a. 相互作用網(wǎng)絡(luò)/屬性導(dǎo)入客戶端:NCBIClient柠衍、NCBIEntrezGeneUserInterface洋满、IntActWSClient、 BiomartClient(0.80及以上)珍坊、MiMI芦岂、GPML;b. 數(shù)據(jù)融合:AdvancedNetworkMerge(2.8版中默認(rèn)裝好)垫蛆;c. 腳本編寫:RubyScriptingEngine禽最、ScriptingEngineManager;d. 搜索:Enhanced Search袱饭。
2. 第二個(gè)熱身運(yùn)動(dòng)是增大Java中Permanent部分所分配的內(nèi)存川无,編輯cytoscape.sh,找到-Xss5M -Xmx1024M -XX:MaxPermSize=128m虑乖,其中-XX:MaxPermSize即為要修改處懦趋。如果所載入插件過(guò)多,則導(dǎo)致這一部分內(nèi)存溢滿疹味,則 Cytoscape可能crash掉仅叫。默認(rèn)大小是64 M,128 M應(yīng)該夠了吧糙捺。
3. 接下來(lái)瘋狂導(dǎo)入數(shù)據(jù)中:File → Import → Network from Web Services...诫咱,選擇數(shù)據(jù)源“NCBI Entrez EUtilities Web Service Client”,關(guān)鍵詞是“pparg AND human[ORGN]”洪灯。搜索完畢坎缭,返回網(wǎng)絡(luò),命名,Layout → yFiles → Organic掏呼。返回的網(wǎng)絡(luò)的數(shù)據(jù)來(lái)自NCBI Entrez Gene data set坏快,后者涵蓋了BIND、BioGRID和HPRD憎夷。哈欠莽鸿,都是人的……
4. 導(dǎo)入屬性:File → Import → Import Attributes from NCBI Entrez Gene。選中所有屬性拾给,Key Attribute設(shè)為ID祥得。點(diǎn)擊右下角的“Import”。導(dǎo)入完成后即坐擁多種注釋鸣戴,包括KEGG啃沪、GeneRIF粘拾、GO窄锅、publication神 馬的。
5. 從Pathway Commons導(dǎo)入已知的通路和相互作用:File → Import → Network from Web Services...缰雇,選擇數(shù)據(jù)源“Pathway Commons Web Service Client”入偷,輸入關(guān)鍵詞,選擇物種械哟,點(diǎn)“Serach”疏之。導(dǎo)入所有結(jié)果,雙擊即可暇咆。
6. 從IntAct導(dǎo)入二元相互作用數(shù)據(jù):File → Import → Network from Web Services...锋爪,選擇數(shù)據(jù)源“IntAct Web Service Client”,輸入關(guān)鍵詞“PPARG AND species:human”爸业,點(diǎn)“Serach”其骄。此時(shí)僅返回與PPAR-gamma直接發(fā)生相互作用的蛋白/基因。選擇所有節(jié)點(diǎn)扯旷,在其中一個(gè)上右擊拯爽, 選擇Use Web Services → IntAct Web Service Cleint → Get neighbours by ID(s),得到三跳以內(nèi)的相互作用蛋白/基因钧忽。
7. 稍微整理一下所有抓取的網(wǎng)絡(luò):View → Arrange Network Windows → Tiled毯炮。
8. 用高級(jí)手段BioRuby導(dǎo)入KEGG途徑。首先要下載一個(gè)rb腳本(哪天參考一下耸黑,順便改進(jìn)改進(jìn)桃煎,提交到BioPython,wkk)大刊。運(yùn)行腳 本:Plugins → Scripting Language Consoles → Open Ruby Console打開Ruby控制臺(tái)备禀。cd進(jìn)入腳本進(jìn)入腳本目錄,搜索:keggapi.bfind('pathway pparg human')。結(jié)果返回一大堆話曲尸,取“path:”那幾個(gè)字赋续,比如“path:hsa03320 PPAR signaling pathway”。順藤摸瓜另患,pathway_id = 'path:hsa03320'; source '剛才下的那個(gè)腳本'纽乱。圖就出來(lái)了。還挺簡(jiǎn)單昆箕。屬性包括KEGG ID和Entrez Gene ID鸦列。
9. 從WikiPathways(Wiki風(fēng)格界面的curated的途徑數(shù)據(jù)庫(kù),格式為GPML鹏倘,Cytoscape兼容)導(dǎo)入已知的通路和相互作 用:File → Import → Network from Web Services...薯嗤,選擇數(shù)據(jù)源“WikiPathways Web Service Client”,關(guān)鍵詞輸入“pparg”纤泵,選擇物種骆姐,點(diǎn)“Serach”。導(dǎo)入所有結(jié)果捏题,雙擊即可玻褪。
10. 用ALS從文獻(xiàn)中搜索構(gòu)建相互作用網(wǎng)絡(luò)。方法見前一課課文兒公荧,在此不贅带射。需要注意的是,得到的相互作用網(wǎng)絡(luò)不帶有節(jié)點(diǎn)和連線的注釋/ID數(shù)據(jù)集循狰。如果想添 加注釋窟社,可以用BioMart網(wǎng)絡(luò)服務(wù)客戶端獲取。首先绪钥,需要從節(jié)點(diǎn)ID創(chuàng)建一個(gè)新的屬性灿里。這里有個(gè)小小麻煩,Cytoscape是大小寫敏感的昧识,而 ALS結(jié)果里的結(jié)果ID都是小寫的钠四,與基因標(biāo)志的通用格式不同。這樣的話會(huì)出現(xiàn)映射不上的問(wèn)題跪楞,所以要轉(zhuǎn)換一下缀去。嗯,小case甸祭,聽姐的話缕碎,學(xué) Python去吧,欽此池户。
11. 下面從BioMart中導(dǎo)入注釋信息:File → Import → Import Attributes from BioMart...咏雌,數(shù)據(jù)源選擇“ENSEMBL GENES (Homo Sapience)”凡怎,“key attribute”選擇“Gene Symbol”,“Data Type”選“HGNC Symbol”赊抖。選擇想要導(dǎo)入的注釋類型统倒。點(diǎn)“Import”。搞定氛雪。
12. 不過(guò)BioMart庫(kù)有時(shí)也不是太全房匆,有的蛋白在庫(kù)里找不到。這時(shí)可以用命令行工具創(chuàng)建ID映射表报亩,操作如下:a. 選中所有節(jié)點(diǎn)浴鸿;b. Attribute瀏覽器中選擇“EntrezGene ID”和“Gene Symbol”,按前者排序弦追,找到?jīng)]有注釋的節(jié)點(diǎn)岳链,復(fù)制之;c. Ruby中創(chuàng)建變量symbols劲件,賦值為剛才復(fù)制的基因標(biāo)識(shí)掸哑;d. 輸入命令“query.gsub(/\n/, " OR ")”、“query = '(' + query + ') AND human[ORGN]'”寇仓;e. 創(chuàng)建NCBI EUtilities網(wǎng)絡(luò)服務(wù)客戶端举户,構(gòu)建搜索烤宙,開始搜索遍烦; f. 從結(jié)果中提取ID列表,獲取總結(jié)酬凳,以表格形式寫入文本文件轧粟;g. 利用File → Import → Attribute from table導(dǎo)入表格彬犯,即得到的節(jié)點(diǎn)已經(jīng)映射到Entrez Gene ID的文件。
13. 此外還有從MiMI數(shù)據(jù)庫(kù)導(dǎo)入相互作用的方法罢猪,應(yīng)該也可以通過(guò)插件完成。
至此第一部分基本完成叉瘩,下面開始第二部分膳帕,基因列表的各種操作,總的目的是從一份基因列表出發(fā)薇缅,在Cytoscape中看到他們之間的相互作用危彩。
14. 如果是Entrez Gene ID,則打開File → Import → Network from Web Service泳桦,選擇“NCBI Entrez EUtilities Web Service Client”數(shù)據(jù)源汤徽,搜索框里粘帖基因列表。
15. 導(dǎo)入注釋灸撰。
16. 利用Enhanced Search插件選擇多個(gè)節(jié)點(diǎn)谒府∑纯玻基因ID列表粘帖至工具欄的ESP窗口里,點(diǎn)“Enter”完疫,即可選中所輸入的節(jié)點(diǎn)泰鸡,并查看這些節(jié)點(diǎn)在圖中的位置。
17. 融合相互作用網(wǎng)絡(luò)時(shí)有時(shí)希望標(biāo)出各節(jié)點(diǎn)的來(lái)源壳鹤,這一點(diǎn)可以通過(guò)添加屬性開始鸟顺。在節(jié)點(diǎn)屬性瀏覽器窗口中點(diǎn)擊“String Attribute”,命名屬性器虾。
18. 回到節(jié)點(diǎn)屬性瀏覽器讯嫂,點(diǎn)擊“Batch Attribute Editor”。在“Operation”頁(yè)中兆沙,選擇“Set”欧芽,然后選擇想要設(shè)置的屬性名,輸入屬性值葛圃。點(diǎn)擊“Go”千扔。
幾個(gè)cookbook recipe。
第一例 獲取某一途徑中的基因列表
1. 打開BioRuby控制臺(tái)库正,輸入“keggapi.get_genes_by_pathway("path:mmu03320")”曲楚,其中“path:mmu03320”是途徑的KEGG term。返回一系列KEGG的基因ID褥符。
2. 結(jié)果需要除去“mmu:”的前綴龙誊,并把所有id從一個(gè)列表連接成一個(gè)字符串。用BioRuby的話喷楣,是這么寫:“query = gene_list.join(" ").gsub(/mmu:/, "")”趟大。
課文最后說(shuō)BioRuby提供很多KEGG和其他數(shù)據(jù)庫(kù)的提取信息的簡(jiǎn)單方式,不知Python插件功能怎么樣铣焊?
文章來(lái)自:http://lwzhanghz.blog.163.com/blog/static/13682636920134190525926/?(有改動(dòng))