A: ClueGO:破譯富集GO和通路
大多數(shù)的富集工具都是以列表和復(fù)雜等級樹顯示抬纸。Cluoego可視化歸納相似的過程或通路帮掉。主要是GO和KEGG ,并且作者可以設(shè)置自己的閾值動態(tài)改變網(wǎng)絡(luò)弦悉。
Cluego有兩個主要的特征:1.根據(jù)基因列表,可以用于terms的可視化蟆炊,2稽莉,兩個clusters的功能解釋的比較。
具體的步驟方法
1 數(shù)據(jù)輸入
基因標識數(shù)據(jù)集可以以簡單的text文本文檔上傳涩搓,也可以來于cytoscape的基因網(wǎng)絡(luò)圖污秆。cluego支持幾種基因標識符和物種后室。并且可以擴展。
2 注釋來源
為了快速分析混狠,cluegeo使用預(yù)先編輯好的文件岸霹,包括GO,KEGG和BIocarta并且物種很廣泛。一鍵就可以自動下載最新的ontology和注釋源将饺。并且可以把預(yù)先編輯好的網(wǎng)絡(luò)添加到已經(jīng)存在的上面贡避。這保證最新的功能分析。另外予弧,cluego可以容易的整合新的注釋源到其他插件刮吧。
3 富集tests
cluego提供了計算terms和groups富集和缺失的可能型。左邊富集右邊缺失掖蛤,或這雙邊(富集和缺失)杀捻,這都基于超幾何分布。另外蚓庭,他也提供選擇計算mid-p值致讥。為了矯正多重檢驗p值,幾種標準化的矯正方法可以選擇(本家名器赞,等)
4 網(wǎng)絡(luò)生成和可視化
為了生成注釋網(wǎng)絡(luò)垢袱,cluego提供預(yù)先丁一的功能分析集,從general到非常具體的港柜。另外请契,用戶可以調(diào)整分析參數(shù)來更集中terms,例如夏醉,在某一個GO水平爽锥,有特殊的證據(jù)codes或有某數(shù)目和百分比的相關(guān)基因。一個可選擇的冗余減少特征(融合)以父子關(guān)系條目評估GO條目畔柔,這會共享相似的相關(guān)基因并且保留代表性的父或子條目氯夷。選擇的條目間的的關(guān)系根據(jù)他們共享的基因定義。cluego首先生存一個雙向基因條目矩陣释树,條目-條目相似性矩陣會使用chance矯正kappa統(tǒng)計學(xué)進行計算肠槽,以此決定條目之間的相似強度擎淤。以in我這個條目條目矩陣有來源奢啥,kappa統(tǒng)計就成了最適合的方法。最后嘴拢,產(chǎn)生的網(wǎng)絡(luò)用node代表條目桩盲,這個條目已經(jīng)根據(jù)kappa得分進行了預(yù)先設(shè)定。kappa得分閾值可可以被初始設(shè)定席吴,從0到1赌结,這可以以用戶設(shè)定的方式限制網(wǎng)絡(luò)的連接捞蛋。nodes的大小反映了term富集的重要性。并且柬姚,網(wǎng)絡(luò)以cytoscape支持的organic輸出方式進行展示拟杉,這是基于一定幾何算法的。根據(jù)預(yù)先設(shè)定的組別量承,功能組可以被不斷的富集merge搬设,當(dāng)然都是基于kappa算法閾值。最后的groups被固定并且隨機顏色撕捍。功能groups代表重要的條目拿穴,可以可視化,并且可以看出他們之間的關(guān)系忧风。選擇組中的領(lǐng)頭條目默色,基于提供的每個term的gene百分比。作為kappa得分分組的替代狮腿,GO等級使用父子關(guān)系條目可以用來產(chǎn)生富集組別腿宰。
當(dāng)比較2個基因聚類時,cluege另一個原始的功能可以調(diào)整可視化缘厢,除了網(wǎng)絡(luò)酗失,cluego提供總括表,可以顯示組別和他的領(lǐng)頭條目昧绣,直方圖规肴,聚類和普通條目像bingo,cluego可以和golorize合并產(chǎn)生記憶in網(wǎng)絡(luò)夜畴。產(chǎn)生的網(wǎng)絡(luò)拖刃,圖和分析結(jié)果可以保存為項目進一步進行分析
case study
例子是GSE6887,我們選擇健康志愿者上調(diào)和下調(diào)的NK 細胞基因。對于上調(diào)的NKgene贪绘,cluego顯示“natural killer cell mediated cytotoxicity”在這個組:cellular defense response兑牡,而下調(diào)的NK細胞基因參與innate immune response,還有adaptive immune response税灌。共有的功能指向leukocytes的特點均函,另外還有一些條目參與cell division和metabolism。
image.png
功能組網(wǎng)絡(luò)結(jié)果菱涤,term作為nodes出現(xiàn)苞也,基于的是kappa得分(》=0.3).每組只有最顯著的條目標簽顯示出來。功能相關(guān)的組部分重疊粘秆。沒有歸到組里的條目白色顯示如迟。
image.png
bars代表和某個term相關(guān)的gene數(shù)目,就是bar右邊的數(shù)字。每個term的基因百分比作為bar label顯示殷勘,也就是橫軸數(shù)字此再。
image.png
所用數(shù)據(jù)的功能groups的總圖遮斥。是合并之后的子圖的名字寥粹。
B: Cluepedia
cluepedia可以分析自己的實驗數(shù)據(jù)冈敛,可以直接比較和富集公用數(shù)據(jù)蜘犁。比如來自string购啄,intact洁仗,mimi帮辟,mirbase蒙保,mirecords等蠢古。通路分析基于go和kegg奴曙,reactome和其他數(shù)據(jù)源。上傳數(shù)據(jù)的方式很多種
1文本文檔
2粘貼
3來自網(wǎng)絡(luò)草讶。插件可以自動識別很多類型的基因洽糟,蛋白,miRNA,可以用最新的NCBI信息更新堕战。
Cluepedia來自任何老鼠相互數(shù)據(jù)坤溃。安裝后嘱丢,超過20種其他物種數(shù)據(jù)可以下載薪介,這些數(shù)據(jù)已經(jīng)編輯好了。插件可以計算來自實驗數(shù)據(jù)感興趣的基因的統(tǒng)計學(xué)相關(guān)性越驻,并且提供的四種檢驗參數(shù)有線性的有非線性的汁政。有皮爾遜相關(guān)系數(shù),斯皮爾曼rank缀旁,距離系數(shù)和最近描述的maximal information 系(MIC).這些檢驗可同時或單獨使用分析整個輸入文件比如affymetrix datasets记劈,選擇markersVs整個數(shù)據(jù)集或選定自己的markers。結(jié)果恩杰添加到cluepedia進一步分析并巍。實驗數(shù)據(jù)可以被標準化并且可視化使用臨近閾值目木。過濾的方法是基于表達水平,標準差和缺失值懊渡。另外一個特征是允許抽取表達數(shù)據(jù)的子集刽射,這些子集相應(yīng)于一個pathway或term。
網(wǎng)絡(luò)可以根據(jù)最高相互得分富集剃执,可以對所有也可以對選定的nodes誓禁。另外,網(wǎng)絡(luò)可以被富集忠蝗,用有最高連接度的hub基因现横,而這個hub基因連接的所有選定的nodes。不同的邊得分類型可以用于富集阁最,并且這個網(wǎng)絡(luò)可以更新戒祠,用的是最高得分的相互關(guān)系,而他符合所有的閾值標準速种。重要的是姜盈,這個富集結(jié)果可以用Cluego網(wǎng)絡(luò)使用,新富集的基因會被自動假如配阵。cluepedia可以自動提取go term中marker的細胞為止馏颂。基于這些信息棋傍,類似pathway-like的細胞祖墳可以產(chǎn)生救拉,這要使用cerebral plugin layout。如果有一些marker并沒有細胞位置瘫拣,那么他們會被歸納到?jīng)]有注釋被發(fā)現(xiàn)的未知亿絮。
作者:Y大寬
鏈接:http://www.reibang.com/p/b72faec72d04
來源:簡書
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)麸拄,非商業(yè)轉(zhuǎn)載請注明出處派昧。