基礎理論
網(wǎng)絡圖
網(wǎng)絡圖非常常見,不僅被用在生物信息學分析积仗,在生活中也很常見疆拘,如民航航線圖、食物鏈寂曹、基因調(diào)控網(wǎng)絡都是網(wǎng)絡圖經(jīng)典的例子哎迄。
網(wǎng)絡圖應用價值
- 直觀形象的呈現(xiàn)數(shù)據(jù)關(guān)系
- 高效的挖掘和解析數(shù)據(jù)(WGCNA后模塊內(nèi)大量基因的篩選)
網(wǎng)絡圖的構(gòu)成基礎
- 節(jié)點(node):表示元素
節(jié)點屬性:大小、形狀稀颁、顏色芬失、標簽楣黍、邊框可以表示表達量匾灶、差異倍數(shù)、RNA類型租漂、pathway分類阶女、基因名稱等。 - 線(edge):表示元素之間的關(guān)系
線屬性:粗細哩治、類型秃踩、顏色、方向可以表示:相關(guān)性強弱业筏、相關(guān)性正負憔杨、靶向關(guān)系、相關(guān)性顯著性等蒜胖。
重要概念
- 連通性(Degree):一個節(jié)點擁有的線的數(shù)量消别。
- 核心元素(Hub gene):位于調(diào)控網(wǎng)絡中心,也就是連通性較高的元素台谢。
數(shù)據(jù)準備
建立關(guān)聯(lián)
- 基于已有成果獲得寻狂。(string數(shù)據(jù)庫)
- 基于表達量/豐度的相關(guān)性。(WGCNA)
- 基于序列的堿基互補關(guān)系朋沮。(miRNA-mRNA)
- 基于功能分類關(guān)系蛇券。(富集分析)
數(shù)據(jù)要求
格式:
tsv文件(Tab Separated Values)
csv文件(Comma )
xls,xlsx文件-
內(nèi)容:
edge文件:必須文件,包含節(jié)點關(guān)系關(guān)鍵數(shù)據(jù)纠亚。如下圖所示塘慕,第一列為起始點的基因名,第二列為終止點的基因名菜枷,第三列為TOM值(這個數(shù)據(jù)是WGCNA的數(shù)據(jù)結(jié)果苍糠,因此我用了TOM值,也可以是其他的數(shù)據(jù)啤誊,如兩點間相關(guān)性岳瞭。)WGCNA分析有點復雜,有朝一日我整理好后再發(fā)給大家參考蚊锹。
node文件:非必須瞳筏,按需準備。如下圖所示牡昆,第一列是點的基因名姚炕,注意對應edge文件中的點的信息,我下圖展示的是我給每個基因Ensembl ID添加的Gene Symbol信息和注釋信息丢烘,也可以是其他的數(shù)據(jù)柱宦,如基因的表達量等。
軟件基本操作
數(shù)據(jù)導入
-
導入edge數(shù)據(jù)
點擊下圖所示的按鍵播瞳,導入edge數(shù)據(jù)掸刊。
導入后需要選擇每一列的數(shù)據(jù)類型,主要設置邊的起始位置和結(jié)束位置赢乓。
-
導入node數(shù)據(jù)
點擊對應位置忧侧,導入node數(shù)據(jù),要確保數(shù)據(jù)和edge數(shù)據(jù)的命名一致牌芋。
生成網(wǎng)絡圖
導入edge后蚓炬,在圖片編輯框中就可以看到生成的最基礎的網(wǎng)絡圖,我們下一步需要做的就是對它進行美化躺屁,也可以進一步通過Cytoscape進行數(shù)據(jù)挖掘肯夏。
圖片美化
對于最初版的網(wǎng)絡圖,我相信沒有人會覺得好看犀暑,也絕對滿足不了雜志的要求驯击,那么,我們就動手美化它母怜。
其實Cytoscape的可視化界面非常人性化余耽,按照我下面的批注,大家都點一點苹熏,應該很快就能掌握碟贾。
需要特別解釋一下“參數(shù)賦值”和“點/線排列形式”的用法币喧。
- 參數(shù)賦值:比如,想要用圈的大小表示基因的連通性大小袱耽、圈的顏色表示基因的表達量高低杀餐、線的粗細表示權(quán)重值的大小等,都可以通過給各個區(qū)域賦值達成朱巨。在Cytoscape中史翘,點和線的顏色、粗細都可以賦值冀续,點擊相應的參數(shù)琼讽,賦予你想要展示的數(shù)據(jù)即可。
- 點/線排列形式:在Cytoscape中洪唐,所有的點都是可以自己手動拖動的钻蹬,當數(shù)據(jù)量很大時,非常辛苦凭需。因此问欠,軟件有自動排布功能,點擊“l(fā)ayout”就可以看到粒蜈,自動排布形式主要有:矩形排布顺献、圓形排布、層級排布枯怖,每一種都有適用范圍注整,如果展示基因相互關(guān)系建議用圓形排布,點一下試試就知道嫁怀。
Tips:選擇數(shù)據(jù)點后(手動選擇結(jié)合下面要說到的篩選選擇)设捐,再點擊排布借浊,就可以把雜亂無章的圖塘淑,變得整齊且能說明問題,如下圖所示蚂斤。
數(shù)據(jù)挖掘
Cytoscape的數(shù)據(jù)挖掘主要是用到“篩選”工具存捺。網(wǎng)絡圖常見的篩選方式是利用連通性篩選關(guān)鍵基因,Cytoscape可以直接計算點的連通性(K)曙蒸,點擊菜單欄Tools--NetworkAnalyzer--Network analysis--Analyze Network捌治,然后選擇自己數(shù)據(jù)對應的類型(有/無方向),點擊確認纽窟,連通性數(shù)據(jù)就會出現(xiàn)在“點信息頁”肖油,列名為“degree”。
點擊篩選模塊臂港,新建篩選條件森枪,在下拉菜單中選擇“degree”视搏,即可用連通性作為篩選條件,選擇滿足連通性要求的點县袱。如果圖片中點和線特別多浑娜,可以用該方法選擇連通性較高的點新建畫布,只對這些連通性高的基因做圖式散。當然筋遭,篩選條件不僅僅是K值,也可以用WGCNA分析里的TOM值暴拄,或者基因的表達量等漓滔,只要是數(shù)值型變量就行,大家嘗試一下就明白了乖篷。