加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(WGCNA, weighted gene coexpression network analysis)
是一種分析多個(gè)樣本基因表達(dá)模式的方法浩峡,將表達(dá)模式相似的基因進(jìn)行聚類形成不同模塊,并分析模塊與表型或者性狀之間的關(guān)聯(lián)關(guān)系拆火,以及網(wǎng)絡(luò)中的核心基因(Hub gene)。WGCNA將數(shù)以萬計(jì)的基因與表型之間的關(guān)系轉(zhuǎn)換為為數(shù)個(gè)基因集與表型之間的關(guān)聯(lián)苔埋,屬于一種信息歸納提煉的算法贱迟。
適用于:復(fù)雜的數(shù)據(jù)模式,一般推薦5組(或者15個(gè)sample)以上數(shù)據(jù)抬探。
- 重要概念
-
權(quán)重(weight):因素或者指標(biāo)的相對(duì)重要性/貢獻(xiàn)度子巾,在WGCNA中可理解為基因之間的相關(guān)性。
2.** Module eigengene E**: 給定模型的第一主成分小压,即基因與樣本構(gòu)成的矩陣线梗,代表整個(gè)模型的基因表達(dá)譜。即用一個(gè)向量代替了一個(gè)矩陣怠益,方便后期計(jì)算仪搔。 - 無尺度網(wǎng)絡(luò)(scale free network)
- 首先,我們把網(wǎng)絡(luò)看作一個(gè)圖形蜻牢。
-
介紹無尺度網(wǎng)絡(luò)時(shí)烤咧,先引入一個(gè)概念,度(degree)抢呆。一個(gè)點(diǎn)的度是指圖形中的一個(gè)點(diǎn)關(guān)聯(lián)的邊數(shù)髓削。生活中常見的網(wǎng)絡(luò)多為隨機(jī)網(wǎng)絡(luò),即每一個(gè)點(diǎn)的度相對(duì)平均镀娶。那么無尺度網(wǎng)絡(luò)是什么樣的呢立膛,有少數(shù)幾個(gè)節(jié)點(diǎn)連接更多的度,稱之為hub,而其它節(jié)點(diǎn)只鏈接1-2個(gè)度從而構(gòu)成了整個(gè)網(wǎng)絡(luò)宝泵。生物體在進(jìn)化過程中采用了無尺度網(wǎng)絡(luò)的模式好啰,少數(shù)關(guān)鍵基因(Hub gene)執(zhí)行主要生物學(xué)功能,從而維持機(jī)體健康與穩(wěn)定儿奶。在這種模式下框往,即使機(jī)體受到外界刺激,只要不波及Hub gene闯捎,不會(huì)對(duì)機(jī)體產(chǎn)生太大影響椰弊,但是如果是隨機(jī)網(wǎng)絡(luò),其受到傷害程度將直接與刺激強(qiáng)度成正比瓤鼻。
image.png
- 模塊(module):高度相關(guān)的基因秉版,即表達(dá)模式相似的基因?yàn)橐粋€(gè)模塊。
- 連接度(connectivity):類似于度茬祷,指的是與每個(gè)基因相連的邊屬性之和清焕。
- 鄰近矩陣(Adjacency Matrix):是圖的一種存儲(chǔ)形式,用一個(gè)一維數(shù)組存放圖中所有頂點(diǎn)數(shù)據(jù)祭犯;用一個(gè)二維數(shù)組存放頂點(diǎn)間關(guān)系(邊或唤胀住)的數(shù)據(jù),這個(gè)二維數(shù)組稱為鄰接矩陣沃粗;在WGCNA分析里面指的是基因與基因之間的相關(guān)性系數(shù)矩陣粥惧。
- 拓?fù)渲丿B矩陣(TOM,topological overlap matrix):將上述的鄰接矩陣轉(zhuǎn)換為TOM最盅,以降低噪音與假相關(guān)突雪,獲得的新的距離矩陣,用于后續(xù)下游分析檩禾。
WGCNA一般步驟
后續(xù)實(shí)操明天學(xué)習(xí)
參考:1. WGCNA構(gòu)建基因共表達(dá)網(wǎng)絡(luò)詳細(xì)教程 - wangshicheng - 博客園 (cnblogs.com)
- 生信技能樹 jimmy大神的github