WGCNA學(xué)習(xí):WGCNA分析原理

本教程根據(jù)PlantTech的WGCNA課程編寫(xiě)歪今,課程還是不錯(cuò)的贷盲,所以將該課程給大家分享一下寿羞。

WGCNA筆記第一彈

1.WGCNA簡(jiǎn)介

WGCNA(Weighted Gene Co-Expression Network Analysis, 加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析)芹橡,鑒定表達(dá)模式相似的基因集合(module)前弯。解析基因集合與樣品表型之間的聯(lián)系打厘,繪制基因集合中基因之間的調(diào)控網(wǎng)絡(luò)并鑒定關(guān)鍵調(diào)控基因修肠。

WGCNA適合于復(fù)雜的轉(zhuǎn)錄組數(shù)據(jù)

研究不同器官/組織類(lèi)型和不同階段的發(fā)育調(diào)控、生物和非生物脅迫的不同時(shí)間點(diǎn)響應(yīng)機(jī)制

2.主要內(nèi)容

  • 一户盯、WGCNA原理

    • 1.構(gòu)建基因關(guān)系網(wǎng)絡(luò)

    • 2.構(gòu)建基因模塊

    • 3.篩選關(guān)鍵基因

    • 4.鑒定關(guān)鍵基因

  • 二嵌施、WGCNA應(yīng)用

    • 1.應(yīng)用場(chǎng)景-實(shí)驗(yàn)設(shè)計(jì)、經(jīng)典文獻(xiàn)
    • 2.實(shí)例分析-單個(gè)材料莽鸭、兩個(gè)材料
    • 3.實(shí)例分析-結(jié)合表型
  • 三吗伤、WGCNA實(shí)戰(zhàn)

3.WGCNA原理

4.構(gòu)建基因關(guān)系網(wǎng)絡(luò)

4.1 計(jì)算基因間相關(guān)關(guān)系

基因間相似性(similarity):根據(jù)基因在不同樣品中的表達(dá)情況,計(jì)算任意兩個(gè)基因間的相關(guān)關(guān)系硫眨。用Pearson相關(guān)系數(shù)

基因共表達(dá)矩陣: S=[Sij]

Sij 表示基因i和基因j的Pearson相關(guān)系數(shù)足淆。

軟閾值:通過(guò)加權(quán)函數(shù)將相關(guān)系數(shù)變換,形成鄰接矩陣(Adjacency Matrix),矩陣中元素連續(xù)化捺球。

鄰接函數(shù):power函數(shù)(冪指數(shù)函數(shù))

aij=power(Sij, β)=|Sij|β

需要確定鄰接函數(shù)的參數(shù)β缸浦,依據(jù)無(wú)尺度網(wǎng)絡(luò)原則,即基因表達(dá)網(wǎng)絡(luò)符合無(wú)尺度網(wǎng)絡(luò)的冪函數(shù)分布

4.2 無(wú)尺度網(wǎng)絡(luò)

圖片.png

網(wǎng)絡(luò)圖的點(diǎn)指圖中的每一個(gè)節(jié)點(diǎn)氮兵,度指與該點(diǎn)的連接數(shù)

隨機(jī)網(wǎng)絡(luò)(Random network)裂逐,每個(gè)節(jié)點(diǎn)的度相對(duì)平均

無(wú)尺度網(wǎng)絡(luò)(Scale-free network),少數(shù)節(jié)點(diǎn)具有明顯高于一般點(diǎn)的度泣栈,這些點(diǎn)被稱(chēng)為hub卜高,由少數(shù)hub與其他節(jié)點(diǎn)關(guān)聯(lián),最終構(gòu)成整個(gè)網(wǎng)絡(luò)

無(wú)尺度網(wǎng)絡(luò)的冪率分布:節(jié)點(diǎn)連接數(shù)為k的節(jié)點(diǎn)數(shù)h南片,k與h成反比掺涛,負(fù)相關(guān)

尺度:隨機(jī)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的連接數(shù)符合泊松分布,大部分節(jié)點(diǎn)的連接數(shù)居中疼进,中值稱(chēng)為隨機(jī)網(wǎng)絡(luò)的尺度薪缆。

無(wú)尺度網(wǎng)絡(luò)符合冪率分布,大多數(shù)點(diǎn)只有很少的連接伞广,少數(shù)點(diǎn)有很多的連接

基因相關(guān)關(guān)系拣帽,冪函數(shù)處理后,少數(shù)強(qiáng)相關(guān)性不受影響或者影響較小嚼锄,而相關(guān)性弱的取n次冪后命黔,相關(guān)性明顯下降煤傍。

4.3 確定關(guān)鍵參數(shù)β

尋找合適的β链方,使得基因表達(dá)關(guān)系符合無(wú)尺度網(wǎng)絡(luò)橱野,度數(shù)高的節(jié)點(diǎn)少修陡,度數(shù)低的節(jié)點(diǎn)多。

節(jié)點(diǎn)度數(shù)k與具有該度數(shù)節(jié)點(diǎn)的個(gè)數(shù)h服從冪律分布

具體計(jì)算度數(shù)為k的節(jié)點(diǎn)個(gè)數(shù)的對(duì)數(shù)值log(k)可霎,與該節(jié)點(diǎn)出現(xiàn)的概率對(duì)數(shù)(log(p(k)))呈現(xiàn)負(fù)相關(guān)魄鸦,一般會(huì)設(shè)置相關(guān)系數(shù)大于0.8

為了檢測(cè)設(shè)置的參數(shù)β是否滿足無(wú)尺度網(wǎng)絡(luò),對(duì)log10(p(k))和log10(k)作圖癣朗,同時(shí)為更好評(píng)估号杏,對(duì)兩者之間的相關(guān)系數(shù)做平方,即R2斯棒。如果模型R2接近1,則兩者之間為很好的線性關(guān)系主经。

4.4 計(jì)算基因間表達(dá)關(guān)系

評(píng)估基因間表達(dá)關(guān)系:直接關(guān)系

生物體內(nèi)基因間的關(guān)系:直接關(guān)系+間接關(guān)系

TOM:用拓?fù)渲丿B(topological overlap measure荣暮,TOM)來(lái)計(jì)算基因之間關(guān)聯(lián)程度,除了分析兩個(gè)基因之間的關(guān)系罩驻,還考慮這兩個(gè)基因與其他基因之間的連接穗酥。這樣更具有生物學(xué)意義。

建立TOM矩陣(TOM)\Omega=[\omega_{ij}]=[TOM_{ij}]

TOM_{ij}=\frac{\sum_{\mu}a_{i\mu}a_{\mu j}+a_{ij}}{min(k_i,k_j)+1-a_{ij}}

TOM公式中惠遏,計(jì)算i與j之間的關(guān)系砾跃,不僅考慮了i和j的直接關(guān)系,還考慮了第三個(gè)基因μ的間接關(guān)系

5 構(gòu)建基因模塊

5.1 層次聚類(lèi)樹(shù)

基因模塊的劃分基于基因間的連接稀疏性节吮,將TOM矩陣(Similarity)轉(zhuǎn)化為相異度矩陣(Dissimilarity):d^\omega_{ij}=1-\omega_{ij}

利用基于TOM值的相異度d^\omega_{ ij}層次聚類(lèi)建樹(shù)

建樹(shù)方法:動(dòng)態(tài)剪切樹(shù)和靜態(tài)剪切樹(shù)

5.2 動(dòng)態(tài)混合剪切法

  • 第一步:識(shí)別滿足設(shè)定條件的初級(jí)模塊

    • 1.滿足模塊預(yù)定義的最低基因數(shù)目
    • 2.距離集群過(guò)遠(yuǎn)的基因抽高,即使與集群處于同一分支,也去除
    • 3.每個(gè)集群與其他周?chē)募猴@著不同
    • 4.處在樹(shù)分支尖端的每個(gè)群集的核心基因緊密相連
  • 第二步:測(cè)試步驟

    • 將未分配的基因進(jìn)行測(cè)試透绩,如果足夠接近某個(gè)初級(jí)群集翘骂,則分配進(jìn)去
    • 通常WGCNA使用動(dòng)態(tài)混合剪切法建樹(shù)


5.3 建樹(shù)過(guò)程的參數(shù)

  • 模塊最少基因數(shù)目(minModuleSize)

  • 合并模塊的最小距離(mincutHeight)計(jì)算模塊的特征值,利用模塊特征值建樹(shù)帚豪,合并距離很近的模塊(如Height小于0.2)

  • 模塊特征值(Epigengene)

  • 模塊內(nèi)所有基因進(jìn)行主成分分析(PCA)碳竟,第一主成分的值即為Epigengene。它代表該模塊內(nèi)基因表達(dá)的整體水平

6 篩選基因模塊

主要介紹四種方法

6.1 表達(dá)模式分析

模塊表達(dá)模式分析:模塊在各個(gè)樣品中的豐度

模塊特征值(Epigengene):模塊內(nèi)所有基因進(jìn)行主成分分析(PCA)狸臣,第一主成分的值即為Epigengene莹桅。它代表該模塊內(nèi)基因表達(dá)的整體水平。

如果某模塊在樣品中特征值正或負(fù)表達(dá)較高烛亦,說(shuō)明模塊與這個(gè)樣品關(guān)系緊密

6.2 模塊與表型性狀關(guān)聯(lián)分析

模塊顯著性值(Module significance诈泼,MS):模塊內(nèi)所有基因的基因顯著性值的平均值。

基因顯著性值(Gene significance, GS):基因表達(dá)水平與因變量水平的相關(guān)系數(shù)此洲。用T檢驗(yàn)計(jì)算每個(gè)基因在不同表型樣品組間的差異表達(dá)顯著性檢驗(yàn)P值(Pearson相關(guān)系數(shù))厂汗,通常將P值取以10底對(duì)數(shù)值定義為基因顯著性GS

計(jì)算各模塊與一表型性狀的MS值,如一個(gè)模塊的MS值顯著高于其他模塊呜师,則這一模塊與該性狀存在關(guān)聯(lián)關(guān)系

模塊特征值顯著性(Epigengene significance, ES):模塊特征值與某一性狀的相關(guān)系數(shù)娶桦,篩選與性狀關(guān)聯(lián)度最高的模塊

6.3 富集分析

對(duì)各個(gè)模塊都進(jìn)行GO和KEGG富集分析,找出與我們研究性狀相關(guān)通路相關(guān)性最強(qiáng)的模塊進(jìn)行深入挖掘

6.4 依據(jù)目標(biāo)基因篩選模塊

依據(jù)研究目的、前期研究結(jié)果和已發(fā)表文獻(xiàn)衷畦,有重點(diǎn)關(guān)注的目標(biāo)基因栗涂,可直接篩選目標(biāo)基因所在的基因模塊重點(diǎn)進(jìn)一步分析

7 鑒定關(guān)鍵基因

7.1 模塊內(nèi)部基因連接度分析

Connectivity(degree)-連接度:與某個(gè)基因連接的所有其他基因的總和,即描述一個(gè)基因與其他所有基因的關(guān)聯(lián)程度祈争,一般用K值表示斤程。

Intramodular connectivity KIM-模塊內(nèi)部連接度IC:某個(gè)模塊中的基因與該模塊中其他基因的關(guān)聯(lián)程度(共表達(dá)程度)∑谢欤可用來(lái)衡量模塊身份(module membership,MM).

Module Membership MM,or Epigengene-based connectivity KME:模塊身份忿墅,用一個(gè)基因在所有樣本中的表達(dá)語(yǔ)與某個(gè)模塊特征值的表達(dá)譜的相關(guān)性,來(lái)衡量這個(gè)基因在這個(gè)模塊中的身份沮峡。

KME值接近0,說(shuō)明這個(gè)基因不是該模塊的成員:KME接近1或者-1,說(shuō)明這個(gè)基因與該模塊密切相關(guān)(正相關(guān)或者負(fù)相關(guān))疚脐。
可以對(duì)所有基因計(jì)算相對(duì)某個(gè)模塊的KME值,并不一定要是該模塊的成員邢疙。
KME與KIM高度相關(guān)棍弄。某個(gè)模塊中KIM值高的hub基因一定與該模塊的KME也很高。
KME與KIM的區(qū)別:IC衡量基因在特定模塊中的身份疟游,MM衡量基因在全局網(wǎng)絡(luò)中的位置呼畸。

篩選關(guān)鍵基因:
TOM值(模塊調(diào)控系表中的weight值)大于閾值(默認(rèn)是0.15)的兩個(gè)基因才認(rèn)為是相關(guān)的,然后計(jì)算每個(gè)基因的連接度颁虐。即先篩選有足夠強(qiáng)度的關(guān)系蛮原,然后計(jì)算連接度。

模塊內(nèi)部高連接度的基因聪廉,模塊內(nèi)排名前30或者10%(KME或KIM).
篩選關(guān)鍵基因:將該基因模塊身份MM相對(duì)于基因顯著性GS做散點(diǎn)圖瞬痘,選擇右上角MM和GS均高的基因進(jìn)一步分析。
基因顯著性值(Gene significance,GS)因變量水平的相關(guān)系數(shù)板熊。衡量基因與表型性狀的關(guān)聯(lián)程度框全,GS越高,說(shuō)明與表型越相關(guān)干签,越具有生物學(xué)意義津辩。GS可以為正值或負(fù)值(正相關(guān)或負(fù)相關(guān))
Cytoscape中一般用weight值(TOM值)來(lái)繪制網(wǎng)絡(luò)圖。

7.2 特定功能基因分析

高連通性的基因一般位于調(diào)控網(wǎng)絡(luò)的上游容劳;低連通性的基因一般位于調(diào)控網(wǎng)絡(luò)的下游喘沿。

調(diào)控網(wǎng)絡(luò)上游一般是調(diào)控因子,如轉(zhuǎn)錄因子竭贩;下游一般是功能性的酶或蛋白分子

重點(diǎn)關(guān)注具有調(diào)控功能的基因蚜印,典型的為轉(zhuǎn)錄因子,這些基因往往是關(guān)鍵基因

7.3 目標(biāo)基因關(guān)聯(lián)分析

依據(jù)研究目的留量,選取跟目標(biāo)基因關(guān)系緊密的基因窄赋,如篩選與目標(biāo)基因的TOM值排名前10哟冬,或者TOM值大于0.2的基因

可準(zhǔn)確篩選與目標(biāo)基因存在上下游調(diào)控關(guān)系的候選基因

當(dāng)目標(biāo)基因連接度不高時(shí),可篩選與目標(biāo)基因TOM值很高忆绰,且自身連接度也很高的基因

參考文獻(xiàn):

Langfelder, P., Horvath, S. WGCNA: an R package for weighted correlation network analysis. BMC Bioinformatics 9, 559 (2008). https://doi.org/10.1186/1471-2105-9-559


轉(zhuǎn)載請(qǐng)注明周小釗的博客>>WGCNA學(xué)習(xí):WGCNA分析原理

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末浩峡,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子错敢,更是在濱河造成了極大的恐慌翰灾,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件稚茅,死亡現(xiàn)場(chǎng)離奇詭異纸淮,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)亚享,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)萎馅,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人虹蒋,你說(shuō)我怎么就攤上這事§酰” “怎么了魄衅?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)塘辅。 經(jīng)常有香客問(wèn)我晃虫,道長(zhǎng),這世上最難降的妖魔是什么扣墩? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任哲银,我火速辦了婚禮,結(jié)果婚禮上呻惕,老公的妹妹穿的比我還像新娘荆责。我一直安慰自己,他們只是感情好亚脆,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布做院。 她就那樣靜靜地躺著,像睡著了一般濒持。 火紅的嫁衣襯著肌膚如雪键耕。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 48,970評(píng)論 1 284
  • 那天柑营,我揣著相機(jī)與錄音屈雄,去河邊找鬼。 笑死官套,一個(gè)胖子當(dāng)著我的面吹牛酒奶,可吹牛的內(nèi)容都是我干的蚁孔。 我是一名探鬼主播,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼讥蟆,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼勒虾!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起瘸彤,我...
    開(kāi)封第一講書(shū)人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤修然,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后质况,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體愕宋,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年结榄,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了中贝。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡臼朗,死狀恐怖邻寿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情视哑,我是刑警寧澤绣否,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站挡毅,受9級(jí)特大地震影響蒜撮,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜跪呈,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一段磨、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧耗绿,春花似錦苹支、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至堕绩,卻和暖如春策幼,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背奴紧。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來(lái)泰國(guó)打工特姐, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人黍氮。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓唐含,卻偏偏與公主長(zhǎng)得像浅浮,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子捷枯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345