WGCNA原理及應(yīng)用
WGCNA介紹:
WGCNA(weighted gene co-expression network analysis吝梅,權(quán)重基因共表達(dá)網(wǎng)絡(luò)分析)是一種分析多個(gè)樣本基因表達(dá)模式的分析方法赃阀,可將表達(dá)模式相似的基因進(jìn)行聚類篮绰,并分析模塊與特定性狀或表型之間的關(guān)聯(lián)關(guān)系搞乏,因此在疾病以及其他性狀與基因關(guān)聯(lián)分析等方面的研究中被廣泛應(yīng)用扶欣。
WGCNA算法是構(gòu)建基因共表達(dá)網(wǎng)絡(luò)的常用算法(詳解:http://www.reibang.com/p/94b11358b3f3)仗考。WGCNA算法首先假定基因網(wǎng)絡(luò)服從無尺度分布音同,并定義基因共表達(dá)相關(guān)矩陣、基因網(wǎng)絡(luò)形成的鄰接函數(shù)痴鳄,然后計(jì)算不同節(jié)點(diǎn)的相異系數(shù)瘟斜,并據(jù)此構(gòu)建分層聚類樹(hierarchical clustering tree),該聚類樹的不同分支代表不同的基因模塊(module)痪寻,模塊內(nèi)基因共表達(dá)程度高螺句,而分屬不同模塊的基因共表達(dá)程度低。最后橡类,探索模塊與特定表型或疾病的關(guān)聯(lián)關(guān)系蛇尚,最終達(dá)到鑒定疾病治療的靶點(diǎn)基因、基因網(wǎng)絡(luò)的目的顾画。在該方法中module被定義為一組具有類似表達(dá)譜的基因取劫,如果某些基因在一個(gè)生理過程或不同組織中總是具有相類似的表達(dá)變化匆笤,那么我們有理由認(rèn)為這些基因在功能上是相關(guān)的,可以把他們定義為一個(gè)模塊(module)谱邪。這似乎有點(diǎn)類似于進(jìn)行聚類分析所得到結(jié)果炮捧,但不同的是,WGCNA的聚類準(zhǔn)則具有生物學(xué)意義惦银,而非常規(guī)的聚類方法(如利用數(shù)據(jù)間的幾何距離)咆课,因此該方法所得出的結(jié)果具有更高的可信度。當(dāng)基因module被定義出來后扯俱,我們可以利用這些結(jié)果做很多進(jìn)一步的工作书蚪,如關(guān)聯(lián)性狀,代謝通路建模迅栅,建立基因互作網(wǎng)絡(luò)等殊校。
WGCNA的用處:
這類處于調(diào)控網(wǎng)絡(luò)中心的基因稱為核心基因(hub gene),這類基因通常是轉(zhuǎn)錄因子等關(guān)鍵的調(diào)控因子读存,是值得我們優(yōu)先深入分析和挖掘的對象为流。
在網(wǎng)絡(luò)中,被調(diào)控線連接的基因宪萄,其表達(dá)模式是相似的艺谆。那么它們潛在有相似的功能。所以拜英,在這個(gè)網(wǎng)絡(luò)中静汤,如果線條一端的基因功能是已知的,那么就可以預(yù)測線條另一端的功能未知的基因也有相似的功能居凶。
下面的問答來自基迪奧虫给,也能加深對WGCNA的理解
問1、調(diào)控網(wǎng)絡(luò)和共表達(dá)網(wǎng)絡(luò)有什么區(qū)別侠碧?
答:調(diào)控網(wǎng)絡(luò)是個(gè)更廣泛的概念抹估,而共表達(dá)網(wǎng)絡(luò)是調(diào)控網(wǎng)絡(luò)的一種。
理論上我們可以利用各類信息構(gòu)建調(diào)控網(wǎng)絡(luò)(表達(dá)相關(guān)性弄兜,序列靶向關(guān)系药蜻、蛋白互作關(guān)系),另外調(diào)控網(wǎng)絡(luò)構(gòu)建的信息既可以來源真實(shí)的實(shí)驗(yàn)驗(yàn)證的關(guān)系替饿,也可以來源生物信息的預(yù)測语泽。而共表達(dá)網(wǎng)絡(luò)特指利用基因間的表達(dá)相關(guān)性預(yù)測基因間調(diào)控關(guān)系的方法,而WGCNA又是共表達(dá)網(wǎng)絡(luò)分析中最有效的方法之一视卢。
問2踱卵、WGCNA分析適合的生物物種范圍有規(guī)定么?
答:沒有限制据过。對于任何物種中心法則都是存在的惋砂,調(diào)控關(guān)系對于任何物種都是存在的妒挎,所以WGCNA沒有物種限定。
問3西饵、同一物種酝掩,不同來源的轉(zhuǎn)錄組數(shù)據(jù)(比如不同文章/資料來源的),可以放在一起做WGCNA分析嗎罗标?
答:只要樣本間有相似的生物學(xué)意義庸队,是可以合并在一起做分析的。但要注意闯割,不同批次之間的樣本是有批次效應(yīng)的,所以可能會帶來一些誤差竿拆,但是是可以放在一起分析的宙拉。
問4、相同材料不同處理之間丙笋,可以放在一起做WGCNA分析嗎谢澈?比如重金屬和鹽堿處理。
答:可以的御板。這也正式WGCNA強(qiáng)大的地方锥忿,其可以將不同處理的樣本,合并在一起做分析怠肋。其他方法則不一定有這么強(qiáng)大的能力敬鬓,比如做基因表達(dá)趨勢分析時(shí),如果樣本涉及到多個(gè)處理不同時(shí)期的時(shí)候笙各,就不好合并分析(或合并后難以解讀)钉答。但WGCNA的方法關(guān)注的是調(diào)控關(guān)系,所以不管是多少個(gè)處理組杈抢,都可以很好的整合在一起做分析数尿。
問5、不同批次的數(shù)據(jù)能放一起做WGCNA嗎惶楼?
答:可以的右蹦。雖然有批次的干擾,但是干擾對WGCNA網(wǎng)絡(luò)沒有太大影響歼捐。因?yàn)閃GCNA不是做差異分析何陆,而是基因的共表達(dá)。因?yàn)榕涡?yīng)理論上不影響相關(guān)性窥岩。
問6甲献、不同類型的材料,比如親本和F1颂翼,適合放一起進(jìn)行WGCNA么晃洒?
答:如果是一個(gè)作圖群體慨灭,當(dāng)然親本與F1是可以放在一起分析的,因?yàn)槟阒魂P(guān)心基因的表達(dá)模式球及,所以把親本加進(jìn)來是沒有問題的氧骤。
問7、沒有生物學(xué)重復(fù)吃引,共3組筹陵,每組5個(gè)時(shí)間點(diǎn)能夠做嗎?
答:理論上有15個(gè)樣本镊尺,是可以做WGCNA分析的朦佩。并且,分析出來的結(jié)果對你的研究應(yīng)該是非常有用的庐氮。至少他會比趨勢分析更有意義语稠,更加準(zhǔn)確。
問8弄砍、一般說WGCNA的樣品不少于15個(gè)仙畦,15個(gè)樣品考慮重復(fù)嗎?不同倍性的材料呢音婶?
答:15個(gè)樣本這個(gè)是包含了生物學(xué)重復(fù)慨畸,比如5個(gè)時(shí)間點(diǎn)3個(gè)重復(fù);在RNA-seq里面建議不要用不同倍性材料加進(jìn)來衣式。除非是有參考的多倍體寸士,如果是無參的多倍體,不同倍性之間差異太大瞳收,會讓調(diào)控網(wǎng)絡(luò)不準(zhǔn)確碉京。所以用單一倍性的材料做調(diào)控網(wǎng)絡(luò)會更加準(zhǔn)確。
問9螟深、可以將RNA-seq數(shù)據(jù)與蛋白組數(shù)據(jù)谐宙,甲基化數(shù)據(jù)放一起做WGCNA分析?
答:不能與蛋白數(shù)據(jù)一起分析界弧。因?yàn)閃GCNA是基于相關(guān)系數(shù)的算法凡蜻。所以最好一起分析的數(shù)據(jù)變異度是類似的,RNAseq變異非常大垢箕,而蛋白的數(shù)據(jù)變異很小划栓,兩者的變化不在一個(gè)數(shù)量級上面。所以兩種數(shù)據(jù)放在一起分析不合理条获。
但RNA數(shù)據(jù)可以嘗試跟甲基化數(shù)據(jù)一起分析忠荞。當(dāng)然我們也建議RNA數(shù)據(jù)與代謝組數(shù)據(jù)一起分析,因?yàn)榇x組的數(shù)據(jù)變異也非常大。
問10委煤、表達(dá)量和表達(dá)的基因數(shù)目差異太大的樣品可以一起分析嗎堂油?比如樣品A有2k個(gè)gene表達(dá) 而樣品B有2w個(gè)gene表達(dá)了 AB可以一起分析嗎?
答:做WGCNA分析的時(shí)候碧绞,不能脫離生物學(xué)意義府框,既然要分析調(diào)控網(wǎng)絡(luò),那么應(yīng)該分析有相似生物學(xué)意義的一組基因讥邻,比如說拿相似組織來一起做分析迫靖,比如不應(yīng)該拿大腦的樣本與腳趾的樣本合并在一起做分析,因?yàn)楹茱@然兴使,這兩個(gè)組織沒有關(guān)聯(lián)系宜。如果兩個(gè)樣本之間是有相關(guān)聯(lián)的生物學(xué)意義,哪怕表達(dá)的基因數(shù)不一樣发魄,或表達(dá)模式差異很大蜈首,那依然可以放在一起分析;但如果樣本之間完全沒有生物學(xué)意義欠母,那么分析就沒有意義。
問11吆寨、實(shí)驗(yàn)設(shè)計(jì)是case3個(gè)時(shí)間點(diǎn)(各點(diǎn)都有三個(gè)重復(fù))赏淌,control同樣的3個(gè)時(shí)間點(diǎn)(每點(diǎn)三個(gè)重復(fù)),WGCNA怎么做啄清?3個(gè)時(shí)間點(diǎn)和case-control兩個(gè)因素能同時(shí)考慮進(jìn)來分析嗎六水?
答:可以的。做WGCNA是更加合理的辣卒,因?yàn)橛袃蓚€(gè)梯度的樣本掷贾,如果只是做差異分析的話,邏輯可能非常復(fù)雜荣茫,做WGCNA分析是對樣本特性更好的解析想帅,可以直觀看到基因在六個(gè)處理組里面是怎樣表達(dá)的。
問12啡莉、可以拿混合樣本分析嗎港准?比如一個(gè)病原細(xì)菌跟人類細(xì)胞的基因,能說明細(xì)菌跟人類細(xì)胞基因有調(diào)控關(guān)系嗎咧欣?
答:可以浅缸。前提是病原菌有足夠的數(shù)據(jù)并定量準(zhǔn)確,并且這個(gè)分析是非常有意義的魄咕,最后可以說明這些病原菌可以調(diào)控哪些宿主基因衩椒。
問13、但是病原宿主混合分析的話,宿主蛋白不能分泌到宿主體內(nèi)豈不是WGCNA生物學(xué)上也沒有意義嗎毛萌?
答:依然有意義苟弛。即使病原的基因沒有分泌到宿主里面,但是病原的蛋白是會影響宿主基因的調(diào)控的朝聋,比如某個(gè)細(xì)菌感染某個(gè)植物嗡午,雖然細(xì)菌的蛋白不能直接分泌到植物體內(nèi),但會影響植物蛋白的分泌冀痕±蠖茫混在一起分析依然是有意義,可以看到植物里面到底哪個(gè)基因?qū)?xì)菌蛋白產(chǎn)生應(yīng)答作用言蛇。
問14僻他、芯片數(shù)據(jù)兩分類,每組20個(gè)樣本腊尚,能否每組單獨(dú)做WGCNA吨拗?
答:可以。WGCNA還有一種重要功能是做兩個(gè)網(wǎng)絡(luò)的比較婿斥,比如病人20個(gè)樣本做一個(gè)調(diào)控網(wǎng)絡(luò)劝篷,健康人做一個(gè)調(diào)控網(wǎng)絡(luò),然后兩個(gè)網(wǎng)絡(luò)做比較民宿。
問15娇妓、WGCNA可以用來分析lncRNA對下游基因的調(diào)控分析嗎?
答:可以活鹰。WGCNA網(wǎng)絡(luò)有利于預(yù)測lncRNA的潛在功能哈恰。
問16、構(gòu)建網(wǎng)絡(luò)是用所有表達(dá)基因還是差異基因志群?
答:這個(gè)是具體問題具體分析着绷。如果使用所有的基因分析,會導(dǎo)致運(yùn)算量非常大锌云。而也不是所有的基因在這個(gè)實(shí)驗(yàn)中都有生物學(xué)意義荠医,所以我們會提前做一些過濾。
但用于分析的基因不一定是差異表達(dá)基因宾抓,有時(shí)可以用差異表達(dá)基因做一個(gè)并集子漩,或通過計(jì)算變異系數(shù)將變異系數(shù)低的基因以及低表達(dá)的基因去除。但注意石洗,如果你有關(guān)心的特定目標(biāo)基因的話幢泼,應(yīng)該盡量給予保留。
問17讲衫、關(guān)注某一個(gè)pathway上的基因以及調(diào)控因子之間的相關(guān)性缕棵,構(gòu)建WGCNA網(wǎng)絡(luò)的時(shí)候?qū)儆谶@個(gè)pathway的基因數(shù)量太少會不會影響結(jié)果呢孵班?
答:這不是問題。在一個(gè)調(diào)控網(wǎng)絡(luò)里面招驴,樣本的某個(gè)pathway上篙程,并不是所有基因參與調(diào)控(或存在差異性),所以在做WGCNA分析的時(shí)候别厘,會做一些過濾虱饿,將有變化的基因挑出來再做分析。即分析的是某個(gè)pathway上有變化的基因触趴,不需要分析pathway上所有的基因氮发,只需要分析那些變化的基因就夠了。
問18冗懦、前期篩選的時(shí)候爽冕,要選出在所有樣本中變異系數(shù)比較大的基因呢?還是直接用差異表達(dá)的基因取并集披蕉?用基因還是轉(zhuǎn)錄本颈畸,哪個(gè)好呢?
答:兩則都可以没讲,我推薦使用變異系數(shù)眯娱,選擇那些變異較大的基因,來做下面的分析爬凑。然后建議用基因不要用轉(zhuǎn)錄本困乒,因?yàn)檗D(zhuǎn)錄本的定量是不準(zhǔn)確的。
問19贰谣、變異系數(shù)一般取多大?
答:具體問題具體分析迁霎。例如吱抚,沒有特定目標(biāo)的時(shí)候,可以先計(jì)算變異系數(shù)考廉,將變異系數(shù)的百分之前50來做分析秘豹,把變異系數(shù)偏低的后面一半過濾掉。
問20昌粤、輸入數(shù)據(jù)用FPKM合適嗎既绕?
答:可以。
問21涮坐、RNA seq數(shù)據(jù)是RSEM值怎么辦凄贩?
答:RSEM值原始輸出結(jié)果為reads數(shù),如果是RSEM值建議做一個(gè)RPKM校正再做分析袱讹。
問22疲扎、除了RPKM值以外,做WGANA是否還需要其他數(shù)據(jù)?TCGA數(shù)據(jù)可否來做WGCNA分析椒丧?
答:在做WGCNA分析必須要用表達(dá)量數(shù)據(jù)壹甥,但TCGA的數(shù)據(jù)某些層級沒有表達(dá)量數(shù)據(jù),沒有表達(dá)量數(shù)據(jù)自然就無法做WGCNA分析壶熏。
問23句柠、請問輸入的基因樣本的矩陣的時(shí)候,要不要對數(shù)據(jù)標(biāo)準(zhǔn)化棒假?
答:做WGCNA分析的時(shí)候溯职,不需要對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,輸入RPKM值就足以做這個(gè)分析淆衷。雖然一些文章會做log2處理缸榄,但我認(rèn)為取了LOG2后,會讓一些表達(dá)關(guān)系沒有那么豐富祝拯。
問24甚带、每個(gè)樣本有3個(gè)生物學(xué)重復(fù),不需要對三個(gè)重復(fù)的表達(dá)量求平均值代表該樣本嗎佳头?
答:注意鹰贵,做WGCNA的時(shí)候每個(gè)樣本是獨(dú)立的,三個(gè)生物學(xué)重復(fù)樣本是全部導(dǎo)入做分析康嘉,不是取均值再做分析碉输,每個(gè)樣本都是獨(dú)立的。
問25亭珍、如果3個(gè)生物學(xué)重復(fù)敷钾,做WGCNA的時(shí)候是取三個(gè)值,還是用cuffdiff處理后取一個(gè)值肄梨?
答:如果是生物學(xué)重復(fù)樣本進(jìn)行調(diào)控網(wǎng)絡(luò)分析阻荒,每個(gè)樣本獨(dú)立使用,而不是取均值众羡。
問26侨赡、請問將樣本信息同模塊特征值進(jìn)行相關(guān)性分析的時(shí)候,樣本信息是怎么處理的呢粱侣?比如不同取樣點(diǎn)羊壹、不同性別什么的,這不是數(shù)量性狀信息的齐婴,這種情況應(yīng)該怎么處理呢油猫?
答:樣本的任何信息都可以做模塊相關(guān)性分析。比如相關(guān)時(shí)間點(diǎn)柠偶,可以按照先后量化為12134567眨攘。又如不同性別主慰,男與女,可以定義為1鲫售,-1共螺。任何性狀量化為數(shù)字后,都可以進(jìn)行相關(guān)性分析情竹。
問27藐不、怎么將模塊與性狀對應(yīng)起來呢有些性狀不好量化,如果直接將模塊與分組對應(yīng)秦效,如何實(shí)現(xiàn)雏蛮, 不需要量化指標(biāo)么?
答:首先需要將性狀量化阱州,如果無法將性狀量化挑秉,那么就無法分析。至于分組信息苔货,也可以量化為類似00001111000(1代表一種組別犀概,2代表另一組組別),實(shí)現(xiàn)分組信息的數(shù)字化夜惭。
問28姻灶、基因數(shù)量為3w左右時(shí),modules數(shù)量為多少結(jié)果較為理想诈茧?怎么評價(jià)聚類效果的好壞产喉?
答:modules數(shù)量沒有標(biāo)準(zhǔn),modules數(shù)量無法評估模塊分的好壞敢会,分組是否合理應(yīng)該看樹的樹形圖曾沈,比如樹的分支很清晰就說明模塊式清晰的。modules數(shù)量數(shù)由生物性狀決定的鸥昏。比如樣本表達(dá)信息很豐富的時(shí)候晦譬,modules數(shù)量會很多;如果樣本的基因表達(dá)相對單一互广,modules數(shù)量就會比較少。
問29卧土、我運(yùn)行例子的時(shí)候惫皱,得出來基因之間的direction全是undirected,這和前面的幾種關(guān)系有什么區(qū)別尤莺?
答:WGCNA是一個(gè)undirected的方法旅敷,它的網(wǎng)絡(luò)是無方向的,有相關(guān)關(guān)系但是無方向颤霎。
問30匣沼、如果做有向網(wǎng)絡(luò)的構(gòu)建,您推薦那些方法屈嗤?
答:很多方法键思,例如貝葉斯的方法。
問31仔涩、非模式物種可以得出基因之間的相互關(guān)系類型么?得出的結(jié)果也是undirected么?
答:WGCNA是基于表達(dá)兩處理的搁料,所以即使是非模式生物,當(dāng)然也可以他們之間關(guān)系系羞,并且關(guān)系也是一個(gè)無向網(wǎng)絡(luò)郭计。
問32、選擇幾個(gè)表型數(shù)據(jù)進(jìn)行結(jié)合分析比較好
答:越多越好椒振,看實(shí)驗(yàn)設(shè)計(jì)昭伸。
問33、感染小鼠澎迎,5個(gè)時(shí)間點(diǎn)庐杨,3個(gè)重復(fù),找不到合適的表型怎么辦嗡善?
答:如果找不到合適表型辑莫,可以找某個(gè)時(shí)間點(diǎn)應(yīng)答的基因,本身基因的表達(dá)趨勢已經(jīng)有某種生物學(xué)意義的罩引。沒有找到合適表型各吨,也可以看變化趨勢。不一定要做表型的相關(guān)分析袁铐,其他分析也是很有趣的揭蜒。例如,可以對模塊功能的富集分析剔桨,其實(shí)都是可以幫助你找到特定模塊的屉更。所以不用糾結(jié)于做某個(gè)表型的關(guān)聯(lián)分析。
問34洒缀、weight就是tom值嗎瑰谜?
答:是的。
問35树绩、剪模塊是怎么做的萨脑?是根據(jù)TOM劃分嗎?需要自己設(shè)定饺饭,還是R自動的渤早?
答:剪模塊是R中自動完成的,不需要劃分瘫俊,但合并的時(shí)候你可以設(shè)定一個(gè)指標(biāo)鹊杖,比如差異度是0.25悴灵。
問36、看WGCNA說明是用相異矩陣D(D=1-TOM)去做聚類骂蓖,然后動態(tài)剪切积瞒?
答:用TOM值來構(gòu)建矩陣,TOM值就是兩個(gè)樣本的相似度涯竟,1-TOM值就是兩個(gè)樣本的差異度赡鲜,相似度與差異度可以理解為一個(gè)東西,并不矛盾庐船。
問37银酬、模塊特征值和樣本性狀相關(guān)分析的具體方法是?
答:R包用的是計(jì)算相關(guān)系數(shù)的方法筐钟。
問38揩瞪、WGCNA里面一般會提到hubgene,如何確定hubgene?
答:在WGCNA分析里面篓冲,每個(gè)基因都會計(jì)算連通性李破,連通性高的就是hubgene。
問39壹将、在R中安裝“”WGCNA“”說不適合R3.3.1嗤攻,那適合哪個(gè)版本?
答:WGCNA應(yīng)該是所有版本都適合诽俯,如果版本沒有可以考慮降低R軟件的版本妇菱,這個(gè)對分析沒有影響。因?yàn)椴煌琑版本是一樣的暴区。
問40闯团、用STEM分析的時(shí)候擬合多少個(gè)模型合適?
答:建議不要超過20個(gè)仙粱。模塊太多不好分析房交。
參考網(wǎng)站:
http://tiramisutes.github.io/2016/09/14/WGCNA.html