寫在前面狞洋,這篇文章主要整理自于Gene co-expression analysis for functional classification and gene–disease predictions弯淘,這是我翻譯并進行注釋的比較長的一篇文章了。
先把文章最后的key notes列出來:
Key Points
? RNA-seq-based co-expression analysis can be used to assign putative functions to non-coding RNAs and to identify candidates for roles in disease.
? In co-expression networks, hub gene identification has a limited power for identifying targets for follow-up studies; yet, this can be enhanced by integrated net-work analyses, which may incorporate GWAS hits, eQTLs, TFBSs and other data layers.
? Differential co-expression analyses can reveal genes that have different co-expression partners between healthy and disease state and can help to uncover regulators underlying disease and other phenotypes.
? Methods such as biclustering and Generalised Single Value Decomposition (GSVD) allow the identification of signals/modules unique to specific cancer subtypes, which may serve a purpose in prognosis and for preci-sion medicine.
經(jīng)典的共表達網(wǎng)絡構建和分析由以下3步構成
第一步吉懊,基于每對基因間的相關性或相互信息定義每2個基因之間的個體關系耳胎。這些關系描述了所有樣本中基因對表達模式之間的相似性。不同的相關性方法已經(jīng)被用了構建網(wǎng)絡惕它,包括皮爾遜或斯皮爾曼相關系數(shù)》系牵可選擇的淹魄,最小絕對誤差回歸或貝葉斯方法也可以用來構建共表達網(wǎng)絡。后2個有個附加優(yōu)勢堡距,因為他們可以用來鑒定隨機聯(lián)系甲锡,這已經(jīng)在其他地方描述。對于其它相似性方法的討論羽戒,請參考參考文獻30缤沦。很多這種相似性矩陣也可以用了構建PPI網(wǎng)絡,已經(jīng)用癌癥數(shù)據(jù)進行比較了易稠,ref31缸废。
第二步,共表達相關性用了構建網(wǎng)絡驶社,每個node代表一個gene企量,每條邊代表共表達關系的強度。下面fig1亡电。
第三步届巩,使用其中一種可行的聚類方法鑒定modules(共表達基因groups)。共表達分析的聚類用來把所有樣本中相似genes歸組份乒,產生共表達基因group而不是僅僅共表達基因對恕汇。這種聚類方法在選擇的時候需要考慮腕唧,因為這會嚴重影響結果,和分析的意義瘾英。許多聚類方法是可行的枣接,包括k-means聚類和等級聚類,這在ref33中方咆。Modules然后可以被功能富集分析解釋月腋,這是一種鑒定排序在一個genes list中overrepresented功能范疇的方法。
共表達分析中瓣赂,考慮樣本的異質性非常重要榆骚。組織特異性或condition特異性共表達網(wǎng)絡模塊在一個從多組織或多condition而來的共表達網(wǎng)絡中不能被檢測到,因為組織或condition特異性模塊的相關性信息因為其他組織/condition缺乏相關信息被稀釋了煌集。然而妓肢,把共表達分析限制在一個特定的組織或condition也會減少樣本size,因此會降低統(tǒng)計效應而不能檢測到共表達模塊苫纤。因此碉钠,不區(qū)分組織或condition間的方法應當用來鑒定普通共表達模塊。而用來比較不同組織或condition的差異共表達更好的用來鑒定對特定的組織或condition特異的模塊卷拘。
1 共表達網(wǎng)絡的類型
Signed和unsigned共表達網(wǎng)絡(有方向和無方向喊废,起始是正相關和負相關)
在一個基于相關性的共表達網(wǎng)絡中,相關性測量的值介于-1(完全負相關)到1(完全正相關)之間栗弟。在無方向網(wǎng)絡中污筷,使用的是絕對相關系數(shù),這就以為著兩個負相關的genes也會被認為共表達乍赫,這就導致負相關的genes也會被group到一起瓣蛀。因為另外那些完全正相關共表達的genes是完全不同的表達模式,這些正負相關genes被group到同一個模塊中雷厂,可能會擾亂網(wǎng)絡結構惋增。有方向的網(wǎng)絡可以解決這個問題,其采取的是把相關性值scale到0和1之間改鲫。其中诈皿,0-0.5代表負相關,0.5-1代表正相關像棘。有方向的方法產生的網(wǎng)絡可以更好的分離出有生物意義的modules(比如那些代表一個特別的生物過程的)纫塌。這樣,接近0的值代表負相關讲弄,當miRNAs被引入網(wǎng)絡中時措左,這個特征可能尤其有意義,因為miRNAs主要通過下調其他genes來行駛其功能避除。這對一些長基因間非編碼RNAs(lincRNAS, long intergenic non-coding RNAs)同樣生效怎披。
Weighted and un-weighted co-expression networks
在一個權重網(wǎng)絡中胸嘁,所有的genes都彼此聯(lián)系,這些聯(lián)系的值介于0和1之間凉逛,以此來顯示這些genes之間的共調控強度性宏。在一個非權重網(wǎng)絡中,基因對之間的關系是二進制状飞,0或1毫胜,代表gene之間要么沒聯(lián)系要么有聯(lián)系。一個非權重網(wǎng)絡可以從權重網(wǎng)絡產生诬辈。例如酵使,考慮相關性大于某個值的genes有聯(lián)系,否則沒有焙糟。我們review關注權重網(wǎng)絡口渔,因為到目前位置,他們比非權重網(wǎng)絡產生的網(wǎng)絡更加穩(wěn)健穿撮,ref40缺脉。
Microarrays versus RNA-seq data
從微陣列或RNA-seq技術獲得的data都可以從他們的表達譜數(shù)據(jù)構建共表達網(wǎng)絡。RNA-seq的一個最大的優(yōu)勢是它可以對超過7w個非編碼RNAs的表達值進行定量悦穿,這對微陣列是不可能做到的攻礼,這其中包括最近剛被注釋的lincRNAs,他們中的很多都被認為有調節(jié)作用栗柒,在疾病中要重要角色礁扮。因此,為了生物過程驅動的調控機制的理解傍衡,非編碼RNAs需要考慮分析。
RNA-seq還有其他優(yōu)勢负蠕。它提高了低豐度轉錄本的精確性蛙埂,對鑒定組織特性表達,區(qū)分緊密相關的旁系同源genes有更好的解決遮糖。RNA-seq也可以鑒定不同剪切體之間的表達绣的,它們有不同的相互作用partners和生物功能。對RNA-seq的共表達分析可以這些剪切體和lincRNAs指定推斷的功能欲账,并且可以推斷他們可能參與的疾病屡江。剪切體水平的共表達分析的局限是引入了偏倚性,因為如果很多剪切體共享同一個表達的外顯子的話赛不,很難發(fā)現(xiàn)那個剪切體被表達惩嘉。
作為RNA-seq’s的應用的一個例子是isoform和外顯子特異表達水平測量,外顯子水平表達用來構建co-splicing 網(wǎng)絡踢故。在基因共表達網(wǎng)絡中文黎,同一個genes來源的不同轉錄本的表達通常會被加強惹苗,這會導致有偏倚的共表達信號。在一個co-splicing網(wǎng)絡中耸峭,這個問題可以在計算基因共表達系數(shù)時桩蓉,通過考慮外顯子表達水平一個gene內的分布來解決。在一個生物學terms這意味這劳闹,只有兩個基因的不同的splice variants顯示出共調節(jié)表達他們才被考慮相關院究,如果不是這樣,那么他們被認為不是共表達本涕,甚至這個基因的總體表達譜是相關的业汰。這個方法已經(jīng)鑒定了新的功能modules,這使用傳統(tǒng)的共表達網(wǎng)絡是無法鑒定的偏友。另外蔬胯,使用這種方法,含有很多個外顯子和轉錄本的基因需要在網(wǎng)絡中有更多的relevent位置位他。
一個不同的方法是基于reads匹配到不同外顯子上分布來決定源于同一個gene的不同同分異構體的表達氛濒。這個方法是SpliceNet。
2 Clustering and network analysis identifying modules
聚類用來把在很多樣本中有相似表達模式的genes進行歸組鹅髓,這些產生的模塊經(jīng)常代表某生理過程舞竿,或某特殊表型。
用的最多的共表達分析的聚類包是WGCNA窿冯。這個包使用的是等級聚類構建共表達網(wǎng)絡骗奖,當然這個是基于表達譜數(shù)據(jù)的相關性。等級聚類醒串,把每一個cluster分成sub-clusters來產生帶樹枝的樹执桌,這些樹枝代表共表達模塊。然后這些模塊通過剪切樹枝的高度來進行定義芜赌。
WGCNA是第一個用于RNA-seq數(shù)據(jù)共表達網(wǎng)絡構建的工具仰挣,和微陣列數(shù)據(jù)方法相似〔颍基于這個方法膘壶,鑒定了一個lincRNAs模塊,這個模塊和心臟病有關洲愤。
共表達模塊還被用了鑒定人和小鼠不同的發(fā)育階段颓芭。每個階段的每個模塊被鑒定出來然后在人和小鼠之間進行比較,揭示了在小鼠oocyte形成和人中oocyte和單細胞階段的共表達模塊的強overlap柬赐。這表明亡问,人和小鼠在早期發(fā)育階段有共同的核心轉錄程序,后來不一樣了肛宋。Ref12玛界。
Identifying modules
聚類用來把在很多樣本中有相似表達模式的genes進行歸組万矾,這些產生的模塊經(jīng)常代表某生理過程,或某特殊表型慎框。
用的最多的共表達分析的聚類包是WGCNA良狈。這個包使用的是等級聚類構建共表達網(wǎng)絡,當然這個是基于表達譜數(shù)據(jù)的相關性笨枯。等級聚類薪丁,把每一個cluster分成sub-clusters來產生帶樹枝的樹,這些樹枝代表共表達模塊馅精。然后這些模塊通過剪切樹枝的高度來進行定義严嗜。
WGCNA是第一個用于RNA-seq數(shù)據(jù)共表達網(wǎng)絡構建的工具,和微陣列數(shù)據(jù)方法相似洲敢÷基于這個方法,鑒定了一個lincRNAs模塊压彭,這個模塊和心臟病有關睦优。
共表達模塊還被用了鑒定人和小鼠不同的發(fā)育階段。每個階段的每個模塊被鑒定出來然后在人和小鼠之間進行比較壮不,揭示了在小鼠oocyte形成和人中oocyte和單細胞階段的共表達模塊的強overlap汗盘。這表明,人和小鼠在早期發(fā)育階段有共同的核心轉錄程序询一,后來不一樣了隐孽。Ref12。
Identifying hub genes
通過clustering鑒定的共表達模塊通常很大健蕊,這樣的話菱阵,就非常有必要來鑒定每個模塊中哪些基因可以更好的解釋這種行為。一個廣為使用的方法是鑒定共表達網(wǎng)絡中的高連接度genes(highly connected genes)缩功,也就是hub genes晴及。Hubs比起其他nodes來說,和網(wǎng)絡的功能更加相關ref69掂之,在生物網(wǎng)絡中也是這樣32抗俄,雖然數(shù)學派生詞顯示脆丁,這只是對于intra-modular hub gene模塊內hub genes世舰。(和inter-modular hub genes相反)64,65槽卫。模塊內的hubs是網(wǎng)絡中某特定模塊中最重要的跟压,支配作用的。為了鑒定hub genes歼培,centrality 方法震蒋,主要是“betweenness centrality”常被使用茸塞。那些有高的中介性中心值的基因(high betweenness centrality)作為網(wǎng)絡中最短路徑連接(子),非常重要查剖。連接度通常用來度量網(wǎng)絡的穩(wěn)健性robustness钾虐,顯示了在保持基因不被連接之前有多少genes需要從網(wǎng)絡中被移除。鑒定共表達網(wǎng)絡中的hub genes已經(jīng)協(xié)助發(fā)現(xiàn)cancer笋庄,II型糖尿病效扫,和其他疾病中的必須基因。還有組織再生直砂。
因為在一個module中通常有很多hubs或差異連接genes菌仁,通常對隱含在表型下最重要的gene并不是十分清晰。也沒有保證就說hub genes就和表型有因果關系静暂。使用來自1617個樣品的心肌數(shù)據(jù)的一項研究發(fā)現(xiàn)已知的胎兒基因標志物在發(fā)育和患病心肌共同的基因網(wǎng)絡中上調不是樞紐基因济丘。另一個有關沙門菌的共表達研究發(fā)現(xiàn),hub genes對生長洽蛀,壓力調節(jié)摹迷,毒力等可有可無,這都揭示辱士,hub genes不是一定必不可少泪掀。(頭大了。颂碘。异赫。。头岔。塔拳。。峡竣。靠抑。。适掰。颂碧。。)
Guilt by assosiation
把生物意義附加到modules中类浪,一個廣為使用的方法是確定一個模塊內的genes的功能富集载城,這可以使用下面這個table1中的工具。(table1很長费就,覆蓋了本文中所有流程工具)诉瓦。
假定共表達基因是功能相關的,假設共表達的基因在功能上是相關的,可以將富集的功能分配給相同共表達模塊內的注釋不佳的基因睬澡,這種方法通常被稱為“通過關聯(lián)犯罪”(GBA)121(類似株連固额,大家都在一個模塊內,別的都有這種功能煞聪,那你雖然沒被注釋斗躏,但很可能也這樣)。GBA方法也被廣泛用于鑒定新的潛在的疾病基因昔脯,如果一個模塊內的genes的大部分都和一個特定的疾病聯(lián)系在一起的話瑟捣,26,121-126栅干,fig1迈套。
當使用GBA方法時,一定要記住碱鳞,并不是模塊中的每個基因都一定與它所富集的功能或疾病相關桑李。因為共表達模塊通常由大量的genes組成,任何功能過程或疾病相關的基因group的過量表達都會迅速變的有統(tǒng)計學意義窿给,切p值很小贵白。對這些p值的誤解可能會導致一個錯誤的結論,那就是一個模塊內的所有genes都在一個特定的過程或疾病中起著重要作用崩泡。而實際上禁荒,模塊中與其主要生物功能相關的genes比例通常都小于20%,參考127角撞,并且呛伴,module-trait相關性可能相對較低(相關性<0.5),哪怕有統(tǒng)計學意義谒所。128热康。(28法則么,每段手法一致劣领,先說好姐军,再說不好,再引入下一個section)
Regulatory network construction
雖然有足夠的證據(jù)表明尖淘,共表達網(wǎng)絡分析可以協(xié)助鑒定在疾病或生物功能中起重要作用的基因奕锌,但是從共表達網(wǎng)絡中推論因果關系仍然很難。像ARACNE(23)和GENIE3(113)這樣的工具試圖從共表達網(wǎng)絡總構建調控網(wǎng)絡村生。ARACNE移除genes間的非直接連接(例如惊暴,與基因本身相關性較強的基因的伙伴),只留下可能有調節(jié)作用的連接梆造。GENIE3整合了TF信息來構建調控網(wǎng)絡缴守,這通過最能解釋每個靶基因表達模式的TF的表達模式。GENIE3的局限是镇辉,A limitation of GENIE3 is that TF information is required for it to perform better than random chance屡穗。
(后面還有很多,大概就是wgcna結合ARACNE可以做的很好)忽肛。131
Differential co-expression analysis
差異共表達分析可以鑒定生物學上重要的差異共表達模塊村砂,這使用常規(guī)的共表達或差異表達分析是不能的。那些不同的樣本groups中差異共表達的基因更可能是regulators屹逛,因此更能解釋表型之間的差異础废。差異共表達分析已經(jīng)被用來鑒定隱含在健康和疾病樣本間或不同組織,細胞或種族間的genes罕模。下面我們提供通常使用的和新出現(xiàn)的方法和工具评腺,可以分為兩個范疇。第一淑掌,鑒定預先定義的樣本組之間的差異共表達的方法(比如conditions蒿讥,時間點或組織類型)第二,不需要關于樣本組的先驗知識抛腕,使用的是一個算法來鑒定共表達clusters(預先不知道樣本subpopulations)芋绸。
Differential co-expression analysis between sample groups
大多數(shù)的差異共表達分析依賴不同clustering,他們鑒定的是clusters担敌,這些clusters包含的是在改變的conditions或表型下不同的基因或行為異同摔敛。最常使用的進行差異聚類分析的程序(也已經(jīng)和其他程序比較)是WGCNA.,DICER,DiffCoEx,所有以上這些都是先鑒定所有研究樣本中共表達的模塊全封。這些共表達模塊然后可以和預先定義的樣本亞群關聯(lián)马昙,比如,疾病狀態(tài)或組織類型刹悴。
WGCNA定義每個樣本亞群中module的活性和重要性fig3a3c给猾。對每一個module,會計算一個特征基因颂跨,這個向量可以最好的描述這個模塊中所有基因的表達行為敢伸。然后,通過鑒定與模塊基因組行為相似的基因或模塊內基因的基因(這些基因往往一致)恒削,優(yōu)先考慮這些模塊中的哪些基因可能成為與模塊相關的表型的基礎池颈。(以下關于那兩個方法的不再翻譯)
下面作者講了一些應用
比如扣孟,組織特異性網(wǎng)絡中锄禽,對組織功能特異的TFs傾向于和組織特異性基因一起高表達。這些基因之間相對其他基因更傾向于形成強連接创倔,這些基因傾向于與其他基因形成更強的連接携丁,但是保留在網(wǎng)絡的外圍(因此具有低的中心性)琢歇,而組織特異性的TF變得更加重要兰怠。因此,通過識別組織特異性網(wǎng)絡(圖3A和3C)中增加的共表達強度的模塊以及通過精確定位這些模塊的中心樞紐李茫,可以揭示組織特異性TF揭保。相反,通過鑒定這些模塊周圍的基因魄宏,可以檢測到不是TFs但是組織特異性的基因(圖3B)秸侣。 而且,一些TF在不同的組織中具有不同的作用宠互。 這些TF將被認為是在一個條件下是一個模塊核心的中樞基因味榛,而在另一個條件下是另一個模塊的核心。差異連接的基因是在兩個樣品組之間具有不同共表達伴侶的基因予跌。 這些基因似乎在兩組間觀察到的表型差異中發(fā)揮調節(jié)作用(圖3D)例如搏色,一項研究使用類似于DiffCoEx的方法比較了突變牛中的共表達與增加的肌肉生長與非突變體中的共表達。 通過鑒定最差異表達的基因和顯示與這些基因的最高差異連接的TF(圖3D)(圖3D)券册,鑒定了含有因果突變(肌肉生長抑制素)的TF继榆。 有趣的是,編碼這種TF的Mstn基因在表達本身中幾乎沒有變化汁掠,提供了差異共表達分析如何揭示生物學上重要的發(fā)現(xiàn)而不是僅通過差異表達分析揭示的例子略吨。
3 Integrated network analysis
實驗驗證經(jīng)常是聚焦于單個基因。因為這些實驗花費多又耗時考阱,所以對因果基因的高可信度預測非常重要翠忠。僅僅基于共表達的分析還不能提供這種信心。因此乞榨,整合其他類型的數(shù)據(jù)有助于優(yōu)先考慮那些可能構成表型的genes秽之。這是可行的,例如吃既,使用諸如描述那些基因是TF是考榨,這可以由GENIE3進行調控預測。然而鹦倚,聚焦于TFs是不夠的河质,還需要整合多個數(shù)據(jù)類型來提高網(wǎng)絡的精確性和有效性。
TF binding site analysis
基因組范圍的轉錄因子結合位點(TFBS)分析是在本世紀初采用的是染色質免疫沉淀震叙,然后是芯片分析掀鹅,也稱為ChIP芯片,后來被替換為更精確的ChIP-seq [149]媒楼。這些數(shù)據(jù)被用來從基因表達和TFBS數(shù)據(jù)中創(chuàng)建全基因組整合調控網(wǎng)絡[150]乐尊。 基于ChIP芯片的TFBSs和表達數(shù)據(jù)的聯(lián)合分析初步顯示,在58%的case中划址,與基因啟動子區(qū)域結合的TFs確實被相應的TF調控[151]扔嵌。 偏最小二乘法(一種眾所周知的分析方法高維數(shù)據(jù)與幾個連續(xù)響應變量)后來被提出來識別假陽性限府,并區(qū)分TFs的激活和抑制活性[152]。 更新的方法利用快速增加的ChIP-seq數(shù)據(jù)的可用性痢缎,結合表達數(shù)據(jù)對TF結合的基因進行排序胁勺,這可以用來優(yōu)先選擇最可能的TF目標[153]。 進行類似分析牺弄,整合表達和ChIP數(shù)據(jù)的工具也已經(jīng)出版。
Multilayer integrated networks
獨立于識別他們的方法宜狐,共享eQTL基因靶標势告,TF/miRNA靶標或富集motifs的網(wǎng)絡模塊可以被進一步研究。幾種計算方法和公用可獲得數(shù)據(jù)集可以用了進行多組學數(shù)據(jù)整合抚恒。例如咱台,關于eQTLs的信息可以從最近的large-scale blood-based trans-eQTL meta分析獲得,或者從其他組織類型進行的Eqtl研究獲得俭驮。轉錄因子結合位點TFBSs可以從JASPAR和DeepBind數(shù)據(jù)庫獲取回溺,這兩個網(wǎng)站包含從實驗數(shù)據(jù)來的TF結合motifs。通過investigate查看從ENCODE來的組織特異性CHIP-seq 峰混萝,結合位點可以被進一步優(yōu)先化遗遵。最后,使用幾個生物信息學靶基因預測工具158逸嘀,159可以鑒定miRNA-target的相互作用车要,或者使用手工產生的實驗支持的數(shù)據(jù)庫來探索這些靶基因相互作用160-162。
整合不同層次的數(shù)據(jù)信息或許會以幾種方式產生新的生物學可解釋的聯(lián)系崭倘。如果模塊內的hub genes是TFs或TF的靶標翼岁,那么這個TF很可能和你研究的表型具有因果作用。如果在同一模塊中存在多個全基因組關聯(lián)研究(GWAS)命中司光,則其累積存在可以顯著促成疾病發(fā)展琅坡。120.163.164。在一個共表達模塊中的gene的不同甲基化狀態(tài)也可以闡明潛在的疾病的模式残家。如果多個基因受到相同遺傳變異的調控(在trans-eQTL效應下)榆俺,通過鑒定驅動trans-eQTL效應的cis-eQTL基因,可能可能鑒定出負責改變網(wǎng)絡的基因(圖4)坞淮。這個是被下面這個事實支持的:這得到以下事實的支持:疾病相關基因組變體的反式調節(jié)下的基因有時在功能上與相應疾病相關的過程或途徑相關谴仙。
總之,整個多個數(shù)據(jù)類型增加結果預測的精確性碾盐。例如晃跺,通過將腫瘤基因組序列與基因網(wǎng)絡整合,鑒定了不同亞型癌癥所特有的模塊[166]毫玖,這些模塊可能有助于個體化醫(yī)療治療推斷的靶標的預后和鑒定掀虎。 本文前面介紹的一些工具可用于差異共表達分析凌盯,但也可應用于其他數(shù)據(jù)類型。 在最初的DINGO出版物中烹玉,作者對mRNA表達驰怎,DNA拷貝數(shù)變異和甲基化數(shù)據(jù)進行了綜合分析。通過覆蓋每種數(shù)據(jù)類型的差異網(wǎng)絡二打,識別出他們所有中都出現(xiàn)的邊县忌,來自PI3K通路的很多genes被識別為惡性膠質瘤病人的重要players。這個通路是一個已經(jīng)建立的治療靶點继效,支持這個notion:在疾病相關靶標的識別上是一個有效的方法症杏。一個最近剛出版的tool,CoRegNet瑞信,通過識別不同數(shù)據(jù)類型的基因共合作調節(jié)(co-operative regulators of genes)允許不同類型數(shù)據(jù)的整合到一個共表達分析中厉颤。另外一個已經(jīng)建立的方法是cMonkey,通過識別多個數(shù)據(jù)類型中的可group到一組的gene組來計算聯(lián)合雙聚類成員的可能性凡简,以此獲取相似的數(shù)據(jù)整合逼友。
4 Future prospects
近些年來,差異共表達分析更多的被用來分析大的數(shù)據(jù)集秤涩。這歸因于:大規(guī)闹钠颍基因表達譜花費降低,尤其是RNA-seq筐眷;增加的樣本sizes挖函;從擾動實驗來的組織特異性數(shù)據(jù)的更大的可獲取性,這些都是碩果累累的差異共表達分析的原因浊竟。
另外一個前景是來于RNA-seq數(shù)據(jù)的突變檢測怨喘。因為在不同的細胞中突變會隨著年齡累積,這可以用于發(fā)現(xiàn)cell的來源振定。突變累積已經(jīng)用來研究癌癥發(fā)展和惡變來源必怜。在大規(guī)模單細胞RNA-seq實驗中,可以基于其來源進行分離細胞后频,或者基于他們擁有的突變來group細胞梳庆。擁有相同的突變的細胞可以發(fā)現(xiàn)有共表達模式,帶有特異突變的細胞模塊也可以被檢測卑惜。這可以直接把圖表和表達模塊聯(lián)系起來膏执,有個局限就是在RNA-seq中只有編碼區(qū)的突變區(qū)域才能被識別。隨著不同類型數(shù)據(jù)諸如RNA-seq露久,基因組序列更米,CHIP-seq,甲基化和蛋白組數(shù)據(jù)的持續(xù)增長毫痕,整合這些數(shù)據(jù)來精確預測調控基因成為可能征峦。來自像GTEx迟几,Epigenome Roadmap,ENCODE這種大集團的項目栏笆,已經(jīng)產生了來于多個組學水平的數(shù)據(jù)类腮,促進了整合分析。為了識別調控關系蛉加,擾動數(shù)據(jù)是更合適的蚜枢,因為cononical數(shù)據(jù)不能區(qū)分調控關系中的真陽性和假陽性。進一步针饥,調控關系可以是高度細胞類型-厂抽,組織-,或發(fā)育階段-特異性打厘。當前只有少量的工具和方法可以用來研究investigate多組學數(shù)據(jù)修肠,并且現(xiàn)有的工具大部分只能整合兩個層次的組學數(shù)據(jù)贺辰。整合網(wǎng)絡分析有另外的數(shù)學挑戰(zhàn)户盯,最好的實踐遠沒有構建。關于這些topic的進一步研究饲化,對研究者十分有趣莽鸭,因為這會對可以解釋共表達模式和疾病機制的調控機制有更好的理解。而對這些疾病機制和相應的共表達模式的更好的理解便于確定干預研究的適當目標吃靠。