微陣列數(shù)據(jù)的網(wǎng)絡(luò)分析
作者
- Alisa Pavel, Angela Serra, Luca Cattelani, Antonio Federico,and Dario Greco
摘要
- DNA微陣列被廣泛用于研究基因表達(dá)占锯。盡管傳統(tǒng)的微陣列數(shù)據(jù)分析基于差異表達(dá)基因的研究,但眾所周知该互,基因并非單獨(dú)起作用麻车。網(wǎng)絡(luò)分析可用于研究生物系統(tǒng)中基因的關(guān)聯(lián)模式拜隧。此外阵苇,它在不同系統(tǒng)之間的差異共表達(dá)分析中具有廣泛應(yīng)用备禀。
- 基于網(wǎng)絡(luò)的共表達(dá)研究已被用于(復(fù)雜)疾病基因優(yōu)先排序洲拇、疾病亞型劃分和患者分層。
- 在本章中曲尸,我們概述了用于從微陣列數(shù)據(jù)創(chuàng)建網(wǎng)絡(luò)的方法和工具赋续,并描述了多種分析單個(gè)網(wǎng)絡(luò)或網(wǎng)絡(luò)組的方法。所描述的方法涵蓋從拓?fù)渲笜?biāo)另患、功能組識(shí)別到數(shù)據(jù)整合策略纽乱、拓?fù)渫贩治?/strong>以及圖模型。
關(guān)鍵詞
- Microarray, Coexpression, Differential coexpression, Multilayer networks, Pathways
引言
-
大規(guī)模轉(zhuǎn)錄組分析的最終目標(biāo)
- 例如昆箕,DNA微陣列的應(yīng)用
- 表征特定生物條件下的分子變化[1, 2]
-
傳統(tǒng)單變量分析的局限性
- 轉(zhuǎn)錄組學(xué)分析能夠識(shí)別在特定條件下上調(diào)或下調(diào)的數(shù)百個(gè)基因
- 單個(gè)基因的變化可能無法展示系統(tǒng)中復(fù)雜的相互作用[3]
-
共表達(dá)網(wǎng)絡(luò)分析的優(yōu)勢(shì)
- 描述基因-基因相互作用鸦列,以支持表型的理解
- 在大規(guī)模轉(zhuǎn)錄組實(shí)驗(yàn)中,基于網(wǎng)絡(luò)的分析可以表征個(gè)體基因之間基于表達(dá)水平的機(jī)制性相互作用[4–7]
[圖片上傳失敗...(image-3cbd05-1727830721693)]
<figcaption>image</figcaption>
-
共表達(dá)網(wǎng)絡(luò)的構(gòu)建
基于微陣列測(cè)量的基因表達(dá)估計(jì)值構(gòu)建共表達(dá)網(wǎng)絡(luò)(見圖1a–c)
基因和它們的關(guān)聯(lián)以圖的形式表示鹏倘,基因作為網(wǎng)絡(luò)的節(jié)點(diǎn)薯嗤,相似性的強(qiáng)度通過加權(quán)或無權(quán)邊連接
-
網(wǎng)絡(luò)表示的優(yōu)勢(shì)
- 利用廣泛的網(wǎng)絡(luò)拓?fù)鋵傩?/strong>生成關(guān)于系統(tǒng)的新知識(shí)[8, 9]
- 社區(qū)檢測(cè)或模塊檢測(cè)可發(fā)現(xiàn)緊密連接的基因區(qū)域(見圖1g),并通過通路或基因本體富集進(jìn)行功能性表征(見圖1h)[10]
- 多網(wǎng)絡(luò)比較可以提供關(guān)于特定功能纤泵、單個(gè)基因或基因鄰域在多種條件下是否受到影響的見解
-
與其他先驗(yàn)信息的整合
- 使用DNA微陣列數(shù)據(jù)構(gòu)建的共表達(dá)網(wǎng)絡(luò)可以與其他先驗(yàn)信息(如蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)或共同調(diào)控網(wǎng)絡(luò))整合骆姐,以提高結(jié)果的魯棒性(見圖1d)[11]
- 基于基因或其蛋白質(zhì)直接相互作用或共同調(diào)控通常屬于相同的生物功能,因此可能共表達(dá)[12]
- 在網(wǎng)絡(luò)生成過程中添加這些信息捏题,允許算法檢測(cè)噪聲相關(guān)模式
- 網(wǎng)絡(luò)分析也可應(yīng)用于多組學(xué)數(shù)據(jù)分析玻褪,使用來自不同(實(shí)驗(yàn))數(shù)據(jù)層的互補(bǔ)信息構(gòu)建生物系統(tǒng)的綜合網(wǎng)絡(luò)圖
-
基因優(yōu)先級(jí)排序方法的發(fā)展
自從DNA微陣列技術(shù)成為研究復(fù)雜(或多因素)疾病的關(guān)鍵工具,這些疾病由涉及大量基因的復(fù)雜相互作用和擾動(dòng)導(dǎo)致涉馅,基因優(yōu)先級(jí)排序方法的發(fā)展迅速[13]
這些方法旨在通過利用大規(guī)模組學(xué)研究來發(fā)現(xiàn)和優(yōu)先排序候選疾病相關(guān)基因標(biāo)記[14]
通過基于網(wǎng)絡(luò)的方法進(jìn)行基因優(yōu)先級(jí)排序已成為相當(dāng)流行的工具
另一個(gè)理解分子關(guān)系的復(fù)雜層面在于大多數(shù)細(xì)胞過程通過關(guān)鍵基因相互連接(見圖1f)
網(wǎng)絡(luò)分析幫助生物醫(yī)學(xué)研究人員識(shí)別和優(yōu)先排序這些關(guān)鍵基因
-
兩種最廣泛使用的策略:
- 考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)
- 利用組成網(wǎng)絡(luò)的基因的先驗(yàn)信息[15]
-
網(wǎng)絡(luò)理論在疾病子類型劃分中的應(yīng)用
- 近年來归园,大量大規(guī)模數(shù)據(jù)的可用性使得多種人類疾病,特別是多因素疾病稚矿,能夠定義“疾病子型”[16]
- 盡管某種疾病在受影響人群中具有相似的表型特征庸诱,但個(gè)體患者很少表現(xiàn)出相同的分子構(gòu)成
- 這在復(fù)雜疾病如癌癥以及代謝和免疫綜合征中尤為明顯[17]
- 以癌癥生物學(xué)研究為例捻浦,識(shí)別患者子型是一個(gè)核心研究主題,旨在發(fā)現(xiàn)新的藥物靶點(diǎn)并從傳統(tǒng)治療方法(單一疾病-單一療法)轉(zhuǎn)向****準(zhǔn)個(gè)性化的藥物治療(單一疾病-多種療法)
- 某些癌癥類型的組織學(xué)子型已被很好地建立[17]
- 相比之下桥爽,從分子角度進(jìn)行癌癥子型劃分可能不那么明顯朱灿,原因在于癌癥中的分子變化異質(zhì)性
- 通過整合分子網(wǎng)絡(luò)與突變譜,可以實(shí)現(xiàn)臨床相關(guān)子型的腫瘤分層
-
本章內(nèi)容概述
- 定義圖或網(wǎng)絡(luò)的概念
- 描述構(gòu)建基因共表達(dá)網(wǎng)絡(luò)的算法及其基于網(wǎng)絡(luò)拓?fù)涞南嚓P(guān)節(jié)點(diǎn)和邊的識(shí)別指標(biāo)
- 涉及通路富集分析的基本概念
- 差異共表達(dá)分析
- 在生物網(wǎng)絡(luò)上使用圖形模型
圖的概念
[圖片上傳失敗...(image-d838dd-1727830721693)]
<figcaption>image</figcaption>
-
圖的定義
- 一個(gè)圖 ( G = (V, E) )钠四,由一組節(jié)點(diǎn)(V)和一組邊(E)組成盗扒。
- 例如,圖2a中的節(jié)點(diǎn)集為[w, x, y, z]缀去,邊集為[yw, yx, yz, xz]侣灶。
- 邊wy連接兩個(gè)節(jié)點(diǎn)[w, y],用于建模節(jié)點(diǎn)w和節(jié)點(diǎn)y之間的關(guān)系缕碎。
-
無向網(wǎng)絡(luò)
- 在無向網(wǎng)絡(luò)中褥影,yw = wy。
- 這意味著任何邊都沒有方向咏雌,可以雙向遍歷凡怎。
- 例如,在圖2a中赊抖,可以通過邊yw從w到y(tǒng)统倒,也可以通過邊wy從y到w。
-
有向網(wǎng)絡(luò)
- 在有向網(wǎng)絡(luò)中氛雪,每條邊都有一個(gè)方向房匆,圖只能按該方向遍歷。
- 例如报亩,在圖2b中坛缕,可以通過邊yw從y到w,但無法通過wy從w到y(tǒng)捆昏,因?yàn)椴淮嬖谶厀y。
-
邊的權(quán)重屬性
邊可以關(guān)聯(lián)權(quán)重屬性毙沾,例如骗卜,表示節(jié)點(diǎn)y和節(jié)點(diǎn)w之間的距離或相關(guān)系數(shù)。
-
在無權(quán)網(wǎng)絡(luò)中左胞,每條邊被視為相等寇仓,不分配權(quán)重屬性。
- 例如烤宙,在圖2a中遍烦,從節(jié)點(diǎn)y到節(jié)點(diǎn)x或節(jié)點(diǎn)z的“成本”相同。
- 在圖2c中躺枕,邊zx的“成本”比邊yx的“成本”更低服猪。
-
權(quán)重屬性的含義取決于用戶定義:
- 大的值可以表示更大的距離或更高的相似性(例如供填,邊屬性為相關(guān)性時(shí))。
- 權(quán)重屬性不必限制在[0,1]罢猪,可以在任意范圍內(nèi)近她,由用戶定義。
用戶需確保算法正確解釋邊屬性膳帕。
-
二元網(wǎng)絡(luò)表示
-
在二元網(wǎng)絡(luò)表示中粘捎,邊的權(quán)重為1或0。
- 邊權(quán)重為1表示該邊存在危彩。
- 邊權(quán)重為0表示該邊不存在攒磨。
-
基因共表達(dá)網(wǎng)絡(luò)的算法
-
微陣列實(shí)驗(yàn)分析的結(jié)果
-
歸一化表達(dá)矩陣 ( D )
- M行代表基因
- N列代表樣本
-
從該矩陣構(gòu)建基因共表達(dá)網(wǎng)絡(luò)
- 允許研究基因在實(shí)驗(yàn)條件下的共同行為
-
-
共表達(dá)網(wǎng)絡(luò)的定義
-
圖 ( G = (V, E) )
- V:M個(gè)節(jié)點(diǎn),代表基因
- E:邊集汤徽,代表所有基因?qū)χg的共表達(dá)
假設(shè):表達(dá)模式相似的基因是共表達(dá)的
-
共表達(dá)計(jì)算方法:
-
信息理論方法:
- 皮爾遜相關(guān)系數(shù)
- 互信息(MI)[18, 19]
-
相似性評(píng)估:
-
連續(xù)值范圍:-1到1
- 正值:基因表達(dá)模式相似
- 負(fù)值:基因表達(dá)模式相反
-
-
-
-
加權(quán)無向全連通圖
-
邊的性質(zhì):
- 加權(quán)娩缰、無向、全連通
- 每對(duì)基因之間存在一條邊
-
噪音問題:
- 微陣列數(shù)據(jù)容易受到噪音和實(shí)驗(yàn)偏差的影響
- 需要區(qū)分真實(shí)邊和噪音邊[20]
-
-
邊的篩選方法
-
簡單閾值法
用戶定義閾值泻骤,切除權(quán)重低于閾值的邊
-
假設(shè):
- 低相關(guān)或互信息值可能由噪音引起
- 高值可能包含有意義的信息
-
缺點(diǎn):
- 閾值選擇任意
- 不考慮網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)
- 每條邊獨(dú)立處理
-
-
高級(jí)算法
-
RelNet [21]
-
兩步法:
- 創(chuàng)建完全連接的基因共表達(dá)矩陣漆羔,計(jì)算所有基因?qū)Φ?strong>互信息
- 定義TMI閾值,識(shí)別顯著關(guān)聯(lián)
-
-
ARACNE [22]
- 使用互信息和相關(guān)系數(shù)
- 計(jì)算所有基因?qū)Φ墓脖磉_(dá)值
- 減少假陽性連接狱掂,通過剪切每組三元組中的較弱關(guān)聯(lián)
-
CLR [23]
- 計(jì)算互信息
- 計(jì)算每個(gè)互信息值在網(wǎng)絡(luò)背景分布中的統(tǒng)計(jì)概率
- 選擇顯著高于背景分布的互信息值作為最可能的相互作用
-
算法差異
- 不同算法通過不同啟發(fā)式方法篩選非相關(guān)邊
- 在相同數(shù)據(jù)集上執(zhí)行時(shí)演痒,結(jié)果網(wǎng)絡(luò)可能不一致
-
-
INfORM工具 [10]
目的:推斷更穩(wěn)定和魯棒的網(wǎng)絡(luò)
-
方法:
- 集成策略,結(jié)合多個(gè)算法的結(jié)果
- 基因排名趋惨,根據(jù)相關(guān)性進(jìn)行排序
- 合并網(wǎng)絡(luò)鸟顺,確保基因-基因關(guān)聯(lián)的魯棒性
-
優(yōu)勢(shì):
- 提供圖形用戶界面
- 指導(dǎo)用戶進(jìn)行算法設(shè)置和執(zhí)行
局部和全局連通性測(cè)量
-
真實(shí)網(wǎng)絡(luò)的拓?fù)湫再|(zhì)研究
1999年,Albert-László Barabási 和 Réka Albert 發(fā)表了一項(xiàng)研究 [24]
-
他們發(fā)現(xiàn)真實(shí)網(wǎng)絡(luò)與隨機(jī)網(wǎng)絡(luò)在連通性上存在差異
- 真實(shí)網(wǎng)絡(luò)(如萬維網(wǎng)或分子網(wǎng)絡(luò))遵循無標(biāo)度冪律分布
- 隨機(jī)網(wǎng)絡(luò)遵循高斯分布
-
無標(biāo)度網(wǎng)絡(luò)特征:
- 含有少數(shù)樞紐節(jié)點(diǎn)器虾,具有大量邊
- 大多數(shù)節(jié)點(diǎn)具有較少邊
-
局部和全局網(wǎng)絡(luò)指標(biāo)
目標(biāo):量化節(jié)點(diǎn)基于網(wǎng)絡(luò)拓?fù)?/strong>的重要性 [25]
幫助識(shí)別對(duì)其他基因有高影響力的基因(如關(guān)鍵調(diào)控基因)讯嫂,可能是治療的良好靶點(diǎn) [26, 27]
-
各種測(cè)量方法(見表1):
- 不同方法評(píng)估節(jié)點(diǎn)的重要性(如信息流)
- 建議結(jié)合多種測(cè)量方法
[圖片上傳失敗...(image-7bfe33-1727830721693)]
<figcaption>image</figcaption>
-
生物網(wǎng)絡(luò)中的指標(biāo)解釋
-
PPI網(wǎng)絡(luò)或共表達(dá)網(wǎng)絡(luò)中:
- 高連接度節(jié)點(diǎn)(樞紐基因)可能是重要調(diào)控因子(如轉(zhuǎn)錄因子)
-
PPI網(wǎng)絡(luò):
- 表示蛋白質(zhì)在生物系統(tǒng)中的已知相互作用
- 節(jié)點(diǎn)為蛋白質(zhì),關(guān)系表示已知的相互作用(如酵母雙雜交分析)
-
多網(wǎng)絡(luò)比較:
- 比較不同組織或處理?xiàng)l件下的共表達(dá)網(wǎng)絡(luò)
- 使用度分布評(píng)估系統(tǒng)是否發(fā)生了顯著擾動(dòng)或比較基因的分位數(shù)位置 [34, 35]
-
加權(quán)網(wǎng)絡(luò)(如加權(quán)共表達(dá)網(wǎng)絡(luò)):
- 使用強(qiáng)度測(cè)量代替度測(cè)量
- 添加關(guān)于節(jié)點(diǎn)間相關(guān)性強(qiáng)度的信息
-
中心性指標(biāo):
- 中央性指標(biāo)不僅考慮節(jié)點(diǎn)的直接連接兆沙,還考慮其在網(wǎng)絡(luò)中的整體位置
- 比較多個(gè)網(wǎng)絡(luò)時(shí)欧芽,可識(shí)別整體連通性顯著變化的基因,可能受研究條件影響 [34, 36]
-
示例(圖3):
- 節(jié)點(diǎn)w具有最高的度和特征向量中心性
- 節(jié)點(diǎn)c具有最高的接近中心性
- 節(jié)點(diǎn)x具有最高的中介中心性葛圃,因?yàn)樗袃蓚€(gè)緊密連接組之間的流量都需要通過它
-
[圖片上傳失敗...(image-277c4b-1727830721693)]
<figcaption>image</figcaption>
-
全局網(wǎng)絡(luò)測(cè)量
-
全局網(wǎng)絡(luò)測(cè)量(見表2):
- 旨在量化網(wǎng)絡(luò)的整體拓?fù)浣Y(jié)構(gòu)千扔,不考慮個(gè)別節(jié)點(diǎn)
- 有助于比較多個(gè)網(wǎng)絡(luò)或比較缺少大量共同基因的網(wǎng)絡(luò)
-
結(jié)構(gòu)性測(cè)量:
- 快速比較多個(gè)網(wǎng)絡(luò)
- 例如,量化處理是否與對(duì)照網(wǎng)絡(luò)相比有特殊影響
- 低密度網(wǎng)絡(luò)可能表明失去穩(wěn)態(tài) [46]
-
圖元分布和環(huán)路分布:
- 圖元分布:不同的圖元與PPI網(wǎng)絡(luò)中的不同生物功能相關(guān)
- 環(huán)路分布:存在環(huán)路可能表示生物調(diào)控網(wǎng)絡(luò)中的反饋回路 [42, 43, 47]
-
[圖片上傳失敗...(image-b15118-1727830721693)]
<figcaption>image</figcaption>
社區(qū)檢測(cè)算法
[圖片上傳失敗...(image-71b707-1727830721693)]
<figcaption>image</figcaption>
-
社區(qū)檢測(cè)算法的目標(biāo)
將圖的節(jié)點(diǎn)分組為社區(qū)库正,基于不同的屬性
社區(qū)定義為內(nèi)部連接緊密曲楚,與網(wǎng)絡(luò)其他部分的外部連接較少
-
示例(圖4):
- 節(jié)點(diǎn)組w、z褥符、x在拓?fù)渖?strong>緊密連接
- w龙誊、z、x組之間外部邊較少喷楣,因此可描述為三個(gè)獨(dú)立社區(qū)
-
社區(qū)的定義與分類
-
社區(qū)(或稱模塊)定義:
- 節(jié)點(diǎn)集 ( C = {n_1, n_2, \dots, n_n} )
- 節(jié)點(diǎn)可以屬于單一社區(qū)或多個(gè)社區(qū)
-
社區(qū)檢測(cè)算法的分類(表3):
-
節(jié)點(diǎn)聚類算法:
- 為每個(gè)節(jié)點(diǎn)分配特定社區(qū)
-
重疊社區(qū)檢測(cè)算法:
- 允許節(jié)點(diǎn)屬于多個(gè)社區(qū)
-
概率社區(qū)檢測(cè)算法:
- 估計(jì)節(jié)點(diǎn)屬于社區(qū)的概率
-
邊聚類算法:
- 類似節(jié)點(diǎn)聚類趟大,但對(duì)邊進(jìn)行分組
-
-
-
社區(qū)檢測(cè)算法的詳細(xì)分類
-
加權(quán)與無權(quán)算法:
-
加權(quán)算法:
- 考慮邊的權(quán)重
-
無權(quán)算法:
- 視所有邊為相等
-
-
選擇算法的依據(jù):
- 根據(jù)研究問題和網(wǎng)絡(luò)類型選擇適合的算法
- 生物網(wǎng)絡(luò)常需考慮節(jié)點(diǎn)的多重功能
-
-
共表達(dá)網(wǎng)絡(luò)中的社區(qū)檢測(cè)
假設(shè):拓?fù)渖辖咏墓?jié)點(diǎn)屬于同一過程(如同一路徑的基因)
-
社區(qū)分組的優(yōu)勢(shì):
- 功能富集網(wǎng)絡(luò)的部分區(qū)域
-
常用方法:
- 節(jié)點(diǎn)聚類為主鹤树,但節(jié)點(diǎn)多社區(qū)歸屬在生物網(wǎng)絡(luò)中常見
-
加權(quán)社區(qū)檢測(cè):
- 利用邊權(quán)重(如相關(guān)性值)增強(qiáng)社區(qū)分組的準(zhǔn)確性
- 挑戰(zhàn):可能增加計(jì)算復(fù)雜度
-
社區(qū)劃分的評(píng)估指標(biāo)
-
評(píng)估“社區(qū)劃分質(zhì)量”的指標(biāo)(表4)
- 不同算法基于不同參數(shù)識(shí)別最佳劃分
- 評(píng)估參數(shù)側(cè)重于不同的質(zhì)量指標(biāo)
-
評(píng)估策略:
根據(jù)選擇的社區(qū)檢測(cè)算法選擇適當(dāng)?shù)脑u(píng)估指標(biāo)
多重評(píng)估參數(shù):推薦多角度評(píng)估劃分質(zhì)量
-
集成社區(qū)檢測(cè)方法:
- 結(jié)合多種劃分結(jié)果,識(shí)別共識(shí)劃分
- 優(yōu)點(diǎn):結(jié)合不同算法的優(yōu)勢(shì)护昧,提升社區(qū)劃分的魯棒性
- 缺點(diǎn):計(jì)算成本較高
-
通路富集分析
-
基因水平的差異表達(dá)分析局限
- 無法捕捉基因表達(dá)失調(diào)的功能性影響
- 需要更豐富的方法魂迄,將貢獻(xiàn)于單一生物功能的基因進(jìn)行聯(lián)合分析
-
通路分析的定義與目的
通路分析是一種分析程序,幫助闡明維持特定表型的功能性相互作用的破壞
-
通路:
- 細(xì)胞過程中功能性相互作用的簡化表示
- 多個(gè)不同性質(zhì)的參與者(如蛋白質(zhì)惋耙、代謝物)通過功能關(guān)系連接(例如捣炬,蛋白質(zhì)-蛋白質(zhì)相互作用)
-
利用生物功能關(guān)聯(lián)數(shù)據(jù)庫
將組學(xué)實(shí)驗(yàn)的分子發(fā)現(xiàn)與特定表型關(guān)聯(lián)的常見方法
-
常用數(shù)據(jù)庫:
- KEGG(京都基因與基因組百科全書)[68, 69]
- Reactome[70]
- Biocarta[71]
- PANTHER[72]
-
數(shù)據(jù)庫內(nèi)容:
- 基因集合分組到通路或生物功能
- 功能性表征一組相關(guān)基因(如差異表達(dá)基因或特定社區(qū)中的基因),而非單獨(dú)研究
-
富集方法
-
經(jīng)典富集方法依賴于統(tǒng)計(jì)檢驗(yàn)評(píng)估通路或功能組中基因的過度表達(dá)的統(tǒng)計(jì)顯著性
-
常用統(tǒng)計(jì)方法:
- 富爾確切檢驗(yàn)(Fisher exact test)
- 卡方檢驗(yàn)(chi-square test)
- 超幾何檢驗(yàn)(hypergeometric test)[73]
-
-
基因集富集分析(GSEA)[74]
- 基于基因排序列表評(píng)估一個(gè)或多個(gè)通路的富集
- 使用Kolmogorov–Smirnov檢驗(yàn)[75]
-
[圖片上傳失敗...(image-d86c25-1727830721693)]
<figcaption>image</figcaption>
-
拓?fù)鋵W(xué)方法的發(fā)展
-
從非拓?fù)鋵W(xué)方法轉(zhuǎn)向拓?fù)鋵W(xué)方法
- 考慮基因在通路中的位置绽榛、信號(hào)的類型和方向
- 優(yōu)勢(shì):假設(shè)檢驗(yàn)更準(zhǔn)確[66, 76]
-
影響分析(Impact Analysis)[77]
整合拓?fù)湫畔?/strong>的首個(gè)方法
-
考慮兩項(xiàng)屬性:
- 基因失調(diào)的幅度(通常表示為對(duì)數(shù)倍數(shù)變化)
- 基因-基因相互作用在通路中的位置和類型
-
實(shí)現(xiàn)工具:
- Pathway-Express包(現(xiàn)包含在ROntoTools中湿酸,https://rdrr.io/bioc/ROntoTools/)
- 后續(xù)工具:SPIA[78]、graphite[79]灭美、ROntoTools[80]
-
[圖片上傳失敗...(image-106578-1727830721693)]
<figcaption>image</figcaption>
-
拓?fù)鋵W(xué)與非拓?fù)鋵W(xué)方法的比較
-
Nguyen等人[66]對(duì)五種基于拓?fù)鋵W(xué)的通路分析工具和八種非基于拓?fù)鋵W(xué)的工具進(jìn)行了比較
-
發(fā)現(xiàn):
- 基于拓?fù)鋵W(xué)的工具通常表現(xiàn)更好
- 具體表現(xiàn)取決于工具和比較的具體方面
-
研究結(jié)果:
- 在真實(shí)病理數(shù)據(jù)的通路排名中推溃,非拓?fù)鋵W(xué)的PADOG算法[81]表現(xiàn)最佳
- 在敲除實(shí)驗(yàn)數(shù)據(jù)中,基于拓?fù)鋵W(xué)的ROntoTools表現(xiàn)最佳
- 在零假設(shè)下的p值分布中届腐,非拓?fù)鋵W(xué)的GSEA[74]是唯一無偏的方法
-
-
差異共表達(dá)分析
-
差異共表達(dá)分析的目標(biāo)
識(shí)別兩個(gè)或多個(gè)共表達(dá)網(wǎng)絡(luò)結(jié)構(gòu)中的顯著差異
-
假設(shè):
- 在不同實(shí)驗(yàn)設(shè)置(如疾病與對(duì)照)中铁坎,差異共表達(dá)的基因更可能是關(guān)鍵調(diào)控因子
- 這些基因可能解釋表型之間的差異[82–85]
-
基本方法
-
最簡單的方法:
- 對(duì)每個(gè)網(wǎng)絡(luò)中的基因根據(jù)一個(gè)或多個(gè)中心性指標(biāo)(如度中心性)進(jìn)行排名
- 比較這些排名,識(shí)別僅在一個(gè)共表達(dá)網(wǎng)絡(luò)中排名靠前的基因[25, 86, 87]
-
其他基因基于的方法:
識(shí)別在多個(gè)實(shí)驗(yàn)條件下與其他基因的關(guān)聯(lián)發(fā)生變化的基因
-
策略分類:
- 全局方法:比較一個(gè)基因與所有其他基因的表達(dá)模式
- 局部方法:比較一個(gè)基因與部分基因的表達(dá)模式
- 混合方法:結(jié)合全局和局部測(cè)量[35, 88]
-
-
具體方法
-
全局基因方法:
- DCglob [89]
- N-statistic [83]
-
局部基因方法:
- DCloc [89]
- DCp [90]
- DCe [90]
- DiffK [91]
- 差異基序中心性 [25]
- RIF [92]
- 基于相關(guān)向量的指標(biāo) [93]
-
混合方法:
-
DiffRank:
- 結(jié)合局部和全局差異關(guān)聯(lián)測(cè)量[94]
-
-
-
復(fù)雜方法
-
通過識(shí)別每個(gè)網(wǎng)絡(luò)中的社區(qū)并進(jìn)行比較(見圖7)
-
簡單比較:
- 模塊的存在或不存在(圖7a)
- 說明某一生物過程在特定實(shí)驗(yàn)條件下可以或不可以執(zhí)行
-
模塊結(jié)構(gòu)比較(圖7b):
- 識(shí)別兩個(gè)網(wǎng)絡(luò)中共同的模塊
- 比較它們的連接結(jié)構(gòu)
- 示例:同一生物功能由不同的關(guān)鍵基因驅(qū)動(dòng)
-
更復(fù)雜的模式:
-
社區(qū)分裂(圖7c):
- 一個(gè)社區(qū)在一個(gè)網(wǎng)絡(luò)中存在犁苏,在另一個(gè)網(wǎng)絡(luò)中被分裂成多個(gè)社區(qū)
-
基因跳躍(圖7d):
- 一組基因從一個(gè)社區(qū)跳轉(zhuǎn)到另一個(gè)社區(qū)
-
-
-
-
工具
-
模塊級(jí)差異共表達(dá)分析工具:
-
WGCNA [95]:
- 模塊識(shí)別杠袱,計(jì)算模塊在子樣本群體中的重要性
DICER [82]
-
DiffCoEx [96]:
- 識(shí)別新模塊卧晓,允許多條件間比較
-
DINGO [97]:
- 基于基因在特定條件下的不同表現(xiàn)進(jìn)行分組
-
CoXpress [99]:
- 僅能比較兩個(gè)實(shí)驗(yàn)條件之間的模塊
-
GSCA [98]:
- 從已知基因列表開始,根據(jù)差異共表達(dá)評(píng)分進(jìn)行排名
-
其他方法(僅適用于二元比較和已知基因集):
- GSNCA [100]
- CoGA [101]
- dCoxS [102]
- DiffCorr [103]
-
-
[圖片上傳失敗...(image-772ea1-1727830721693)]
<figcaption>image</figcaption>
-
應(yīng)用實(shí)例
-
成功案例:
識(shí)別特定組織或疾病狀態(tài)獨(dú)有的網(wǎng)絡(luò)[104, 46]
-
GTEx項(xiàng)目 [105]:
收集了35種不同人類組織的多重表達(dá)數(shù)據(jù)
基于每種組織的平均基因表達(dá)生成單一綜合共表達(dá)網(wǎng)絡(luò)
-
發(fā)現(xiàn):
- 組織特異性轉(zhuǎn)錄因子與組織特異性基因高表達(dá)共同
- 組織特異性基因位于網(wǎng)絡(luò)邊緣
- 轉(zhuǎn)錄因子位于網(wǎng)絡(luò)中心
-
方法:
- 通過識(shí)別組織特異性網(wǎng)絡(luò)中共表達(dá)強(qiáng)度增強(qiáng)的模塊
- 定位這些模塊的中心樞紐以發(fā)現(xiàn)轉(zhuǎn)錄因子
- 識(shí)別位于模塊邊緣的組織特異性基因
-
圖的整合策略
-
數(shù)據(jù)整合策略的目的
- 增加微陣列分析的魯棒性
- 輔助分析過程 [106–109]
- 利用生物領(lǐng)域中已有的交互網(wǎng)絡(luò)知識(shí)庫,包含基因間關(guān)系的有價(jià)值信息(如蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)或調(diào)控網(wǎng)絡(luò))[68–70, 110–113]
- 結(jié)合微陣列數(shù)據(jù)分析結(jié)果與這些生物網(wǎng)絡(luò)糠涛,可以檢測(cè)隱藏的關(guān)系和功能性影響
-
具體應(yīng)用示例
-
將差異表達(dá)基因與蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)結(jié)合
- 調(diào)查觀察到的響應(yīng)中可能涉及的其他基因 [11]
-
添加關(guān)于處理?xiàng)l件下的直接蛋白質(zhì)互作者的信息
- 對(duì)于化學(xué)物質(zhì)/藥物腻窒,可從 CTD [114] 或 DrugBank [115] 獲取
-
映射識(shí)別的互作基因集到蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)
- 調(diào)查在這兩個(gè)基因集之間響應(yīng)傳播的可能性較高的基因
-
-
網(wǎng)絡(luò)創(chuàng)建過程中的知識(shí)整合
-
將蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)與基于相關(guān)性的共表達(dá)網(wǎng)絡(luò)結(jié)合
- 引導(dǎo)在簡化步驟中保留或舍棄相關(guān)邊
- 例如熬拒,在INfORM工具中實(shí)現(xiàn) [10]
-
注意事項(xiàng):
- 避免基于整合過程中使用的相似數(shù)據(jù)評(píng)估最終結(jié)果非春,以防引入偏差
- 例如,不應(yīng)基于已知同一通路中的兩個(gè)基因來評(píng)分邊雹食,然后進(jìn)行社區(qū)檢測(cè)和通路富集分析
-
-
多層或多重網(wǎng)絡(luò)的整合
-
異構(gòu)網(wǎng)絡(luò):
- 節(jié)點(diǎn)和邊可以代表不同的對(duì)象和關(guān)系
- 例如畜普,藥物-基因靶點(diǎn)網(wǎng)絡(luò)或基因-基因網(wǎng)絡(luò),具有多種關(guān)系(如相互作用群叶、共同調(diào)控漠嵌、參與同一路徑)
-
將異構(gòu)網(wǎng)絡(luò)轉(zhuǎn)換為同質(zhì)網(wǎng)絡(luò)(如基因-基因網(wǎng)絡(luò))
- 通過估計(jì)基因之間的關(guān)系(相似性)基于共同鄰居
- 合并多個(gè)此類網(wǎng)絡(luò)為單一網(wǎng)絡(luò),通過結(jié)合其邊或添加其鄰接矩陣
-
-
多組學(xué)數(shù)據(jù)的整合
-
多組學(xué)數(shù)據(jù):來自相同樣本集的多種分子實(shí)驗(yàn)結(jié)果(基因表達(dá)盖呼、甲基化、拷貝數(shù)變異等)
- 展示與同一生物過程相關(guān)的互補(bǔ)方面
- 增進(jìn)對(duì)研究表型的整體理解
-
整合分析方法 [117–119]
-
SNF [107]:
將多個(gè)同質(zhì)節(jié)點(diǎn)集的網(wǎng)絡(luò)結(jié)合為單一網(wǎng)絡(luò)
-
應(yīng)用場(chǎng)景:患者子類型分類
- 每個(gè)共表達(dá)網(wǎng)絡(luò)代表各組學(xué)視角下的患者相似性
- 合并這些網(wǎng)絡(luò)化撕,構(gòu)建考慮所有不同組學(xué)數(shù)據(jù)的患者相似性網(wǎng)絡(luò)
- 用于將患者聚類為多個(gè)子集
-
lemon-tree [120]:
從基因表達(dá)數(shù)據(jù)開始几晤,識(shí)別基因共表達(dá)模塊
-
步驟:
- 使用基于模型的Gibbs采樣器推斷共表達(dá)基因簇
- 通過基于譜邊聚類的共識(shí)方法識(shí)別共表達(dá)基因模塊
- 結(jié)合另一個(gè)組學(xué)數(shù)據(jù)層(如miRNA表達(dá)、CNV和甲基化數(shù)據(jù))
- 使用決策樹結(jié)構(gòu)推斷調(diào)控評(píng)分
-
-
圖形模型
-
圖形模型的定義
-
生物系統(tǒng)本質(zhì)上是高度復(fù)雜的系統(tǒng)植阴,尚無法被準(zhǔn)確描述
- 關(guān)系存在可以通過概率來描述
-
圖形模型是一種緊湊定義大量變量的概率分布的方法
- 圖形模型:統(tǒng)計(jì)條件依賴的圖形表示
- 節(jié)點(diǎn):系統(tǒng)中的變量
- 邊:依賴關(guān)系的表示
-
-
圖形模型的類型
-
貝葉斯網(wǎng)絡(luò)(圖8a)
有向無環(huán)圖(DAG)
-
Markov blanket:
- 父節(jié)點(diǎn)
- 子節(jié)點(diǎn)
- 子節(jié)點(diǎn)的父節(jié)點(diǎn)
-
馬爾可夫網(wǎng)絡(luò)(圖8b)
- 無向圖蟹瘾,允許環(huán)路
- Markov blanket:第一鄰居
-
依賴網(wǎng)絡(luò)(圖8c)
- 有向圖圾浅,可能包含環(huán)路
- Markov blanket:父節(jié)點(diǎn)
-
[圖片上傳失敗...(image-540ef7-1727830721692)]
<figcaption>image</figcaption>
-
圖形模型的優(yōu)缺點(diǎn)
-
優(yōu)點(diǎn):
- 通用性:不限制建模條件概率函數(shù)的形式,包括非線性函數(shù)
- 緊湊表示:圖結(jié)構(gòu)表示變量之間的條件依賴
-
缺點(diǎn):
-
學(xué)習(xí)復(fù)雜性:
- 結(jié)構(gòu)和分布需從數(shù)據(jù)中學(xué)習(xí)
- 算法通常較慢憾朴,尤其在微陣列數(shù)據(jù)分析中
-
-
-
動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)
定義:貝葉斯網(wǎng)絡(luò)在每個(gè)時(shí)間點(diǎn)的復(fù)制狸捕,邊連接連續(xù)時(shí)間點(diǎn)的節(jié)點(diǎn)
-
應(yīng)用示例:
- Grzegorczyk 等人 [126]將DBN應(yīng)用于擬南芥(Arabidopsis thaliana)的晝夜節(jié)律研究
-
有向圖因果模型
-
定義:有向圖模型中,邊表示因果關(guān)系
- 因果關(guān)系比依賴關(guān)系更強(qiáng)
-
挑戰(zhàn):
- 從數(shù)據(jù)中學(xué)習(xí)因果關(guān)系尤其困難众雷,尤其是缺乏時(shí)間序列的數(shù)據(jù)
-
應(yīng)用:
- Glymour 等人 [127]回顧了因果發(fā)現(xiàn)方法及其在基因表達(dá)數(shù)據(jù)中的應(yīng)用示例
-
-
圖形模型在生物數(shù)據(jù)中的應(yīng)用
潛力已被廣泛認(rèn)可 [121–123]
現(xiàn)有軟件實(shí)現(xiàn)豐富 [124, 125]
-
應(yīng)用優(yōu)勢(shì):
- 靈活建模:允許復(fù)雜關(guān)系和依賴結(jié)構(gòu)
- 功能豐富:支持多種概率分布和模型結(jié)構(gòu)
結(jié)論/總結(jié)
-
網(wǎng)絡(luò)方法在微陣列數(shù)據(jù)分析中的應(yīng)用
描述了多種基于網(wǎng)絡(luò)的方法用于微陣列數(shù)據(jù)分析
-
共表達(dá)網(wǎng)絡(luò)創(chuàng)建算法:
- ARACNE
- CLR
- INfORM(集成方法)
定義了不同類型的網(wǎng)絡(luò)
-
多層次和數(shù)據(jù)整合方法
-
概述了多層次和數(shù)據(jù)整合方法
- 利用廣泛的(實(shí)驗(yàn))衍生數(shù)據(jù)進(jìn)行網(wǎng)絡(luò)創(chuàng)建
-
整合多層信息:
- 提高網(wǎng)絡(luò)的魯棒性
- 指導(dǎo)分析過程(如功能富集)
-
-
網(wǎng)絡(luò)拓?fù)涿枋龊捅容^的不同指標(biāo)
介紹了用于網(wǎng)絡(luò)拓?fù)涿枋龊?strong>網(wǎng)絡(luò)比較的不同指標(biāo)
-
基因優(yōu)先級(jí)排序方法廣泛應(yīng)用于:
- 疾病基因識(shí)別
- 識(shí)別由治療條件引起的系統(tǒng)擾動(dòng)
-
示例指標(biāo):
- 度中心性
- 接近中心性
-
全局指標(biāo):
- 描述網(wǎng)絡(luò)的整體拓?fù)浣Y(jié)構(gòu)
- 用于描述一組網(wǎng)絡(luò)或評(píng)估治療方法對(duì)基因關(guān)系的影響
-
功能組檢測(cè)和社區(qū)比較算法
討論了檢測(cè)網(wǎng)絡(luò)中功能組(社區(qū))及其在不同網(wǎng)絡(luò)間分布比較的算法
介紹了不同類型的算法及評(píng)估網(wǎng)絡(luò)劃分質(zhì)量的多種指標(biāo)
-
社區(qū)檢測(cè):
- 描述網(wǎng)絡(luò)中緊密連接的基因組
- 高共表達(dá)灸拍,可能參與相似功能
-
社區(qū)富集:
- 通過外部數(shù)據(jù)(如通路)進(jìn)行功能性描述
-
拓?fù)鋵W(xué)通路分析方法
-
討論了拓?fù)鋵W(xué)通路分析方法
- 不僅考慮基因的分組,還考慮基因間的連接
-
介紹了圖形模型:
- 描述生物網(wǎng)絡(luò)中的不確定性
-
-
圖形模型的介紹
- 介紹了圖形模型砾省,用于描述生物系統(tǒng)中的概率關(guān)系
- 強(qiáng)調(diào)其在處理復(fù)雜生物數(shù)據(jù)中的優(yōu)勢(shì)和局限性
-
綜合方法的應(yīng)用
概述了已建立和新興的網(wǎng)絡(luò)方法鸡岗,用于微陣列數(shù)據(jù)分析
-
應(yīng)用場(chǎng)景:
- 洞察基因-基因關(guān)系
- 基因-疾病關(guān)系
- 數(shù)據(jù)中包含的其他多種關(guān)系類型