面向單細胞的技術(shù)革命裹芝,讓我們得以進入新的研究層面瞭亮,但也對傳統(tǒng)的分析方法提出了一系列的挑戰(zhàn)泻帮。單細胞技術(shù)正在彌補分子生物學(xué)和組織生物學(xué)之間的鴻溝征字,進入高通量時代以來都弹,這項技術(shù)所揭示的不是單一元素的信息,而是在單細胞層面揭示某種系統(tǒng)關(guān)系:DNA匙姜,RNA畅厢,ATAC等。我們知道氮昧,在系統(tǒng)中框杜,關(guān)鍵要素除了來自元素本身(基因,轉(zhuǎn)錄本等生物小分子)之外郭计,還來自元素之間的關(guān)系霸琴。雖然作為領(lǐng)域起源的社會網(wǎng)絡(luò)分析可以追溯到20世紀(jì)30年代,圖論可以上溯幾個世紀(jì)昭伸,但網(wǎng)絡(luò)科學(xué)的迅速崛起與普及只是近幾十年的事情梧乘。目前,基因調(diào)控網(wǎng)絡(luò)庐杨,生物代謝與信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)选调,蛋白質(zhì)互作網(wǎng)絡(luò)作為基本的生物分子網(wǎng)絡(luò)(Biological molecular network )已經(jīng)在生物信息分析中得到廣泛的應(yīng)用。
在一般的生物信息分析中灵份,生物分子網(wǎng)絡(luò)只是作為一個多元關(guān)系的可視化工具仁堪。隨著生物模型的發(fā)展,網(wǎng)絡(luò)已經(jīng)作為一種數(shù)據(jù)結(jié)構(gòu)填渠,其可視化和特征化弦聂,對網(wǎng)絡(luò)的拓撲采樣、建模與推斷以及網(wǎng)絡(luò)上的靜態(tài)和動態(tài)過程進行建模和預(yù)測等已經(jīng)成為一個新的有力的生物信息挖掘工具氛什。
那么莺葫,什么是網(wǎng)絡(luò)?
網(wǎng)絡(luò)
上來就是一個直觀的fig枪眉, 如文章所言:
Single-cell transcriptional networks in SR, ECP, MCP, Gata1-ERT, and Pu.1-ERT compartments were inferred by combined use of OR and Spearman rank correlation
. Solid red lines, positive associations; dashed black lines, negative associations. Node size is proportional to the relative connectivity in each network.
當(dāng)描述系統(tǒng)中元素及其相互連接的概念時捺檬,網(wǎng)(network)是一種自然的選擇,然而在有的場合下人們卻用圖(graph)來表示贸铜。這里我們不去深究二者的區(qū)別堡纬,而是用網(wǎng)絡(luò)圖這樣的概念糊弄過去。為了保持流暢性蒿秦,我把Gephi網(wǎng)絡(luò)圖極簡教程中的概念部分烤镐,如下:
- 圖是一種數(shù)據(jù)結(jié)構(gòu)
圖結(jié)構(gòu):是研究數(shù)據(jù)元素之間的多對多的關(guān)系。在這種結(jié)構(gòu)中棍鳖,任意兩個元素之間可能存在關(guān)系职车。即結(jié)點之間的關(guān)系可以是任意的,圖中任意元素之間都可能相關(guān)。
基于圖論(Graph theory)的網(wǎng)絡(luò)科學(xué)認(rèn)為悴灵,任何非連續(xù)事物之間的關(guān)系都可以用網(wǎng)絡(luò)來表示,通過將互聯(lián)網(wǎng)內(nèi)的電腦骂蓖、社會關(guān)系中的個人积瞒、生物的基因等不同屬性的實體抽象為節(jié)點(Node),并用連接(Link)來展示實體之間的關(guān)系登下,通過量化以節(jié)點和連接為組件的網(wǎng)絡(luò)結(jié)構(gòu)指數(shù)(Index)茫孔,從而能夠在統(tǒng)一的框架下尋找復(fù)雜系統(tǒng)的共性。
網(wǎng)絡(luò)關(guān)系圖(network analysis)是一款比較火的分析被芳,最近頻繁出現(xiàn)在單細胞研究的各大論文里缰贝。其實單純看網(wǎng)絡(luò)關(guān)系的話,只是一種數(shù)據(jù)分析的手段畔濒,很早就應(yīng)用在其他領(lǐng)域剩晴。到了2006年,Oliver Mason and Mark Verwoerd在文章Graph Theory and Networks in Biology 中將圖論的基本概念聯(lián)系到生物學(xué)的概念中侵状,階段性總結(jié)了生物分子網(wǎng)絡(luò)在生物學(xué)中的應(yīng)用赞弥。目前網(wǎng)絡(luò)分析正在為我們揭示更多的生命科學(xué)機理:
在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中常見的有基因調(diào)控網(wǎng)絡(luò),生物代謝與信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)趣兄,蛋白質(zhì)互作網(wǎng)絡(luò)绽左,細胞相互作用網(wǎng)絡(luò),此類網(wǎng)絡(luò)可以采用R中igraph包艇潭、Python 中的Networkx構(gòu)建并實現(xiàn)出圖拼窥。當(dāng)然,除此之外蹋凝,還有一些非命令行的軟件鲁纠,例如cytoscape,gephi仙粱,pajek房交,graphviz(dot),Ucinet等伐割。
一個分析細胞信息的cytoscape插件:CerebralWeb: a Cytoscape.js plug-in to visualizenetworks stratified by subcellular localization
在開啟生物分子網(wǎng)絡(luò)之前我們有必要了解關(guān)于網(wǎng)絡(luò)的基本概念:
圖相關(guān)的概念和術(shù)語
節(jié)點與邊
無向圖和有向圖
Co-occurrence網(wǎng)絡(luò)圖與 相關(guān)性網(wǎng)絡(luò)圖 (兩個矩陣的相關(guān)性)
權(quán):圖中的邊或弧上有附加的數(shù)量信息候味,這種可反映邊或弧的某種特征的數(shù)據(jù)成為權(quán)。
網(wǎng):圖上的邊或弧帶權(quán)則稱為網(wǎng)隔心“兹海可分為有向網(wǎng)和無向網(wǎng)。
度:在無向圖中硬霍,與頂點v關(guān)聯(lián)的邊的條數(shù)成為頂點v的度帜慢。有向圖中,則以頂點v為弧尾的弧的條數(shù)成為頂點v的出度,以頂點v為弧頭的弧的條數(shù)成為頂點v的入度粱玲,而頂點v的度=出度+入度躬柬。圖中各點度數(shù)之和是邊(或弧)的條數(shù)的2倍抽减。
圖的度量
節(jié)點數(shù)(Nodes): 節(jié)點的個數(shù)允青。
邊數(shù)(Edges):邊或連接的個數(shù)。
平均度(Average degree): 表示每個節(jié)點連接邊的平均數(shù)卵沉,如果絡(luò)圖是無向圖颠锉,平均度的計算為 2*edges/nodes。
平均路徑長度(Average network distance): 任意兩個節(jié)點之間的距離的平均值史汗。 反映網(wǎng)絡(luò)中各個節(jié)點間的分離程度琼掠。 值越小代表網(wǎng)絡(luò)中節(jié)點的連接度越大。
模塊化指數(shù)(Modularity index): 衡量了網(wǎng)絡(luò)圖結(jié)構(gòu)的模塊化程度停撞。一般>0.44 就說明該網(wǎng)絡(luò)圖達到了一定的模塊化程度 瓷蛙。
聚類系數(shù)(Clustering coefficient): 和平均路徑長度一起,能夠展示所謂的
小世界
效應(yīng)怜森,從而給出一些節(jié)點聚類或抱團的總體跡象速挑。網(wǎng)絡(luò)的小世界特性指網(wǎng)絡(luò)節(jié)點的平均路徑小。網(wǎng)絡(luò)直徑(Diameter): 網(wǎng)絡(luò)圖直徑最大測量長度副硅,即任意兩點都有 1 個最短距離姥宝,這些最短距離之中的最大值即為該網(wǎng)絡(luò)圖直徑。
生物分子網(wǎng)絡(luò)
上面這些都只是網(wǎng)絡(luò)的描述性指標(biāo)恐疲,我們總體上知道網(wǎng)絡(luò)是由節(jié)點和連線構(gòu)成的腊满,而
- 節(jié)點有大小、形狀培己,顏色
- 連線有粗細碳蛋、長短、方向省咨、顏色等屬性
這些屬性賦予生物學(xué)意義肃弟,也就是是構(gòu)建網(wǎng)絡(luò)的過程。有了網(wǎng)絡(luò)我們可以基于網(wǎng)絡(luò)結(jié)構(gòu)分析其中的節(jié)點關(guān)系模塊零蓉、標(biāo)度連接性等笤受。常見的生物分子網(wǎng)絡(luò)有:
- 基因調(diào)控網(wǎng)絡(luò):
20世紀(jì)90年代開發(fā)的微陣列技術(shù)為檢測基因表達提供了有力工具,其中最重要的染色質(zhì)免疫共沉淀技術(shù)(ChIP)成為研究基因調(diào)控的手段敌蜂。我們知道基因的表達不是孤立的箩兽,而是相互調(diào)節(jié)的。自那以后章喉,人們?yōu)榛蜣D(zhuǎn)錄調(diào)控建立了數(shù)據(jù)庫如:TRANSFAC/RegulonDB等汗贫,通過基因調(diào)控數(shù)據(jù)我們可以構(gòu)建基因調(diào)控網(wǎng)絡(luò)身坐,調(diào)控網(wǎng)絡(luò)中的邊可以分為正調(diào)控和負調(diào)控。
Gene regulatory networks of NF- k B, p53, mir21 and mir34ac in the HNSCC metastatic tissues. A, a network of hypopharyngeal cancer. B, a network of oral cancer. Every node represents a common target gene of NF- k B, p53, mir21 or mir34ac, and was annotated to inflammatory and immune responses (green nodes), apoptosis (blue), angiogenesis (yellow), proliferation (red), adhesion (gold), proteolysis (light red) and other processes (light blue). The networks were presented by cytoscape. doi:10.1371/journal.pone.0073656.g004
- 蛋白質(zhì)互作網(wǎng)絡(luò)
在網(wǎng)絡(luò)圖中反映蛋白質(zhì)相互作用落包,構(gòu)建蛋白互作網(wǎng)絡(luò)部蛇。比較有名的數(shù)據(jù)庫要說String(https://string-db.org)線分析蛋白相互作用數(shù)據(jù)庫,我們在STRINGdb分析單細胞亞群蛋白相互作用網(wǎng)絡(luò)介紹過用單細胞數(shù)據(jù)構(gòu)建蛋白互作網(wǎng)絡(luò)咐蝇。
- 代謝網(wǎng)絡(luò)和信號轉(zhuǎn)導(dǎo)
我們發(fā)現(xiàn)圍繞中心法則都可以應(yīng)用network搪花。這得益于我們已經(jīng)建設(shè)好的數(shù)據(jù)庫,如這里的代謝數(shù)據(jù)庫的KEGG嘹害,細胞間通訊的CellchatDB等∷北悖基于KEGG我們就某個通路構(gòu)建代謝網(wǎng)絡(luò)笔呀,也可以用測得的數(shù)據(jù)來重構(gòu)∷栊瑁基于CellchatDB數(shù)據(jù)庫我們可以構(gòu)建細胞相互作用網(wǎng)絡(luò)(配受體背后是信號轉(zhuǎn)導(dǎo)信息):
生物分子網(wǎng)絡(luò)的特點:
網(wǎng)絡(luò)分析是一種數(shù)學(xué)上的分析方法许师,應(yīng)用到生物學(xué)中,人們發(fā)現(xiàn)大部分生物網(wǎng)絡(luò)呈現(xiàn)出模塊化僚匆、無標(biāo)度微渠、局部高連通性以及層次化的性質(zhì)。
單細胞轉(zhuǎn)錄組應(yīng)用network
在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中我們知道主要有兩條分析路徑咧擂,可以說均可以利用network來反映信息逞盆,其實已在用了:
- 細胞層面
在細胞聚類的時候我們知道有Louvain 算法,用的就是在PC空間中構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)后最大化模塊度來實現(xiàn)細胞的聚類松申。在文章細胞異質(zhì)性||Louvain 算法概述我們簡要介紹這個算法以及聚類與細胞異質(zhì)性的聯(lián)系云芦。
另一個就是上文提到的細胞間相互作用。借助配受體數(shù)據(jù)庫來推斷細胞群之間的相互作用贸桶,構(gòu)建細胞通訊網(wǎng)絡(luò)舅逸。這一塊我們介紹過cellchat,cellphonedb皇筛。
- 基因?qū)用?/li>
基于表達量數(shù)據(jù)主要是共表達網(wǎng)絡(luò)琉历,這方面我們知道WGCNA幾乎做到了極致,如我們在文章單細胞轉(zhuǎn)錄組WGCNA到底應(yīng)該怎么做水醋?中做了一些探討旗笔,并用單細胞數(shù)據(jù)跑了WGCNA的一般流程。
借助數(shù)據(jù)庫可以構(gòu)建的網(wǎng)絡(luò)就很多了离例,比如赫赫有名的單細胞高級分析必備良品:SCENIC换团,在2017和2020兩次登上:
SCENIC借助的基因調(diào)控信息有:
Auxiliary datasets
To successfully use this pipeline you also need auxilliary datasets:
- Databases ranking the whole genome of your species of interest based on regulatory features (i.e. transcription factors). Ranking databases are typically stored in the feather format and can be downloaded from cisTargetDBs.
- Motif annotation database providing the missing link between an enriched motif and the transcription factor that binds this motif. This pipeline needs a TSV text file where every line represents a particular annotation.
目前也有單細胞調(diào)控網(wǎng)路在線版的分析數(shù)據(jù)庫GRNdb:http://www.grndb.com/ 是一個免費的人類和小鼠數(shù)據(jù)庫,旨在方便搜索和分析轉(zhuǎn)錄因子(TFs)和下游靶基因(稱為調(diào)控子)在各種組織/條件下形成的調(diào)控網(wǎng)絡(luò)宫蛆。是華東師范大學(xué)生命科學(xué)學(xué)院生物信息學(xué)與計算生物學(xué)中心構(gòu)建的艘包,其內(nèi)部也用到SCENIC的猛。
在我們拿到基因集之后,也可以通過和KEGG或者GO這樣的數(shù)據(jù)來構(gòu)建基因與相應(yīng)通路的network想虎。這里我們可以看到卦尊,有了表達量數(shù)據(jù)我們可以從不同數(shù)據(jù)庫中挖掘信息,如單細胞數(shù)據(jù)挖掘||DOSE:疾病本體論語義相似分析講基因集與疾病信息聯(lián)系在一起舌厨∑袢矗基因集富集分析結(jié)果用network來展示也是比較常見的:
Gene set enrichment analysis delineates gene ontology (GO) that differentiates between B- and T-ALL with respect to biological processes. Gene set enrichment analysis (GSEA) comparing B-ALL (red) and T-ALL (blue) in ALL dataset, illustrating differentiation of gene ontology (biological processes) between two subgroups (5% FDR, p = 0.05). Cytoscape and enrichment map were used for visualization of the GSEA results; only gene sets from MSigDB C5 (gene ontology) were used. Nodes represent enriched GO gene sets, whose size reflects the total number of genes in that gene set. Edge thickness (green line) represents the number of overlapping genes between gene sets calculated using Jaccard coefficient. Single nodes and 2-node interactions for both B- and T-ALL, a 5 node-interaction for B-ALL, and interaction between a large number of nodes for T-ALL are shown.
高通量的生物學(xué)檢測技術(shù)產(chǎn)生了大量的信息資源,充實了各種生物學(xué)數(shù)據(jù)庫裙椭。單細胞轉(zhuǎn)錄組作為一種表達譜數(shù)據(jù)躏哩,可以應(yīng)用表達量和基因信息構(gòu)建基因調(diào)控網(wǎng)絡(luò)、基因共表達網(wǎng)絡(luò)揉燃、代謝網(wǎng)絡(luò)(pathway)已經(jīng)細胞間通訊網(wǎng)絡(luò)扫尺。目前在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中,network不僅作為一種可視化展示多元關(guān)系炊汤,也作為一種數(shù)學(xué)模型來指導(dǎo)細胞分群正驻。圖是一種數(shù)據(jù)結(jié)構(gòu),我們相信數(shù)據(jù)可以啟發(fā)新知抢腐,network在以后的多元數(shù)據(jù)分析中也會得到廣泛的應(yīng)用姑曙。
跋
本文是在讀李霞老師《生物信息學(xué)》教材之后想到的,其實本文不過是趕個單細胞的時髦迈倍。在李老師的教材中伤靠,生物分子網(wǎng)絡(luò)作為單獨的一章介紹的很詳細。當(dāng)然授瘦,十年來生物數(shù)據(jù)庫和網(wǎng)絡(luò)算法都有所發(fā)展醋界,為我們挖掘數(shù)據(jù)提供了數(shù)據(jù)和算法(資源與手段)。
出了正文給出的鏈接提完,本文還參考了:
http://www.grndb.com/
https://academic.oup.com/nar/article/47/11/e62/5377474
https://www.nature.com/articles/s41467-020-16019-9
https://www.cell.com/cell-reports/fulltext/S2211-1247(19)30525-X
https://www.sciencedirect.com/science/article/pii/S2211124715005288
聊聊中藥網(wǎng)絡(luò)藥理學(xué)的發(fā)文思路
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5575496/
常用生物學(xué)網(wǎng)絡(luò)有哪些
Network biology: understanding the cell's functional organization
https://www.innatedb.ca/redirect.do?go=aboutIDB
網(wǎng)絡(luò)數(shù)據(jù)的統(tǒng)計分析:R語言實踐
生物信息學(xué)形纺,李霞等
CerebralWeb: a Cytoscape.js plug-in to visualizenetworks stratified by subcellular localization
基因調(diào)控網(wǎng)絡(luò) (Gene Regulatory Network) 01
蛋白質(zhì)互作網(wǎng)絡(luò)分析總結(jié)
https://pyscenic.readthedocs.io/en/latest/
Dose and Time Dependencies in Stress Pathway Responses during Chemical Exposure: Novel Insights from Gene Regulatory Networks
Integrated Analysis of Gene Network in Childhood Leukemia from Microarray and Pathway Databases