Network在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中的應(yīng)用

面向單細胞的技術(shù)革命裹芝,讓我們得以進入新的研究層面瞭亮,但也對傳統(tǒng)的分析方法提出了一系列的挑戰(zhàn)泻帮。單細胞技術(shù)正在彌補分子生物學(xué)和組織生物學(xué)之間的鴻溝征字,進入高通量時代以來都弹,這項技術(shù)所揭示的不是單一元素的信息,而是在單細胞層面揭示某種系統(tǒng)關(guān)系:DNA匙姜,RNA畅厢,ATAC等。我們知道氮昧,在系統(tǒng)中框杜,關(guān)鍵要素除了來自元素本身(基因,轉(zhuǎn)錄本等生物小分子)之外郭计,還來自元素之間的關(guān)系霸琴。雖然作為領(lǐng)域起源的社會網(wǎng)絡(luò)分析可以追溯到20世紀(jì)30年代,圖論可以上溯幾個世紀(jì)昭伸,但網(wǎng)絡(luò)科學(xué)的迅速崛起與普及只是近幾十年的事情梧乘。目前,基因調(diào)控網(wǎng)絡(luò)庐杨,生物代謝與信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)选调,蛋白質(zhì)互作網(wǎng)絡(luò)作為基本的生物分子網(wǎng)絡(luò)(Biological molecular network )已經(jīng)在生物信息分析中得到廣泛的應(yīng)用。

在一般的生物信息分析中灵份,生物分子網(wǎng)絡(luò)只是作為一個多元關(guān)系的可視化工具仁堪。隨著生物模型的發(fā)展,網(wǎng)絡(luò)已經(jīng)作為一種數(shù)據(jù)結(jié)構(gòu)填渠,其可視化和特征化弦聂,對網(wǎng)絡(luò)的拓撲采樣、建模與推斷以及網(wǎng)絡(luò)上的靜態(tài)和動態(tài)過程進行建模和預(yù)測等已經(jīng)成為一個新的有力的生物信息挖掘工具氛什。

那么莺葫,什么是網(wǎng)絡(luò)?

網(wǎng)絡(luò)

上來就是一個直觀的fig枪眉, 如文章所言:

Single-cell transcriptional networks in SR, ECP, MCP, Gata1-ERT, and Pu.1-ERT compartments were inferred by combined use of OR and Spearman rank correlation. Solid red lines, positive associations; dashed black lines, negative associations. Node size is proportional to the relative connectivity in each network.

當(dāng)描述系統(tǒng)中元素及其相互連接的概念時捺檬,網(wǎng)(network)是一種自然的選擇,然而在有的場合下人們卻用圖(graph)來表示贸铜。這里我們不去深究二者的區(qū)別堡纬,而是用網(wǎng)絡(luò)圖這樣的概念糊弄過去。為了保持流暢性蒿秦,我把Gephi網(wǎng)絡(luò)圖極簡教程中的概念部分烤镐,如下:

    1. 圖是一種數(shù)據(jù)結(jié)構(gòu)

圖結(jié)構(gòu):是研究數(shù)據(jù)元素之間的多對多的關(guān)系。在這種結(jié)構(gòu)中棍鳖,任意兩個元素之間可能存在關(guān)系职车。即結(jié)點之間的關(guān)系可以是任意的,圖中任意元素之間都可能相關(guān)。

基于圖論(Graph theory)的網(wǎng)絡(luò)科學(xué)認(rèn)為悴灵,任何非連續(xù)事物之間的關(guān)系都可以用網(wǎng)絡(luò)來表示,通過將互聯(lián)網(wǎng)內(nèi)的電腦骂蓖、社會關(guān)系中的個人积瞒、生物的基因等不同屬性的實體抽象為節(jié)點(Node),并用連接(Link)來展示實體之間的關(guān)系登下,通過量化以節(jié)點和連接為組件的網(wǎng)絡(luò)結(jié)構(gòu)指數(shù)(Index)茫孔,從而能夠在統(tǒng)一的框架下尋找復(fù)雜系統(tǒng)的共性。

網(wǎng)絡(luò)關(guān)系圖(network analysis)是一款比較火的分析被芳,最近頻繁出現(xiàn)在單細胞研究的各大論文里缰贝。其實單純看網(wǎng)絡(luò)關(guān)系的話,只是一種數(shù)據(jù)分析的手段畔濒,很早就應(yīng)用在其他領(lǐng)域剩晴。到了2006年,Oliver Mason and Mark Verwoerd在文章Graph Theory and Networks in Biology 中將圖論的基本概念聯(lián)系到生物學(xué)的概念中侵状,階段性總結(jié)了生物分子網(wǎng)絡(luò)在生物學(xué)中的應(yīng)用赞弥。目前網(wǎng)絡(luò)分析正在為我們揭示更多的生命科學(xué)機理:

在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中常見的有基因調(diào)控網(wǎng)絡(luò),生物代謝與信號轉(zhuǎn)導(dǎo)網(wǎng)絡(luò)趣兄,蛋白質(zhì)互作網(wǎng)絡(luò)绽左,細胞相互作用網(wǎng)絡(luò),此類網(wǎng)絡(luò)可以采用R中igraph包艇潭、Python 中的Networkx構(gòu)建并實現(xiàn)出圖拼窥。當(dāng)然,除此之外蹋凝,還有一些非命令行的軟件鲁纠,例如cytoscape,gephi仙粱,pajek房交,graphviz(dot),Ucinet等伐割。

一個分析細胞信息的cytoscape插件:CerebralWeb: a Cytoscape.js plug-in to visualizenetworks stratified by subcellular localization

在開啟生物分子網(wǎng)絡(luò)之前我們有必要了解關(guān)于網(wǎng)絡(luò)的基本概念:

  • 圖相關(guān)的概念和術(shù)語

  • 節(jié)點與邊

  • 無向圖和有向圖

  • Co-occurrence網(wǎng)絡(luò)圖與 相關(guān)性網(wǎng)絡(luò)圖 (兩個矩陣的相關(guān)性)

  • 權(quán):圖中的邊或弧上有附加的數(shù)量信息候味,這種可反映邊或弧的某種特征的數(shù)據(jù)成為權(quán)。

  • 網(wǎng):圖上的邊或弧帶權(quán)則稱為網(wǎng)隔心“兹海可分為有向網(wǎng)和無向網(wǎng)。

  • 度:在無向圖中硬霍,與頂點v關(guān)聯(lián)的邊的條數(shù)成為頂點v的度帜慢。有向圖中,則以頂點v為弧尾的弧的條數(shù)成為頂點v的出度,以頂點v為弧頭的弧的條數(shù)成為頂點v的入度粱玲,而頂點v的度=出度+入度躬柬。圖中各點度數(shù)之和是邊(或弧)的條數(shù)的2倍抽减。

  • 圖的度量

  • 節(jié)點數(shù)(Nodes): 節(jié)點的個數(shù)允青。

  • 邊數(shù)(Edges):邊或連接的個數(shù)。

  • 平均度(Average degree): 表示每個節(jié)點連接邊的平均數(shù)卵沉,如果絡(luò)圖是無向圖颠锉,平均度的計算為 2*edges/nodes。

  • 平均路徑長度(Average network distance): 任意兩個節(jié)點之間的距離的平均值史汗。 反映網(wǎng)絡(luò)中各個節(jié)點間的分離程度琼掠。 值越小代表網(wǎng)絡(luò)中節(jié)點的連接度越大。

  • 模塊化指數(shù)(Modularity index): 衡量了網(wǎng)絡(luò)圖結(jié)構(gòu)的模塊化程度停撞。一般>0.44 就說明該網(wǎng)絡(luò)圖達到了一定的模塊化程度 瓷蛙。

  • 聚類系數(shù)(Clustering coefficient): 和平均路徑長度一起,能夠展示所謂的小世界效應(yīng)怜森,從而給出一些節(jié)點聚類或抱團的總體跡象速挑。網(wǎng)絡(luò)的小世界特性指網(wǎng)絡(luò)節(jié)點的平均路徑小。

  • 網(wǎng)絡(luò)直徑(Diameter): 網(wǎng)絡(luò)圖直徑最大測量長度副硅,即任意兩點都有 1 個最短距離姥宝,這些最短距離之中的最大值即為該網(wǎng)絡(luò)圖直徑。

生物分子網(wǎng)絡(luò)

上面這些都只是網(wǎng)絡(luò)的描述性指標(biāo)恐疲,我們總體上知道網(wǎng)絡(luò)是由節(jié)點和連線構(gòu)成的腊满,而

  • 節(jié)點有大小、形狀培己,顏色
  • 連線有粗細碳蛋、長短、方向省咨、顏色等屬性

這些屬性賦予生物學(xué)意義肃弟,也就是是構(gòu)建網(wǎng)絡(luò)的過程。有了網(wǎng)絡(luò)我們可以基于網(wǎng)絡(luò)結(jié)構(gòu)分析其中的節(jié)點關(guān)系模塊零蓉、標(biāo)度連接性等笤受。常見的生物分子網(wǎng)絡(luò)有:

  • 基因調(diào)控網(wǎng)絡(luò):

20世紀(jì)90年代開發(fā)的微陣列技術(shù)為檢測基因表達提供了有力工具,其中最重要的染色質(zhì)免疫共沉淀技術(shù)(ChIP)成為研究基因調(diào)控的手段敌蜂。我們知道基因的表達不是孤立的箩兽,而是相互調(diào)節(jié)的。自那以后章喉,人們?yōu)榛蜣D(zhuǎn)錄調(diào)控建立了數(shù)據(jù)庫如:TRANSFAC/RegulonDB等汗贫,通過基因調(diào)控數(shù)據(jù)我們可以構(gòu)建基因調(diào)控網(wǎng)絡(luò)身坐,調(diào)控網(wǎng)絡(luò)中的邊可以分為正調(diào)控和負調(diào)控。

Gene regulatory networks of NF- k B, p53, mir21 and mir34ac in the HNSCC metastatic tissues. A, a network of hypopharyngeal cancer. B, a network of oral cancer. Every node represents a common target gene of NF- k B, p53, mir21 or mir34ac, and was annotated to inflammatory and immune responses (green nodes), apoptosis (blue), angiogenesis (yellow), proliferation (red), adhesion (gold), proteolysis (light red) and other processes (light blue). The networks were presented by cytoscape. doi:10.1371/journal.pone.0073656.g004

  • 蛋白質(zhì)互作網(wǎng)絡(luò)

在網(wǎng)絡(luò)圖中反映蛋白質(zhì)相互作用落包,構(gòu)建蛋白互作網(wǎng)絡(luò)部蛇。比較有名的數(shù)據(jù)庫要說String(https://string-db.org)線分析蛋白相互作用數(shù)據(jù)庫,我們在STRINGdb分析單細胞亞群蛋白相互作用網(wǎng)絡(luò)介紹過用單細胞數(shù)據(jù)構(gòu)建蛋白互作網(wǎng)絡(luò)咐蝇。

  • 代謝網(wǎng)絡(luò)和信號轉(zhuǎn)導(dǎo)

我們發(fā)現(xiàn)圍繞中心法則都可以應(yīng)用network搪花。這得益于我們已經(jīng)建設(shè)好的數(shù)據(jù)庫,如這里的代謝數(shù)據(jù)庫的KEGG嘹害,細胞間通訊的CellchatDB等∷北悖基于KEGG我們就某個通路構(gòu)建代謝網(wǎng)絡(luò)笔呀,也可以用測得的數(shù)據(jù)來重構(gòu)∷栊瑁基于CellchatDB數(shù)據(jù)庫我們可以構(gòu)建細胞相互作用網(wǎng)絡(luò)(配受體背后是信號轉(zhuǎn)導(dǎo)信息):


生物分子網(wǎng)絡(luò)的特點:

網(wǎng)絡(luò)分析是一種數(shù)學(xué)上的分析方法许师,應(yīng)用到生物學(xué)中,人們發(fā)現(xiàn)大部分生物網(wǎng)絡(luò)呈現(xiàn)出模塊化僚匆、無標(biāo)度微渠、局部高連通性以及層次化的性質(zhì)。

單細胞轉(zhuǎn)錄組應(yīng)用network

在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中我們知道主要有兩條分析路徑咧擂,可以說均可以利用network來反映信息逞盆,其實已在用了:

  • 細胞層面

在細胞聚類的時候我們知道有Louvain 算法,用的就是在PC空間中構(gòu)建網(wǎng)絡(luò)結(jié)構(gòu)后最大化模塊度來實現(xiàn)細胞的聚類松申。在文章細胞異質(zhì)性||Louvain 算法概述我們簡要介紹這個算法以及聚類與細胞異質(zhì)性的聯(lián)系云芦。

另一個就是上文提到的細胞間相互作用。借助配受體數(shù)據(jù)庫來推斷細胞群之間的相互作用贸桶,構(gòu)建細胞通訊網(wǎng)絡(luò)舅逸。這一塊我們介紹過cellchat,cellphonedb皇筛。

  • 基因?qū)用?/li>

基于表達量數(shù)據(jù)主要是共表達網(wǎng)絡(luò)琉历,這方面我們知道WGCNA幾乎做到了極致,如我們在文章單細胞轉(zhuǎn)錄組WGCNA到底應(yīng)該怎么做水醋?中做了一些探討旗笔,并用單細胞數(shù)據(jù)跑了WGCNA的一般流程。

借助數(shù)據(jù)庫可以構(gòu)建的網(wǎng)絡(luò)就很多了离例,比如赫赫有名的單細胞高級分析必備良品:SCENIC换团,在2017和2020兩次登上:


SCENIC借助的基因調(diào)控信息有:

Auxiliary datasets
To successfully use this pipeline you also need auxilliary datasets:

  1. Databases ranking the whole genome of your species of interest based on regulatory features (i.e. transcription factors). Ranking databases are typically stored in the feather format and can be downloaded from cisTargetDBs.
  2. Motif annotation database providing the missing link between an enriched motif and the transcription factor that binds this motif. This pipeline needs a TSV text file where every line represents a particular annotation.

目前也有單細胞調(diào)控網(wǎng)路在線版的分析數(shù)據(jù)庫GRNdb:http://www.grndb.com/ 是一個免費的人類和小鼠數(shù)據(jù)庫,旨在方便搜索和分析轉(zhuǎn)錄因子(TFs)和下游靶基因(稱為調(diào)控子)在各種組織/條件下形成的調(diào)控網(wǎng)絡(luò)宫蛆。是華東師范大學(xué)生命科學(xué)學(xué)院生物信息學(xué)與計算生物學(xué)中心構(gòu)建的艘包,其內(nèi)部也用到SCENIC的猛。

在我們拿到基因集之后,也可以通過和KEGG或者GO這樣的數(shù)據(jù)來構(gòu)建基因與相應(yīng)通路的network想虎。這里我們可以看到卦尊,有了表達量數(shù)據(jù)我們可以從不同數(shù)據(jù)庫中挖掘信息,如單細胞數(shù)據(jù)挖掘||DOSE:疾病本體論語義相似分析講基因集與疾病信息聯(lián)系在一起舌厨∑袢矗基因集富集分析結(jié)果用network來展示也是比較常見的:

Gene set enrichment analysis delineates gene ontology (GO) that differentiates between B- and T-ALL with respect to biological processes. Gene set enrichment analysis (GSEA) comparing B-ALL (red) and T-ALL (blue) in ALL dataset, illustrating differentiation of gene ontology (biological processes) between two subgroups (5% FDR, p = 0.05). Cytoscape and enrichment map were used for visualization of the GSEA results; only gene sets from MSigDB C5 (gene ontology) were used. Nodes represent enriched GO gene sets, whose size reflects the total number of genes in that gene set. Edge thickness (green line) represents the number of overlapping genes between gene sets calculated using Jaccard coefficient. Single nodes and 2-node interactions for both B- and T-ALL, a 5 node-interaction for B-ALL, and interaction between a large number of nodes for T-ALL are shown.

高通量的生物學(xué)檢測技術(shù)產(chǎn)生了大量的信息資源,充實了各種生物學(xué)數(shù)據(jù)庫裙椭。單細胞轉(zhuǎn)錄組作為一種表達譜數(shù)據(jù)躏哩,可以應(yīng)用表達量和基因信息構(gòu)建基因調(diào)控網(wǎng)絡(luò)、基因共表達網(wǎng)絡(luò)揉燃、代謝網(wǎng)絡(luò)(pathway)已經(jīng)細胞間通訊網(wǎng)絡(luò)扫尺。目前在單細胞轉(zhuǎn)錄組數(shù)據(jù)分析中,network不僅作為一種可視化展示多元關(guān)系炊汤,也作為一種數(shù)學(xué)模型來指導(dǎo)細胞分群正驻。圖是一種數(shù)據(jù)結(jié)構(gòu),我們相信數(shù)據(jù)可以啟發(fā)新知抢腐,network在以后的多元數(shù)據(jù)分析中也會得到廣泛的應(yīng)用姑曙。

本文是在讀李霞老師《生物信息學(xué)》教材之后想到的,其實本文不過是趕個單細胞的時髦迈倍。在李老師的教材中伤靠,生物分子網(wǎng)絡(luò)作為單獨的一章介紹的很詳細。當(dāng)然授瘦,十年來生物數(shù)據(jù)庫和網(wǎng)絡(luò)算法都有所發(fā)展醋界,為我們挖掘數(shù)據(jù)提供了數(shù)據(jù)和算法(資源與手段)。


出了正文給出的鏈接提完,本文還參考了:
http://www.grndb.com/
https://academic.oup.com/nar/article/47/11/e62/5377474
https://www.nature.com/articles/s41467-020-16019-9
https://www.cell.com/cell-reports/fulltext/S2211-1247(19)30525-X
https://www.sciencedirect.com/science/article/pii/S2211124715005288
聊聊中藥網(wǎng)絡(luò)藥理學(xué)的發(fā)文思路
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5575496/
常用生物學(xué)網(wǎng)絡(luò)有哪些
Network biology: understanding the cell's functional organization
https://www.innatedb.ca/redirect.do?go=aboutIDB
網(wǎng)絡(luò)數(shù)據(jù)的統(tǒng)計分析:R語言實踐
生物信息學(xué)形纺,李霞等
CerebralWeb: a Cytoscape.js plug-in to visualizenetworks stratified by subcellular localization
基因調(diào)控網(wǎng)絡(luò) (Gene Regulatory Network) 01
蛋白質(zhì)互作網(wǎng)絡(luò)分析總結(jié)
https://pyscenic.readthedocs.io/en/latest/
Dose and Time Dependencies in Stress Pathway Responses during Chemical Exposure: Novel Insights from Gene Regulatory Networks
Integrated Analysis of Gene Network in Childhood Leukemia from Microarray and Pathway Databases

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市徒欣,隨后出現(xiàn)的幾起案子逐样,更是在濱河造成了極大的恐慌,老刑警劉巖打肝,帶你破解...
    沈念sama閱讀 206,723評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件脂新,死亡現(xiàn)場離奇詭異,居然都是意外死亡粗梭,警方通過查閱死者的電腦和手機争便,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,485評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來断医,“玉大人滞乙,你說我怎么就攤上這事奏纪。” “怎么了斩启?”我有些...
    開封第一講書人閱讀 152,998評論 0 344
  • 文/不壞的土叔 我叫張陵序调,是天一觀的道長。 經(jīng)常有香客問我兔簇,道長发绢,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,323評論 1 279
  • 正文 為了忘掉前任垄琐,我火速辦了婚禮边酒,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘狸窘。我一直安慰自己甚纲,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 64,355評論 5 374
  • 文/花漫 我一把揭開白布朦前。 她就那樣靜靜地躺著,像睡著了一般鹃操。 火紅的嫁衣襯著肌膚如雪韭寸。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,079評論 1 285
  • 那天荆隘,我揣著相機與錄音恩伺,去河邊找鬼。 笑死椰拒,一個胖子當(dāng)著我的面吹牛晶渠,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播燃观,決...
    沈念sama閱讀 38,389評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼褒脯,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了缆毁?” 一聲冷哼從身側(cè)響起番川,我...
    開封第一講書人閱讀 37,019評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎脊框,沒想到半個月后颁督,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,519評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡浇雹,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,971評論 2 325
  • 正文 我和宋清朗相戀三年沉御,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昭灵。...
    茶點故事閱讀 38,100評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡吠裆,死狀恐怖伐谈,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情硫痰,我是刑警寧澤衩婚,帶...
    沈念sama閱讀 33,738評論 4 324
  • 正文 年R本政府宣布,位于F島的核電站效斑,受9級特大地震影響非春,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜缓屠,卻給世界環(huán)境...
    茶點故事閱讀 39,293評論 3 307
  • 文/蒙蒙 一奇昙、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧敌完,春花似錦储耐、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,289評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至晦攒,卻和暖如春闽撤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背脯颜。 一陣腳步聲響...
    開封第一講書人閱讀 31,517評論 1 262
  • 我被黑心中介騙來泰國打工哟旗, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人栋操。 一個月前我還...
    沈念sama閱讀 45,547評論 2 354
  • 正文 我出身青樓闸餐,卻偏偏與公主長得像,于是被迫代替她去往敵國和親矾芙。 傳聞我的和親對象是個殘疾皇子舍沙,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,834評論 2 345