什么是細胞異質(zhì)性暗膜?
在談及細胞異質(zhì)性之前叹谁,還是讓我們先來看看腫瘤的異質(zhì)性吧:腫瘤的異質(zhì)性是惡性腫瘤的特征之一埂陆,是指腫瘤在生長過程中,經(jīng)過多次分裂增殖呐赡,其子細胞呈現(xiàn)出分子生物學或基因方面的改變退客,從而使腫瘤的生長速度、侵襲能力链嘀、對藥物的敏感性萌狂、預后等各方面產(chǎn)生差異。
那么怀泊,細胞在生長過程中茫藏,經(jīng)過多次分裂增殖,在完成其生命周期的同時也會呈現(xiàn)分子生物學或基因方面的改變霹琼,從而產(chǎn)生細胞(狀態(tài)的或類型的)多樣性务傲,這中多樣性,我們稱之為細胞異質(zhì)性(heterogeneity)枣申。
細胞的異質(zhì)性 (heterogeneity) 是一個普遍存在的生物學現(xiàn)象售葡。多細胞生物個體由多種形態(tài)功能不同的細胞組成。多種類型細胞有序地結(jié)合在一起忠藤,形成了組織和器官挟伙。在疾病發(fā)生的情況下,異常的細胞常常藏匿于正常細胞之中模孩。腫瘤組織也具有很強的細胞異質(zhì)性尖阔,其中決定腫瘤發(fā)展方向的細胞可能只占整個腫瘤組織的一小部分贮缅。而且近年研究表明,即使看起來相同的細胞介却,也可能存在顯著的異質(zhì)性(分群之后又有亞群谴供,而亞群又有亞群,因為細胞分化發(fā)展本來就是連續(xù)的)筷笨。
??研究細胞異質(zhì)性憔鬼,是一個單細胞層面的范疇邓萨。單細胞間的異質(zhì)性存在于DNA截歉、RNA官脓、蛋白等各個層面颇玷。
參考:細胞異質(zhì)性研究策略解析
培養(yǎng)的同一種細胞恕刘,你看多么明顯的異質(zhì)性澳洞酢秋泄!
那么基于單細胞技術(shù)得到每個細胞的某一特性的數(shù)值(DNA晦溪、RNA答恶、蛋白)我們就可以基于這些數(shù)據(jù)來探索出細胞的異質(zhì)性了:它們可以分為幾個(亞)群饺蚊?
什么是聚類?
如何分群在過去已經(jīng)不是一個問題:人以群分悬嗓,物以類聚嘛污呼!但是如何才能識別出兩個個體是不是應該屬于一個群呢?這就要請出我們的第二個核心概念了:距離包竹。這里的距離就是你和我之間的距離燕酷,遠嗎?現(xiàn)在你不在我身邊周瞎;近嗎苗缩?我們沒有一點血緣關(guān)系。
這個笑話里面包含了距離的一個核心的屬性:對于不同個體在不同的距離度量方法之下声诸,它們的距離很可能會差的很遠酱讶!比如常見的歐氏距離,馬哈頓距離彼乌,BC距離泻肯,均不同。后來還發(fā)展出其他的算法囤攀,雖然有的不叫距離這個詞软免,但是聚類算法都要有一個衡量兩個個體遠近的統(tǒng)計量。
聚類分析(英語:Cluster analysis)亦稱為群集分析焚挠,是對于統(tǒng)計數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應用漓骚,包括機器學習蝌衔,數(shù)據(jù)挖掘榛泛,模式識別,圖像分析以及生物信息噩斟。聚類是把相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多的子集(subset)曹锨,這樣讓在同一個子集中的成員對象都有相似的一些屬性,常見的包括在坐標系中更加短的空間距離等剃允。
在距離定了之后沛简,是不是就可以兩兩比較距離大小來完成聚類了呢?理論上是的斥废,但是在作比較的時候一般又有兩種方法:
數(shù)據(jù)聚類算法可以分為結(jié)構(gòu)性或者分散性椒楣。結(jié)構(gòu)性算法利用以前成功使用過的聚類器進行分類,而分散型算法則是一次確定所有分類牡肉。結(jié)構(gòu)性算法可以從上至下或者從下至上雙向進行計算捧灰。從下至上算法從每個對象作為單獨分類開始,不斷融合其中相近的對象统锤,這樣聚出的類往往小而碎毛俏。而從上至下算法則是把所有對象作為一個整體分類,然后逐漸分小饲窿。
當我們用聚類算法來識別細胞亞群的時候煌寇,要注意的一點就是:同樣的數(shù)據(jù),不同的聚類算法得到的細胞群是不一樣的逾雄。這很正常阀溶,應該成為常識。
那么我們應該用哪種聚類算法呢嘲驾?答案是看數(shù)據(jù)特點淌哟。
Louvain 算法 概覽?
Louvain算法是一種基于圖數(shù)據(jù)的社區(qū)發(fā)現(xiàn)(Community detection)算法辽故。原始論文為:《Fast unfolding of communities in large networks》
我們假想細胞之間是有遠近親疏的(細胞之間有距離)徒仓,我們構(gòu)建一個圖結(jié)構(gòu),他要比平面的歐幾里得結(jié)構(gòu)更能解釋多維數(shù)據(jù)誊垢,所以社區(qū)發(fā)現(xiàn)一開始是應用在社會科學的掉弛。在圖結(jié)構(gòu)中,細胞也像原始人一樣也會聚集成不同的部落喂走,但是部落之間也會有戰(zhàn)國七雄春秋五霸殃饿,所以可能不太穩(wěn)定。我們就發(fā)展出來一個網(wǎng)絡的指標:模塊度芋肠。
- 度:在無向圖中乎芳,與頂點v關(guān)聯(lián)的邊的條數(shù)成為頂點v的度。有向圖中,則以頂點v為弧尾的弧的條數(shù)成為頂點v的出度奈惑,以頂點v為弧頭的弧的條數(shù)成為頂點v的入度吭净,而頂點v的度=出度+入度。圖中各點度數(shù)之和是邊(或浑鹊椤)的條數(shù)的2倍寂殉。
- 模塊化指數(shù)(Modularity index): 衡量了網(wǎng)絡圖結(jié)構(gòu)的模塊化程度。一般>0.44 就說明該網(wǎng)絡圖達到了一定的模塊化程度 原在。
更多關(guān)于圖的概念可以參考:Gephi網(wǎng)絡圖極簡教程
模塊度(Modularity)用來衡量一個社區(qū)的劃分是不是相對比較好的結(jié)果友扰。一個相對好的結(jié)果在社區(qū)內(nèi)部的節(jié)點相似度較高,而在社區(qū)外部節(jié)點的相似度較低庶柿。
模塊度的大小定義為社區(qū)內(nèi)部的總邊數(shù)和網(wǎng)絡中總邊數(shù)的比例減去一個期望值村怪,該期望值是將網(wǎng)絡設定為隨機網(wǎng)絡時同樣的社區(qū)分配所形成的社區(qū)內(nèi)部的總邊數(shù)和網(wǎng)絡中總邊數(shù)的比例的大小。
Louvain 算法的優(yōu)化目標為最大化整個數(shù)據(jù)的模塊度澳泵,模塊度的計算如下:
其中m為圖中邊的總數(shù)量实愚,k_i表示所有指向節(jié)點i的連邊權(quán)重之和,k_j同理兔辅。A_{i,j} 表示節(jié)點i腊敲,j之間的連邊權(quán)重。
在算法開始维苔,每個節(jié)點都是一個獨立的社區(qū)碰辅,社區(qū)內(nèi)的連邊權(quán)重為0.
算法遍歷數(shù)據(jù)中的所有節(jié)點,針對每個節(jié)點遍歷該節(jié)點的所有鄰居節(jié)點介时,衡量把該節(jié)點加入其鄰居節(jié)點所在的社區(qū)前后所帶來的模塊度的收益(前后圖的模塊度之差)没宾。
并選擇對應最大收益的鄰居節(jié)點,加入其所在的社區(qū)沸柔。這一過程重復進行循衰,直到每一個節(jié)點的社區(qū)歸屬都不在發(fā)生變化(貪婪的算法)。
對以上形成的社區(qū)進行折疊褐澎,把每個社區(qū)折疊成點会钝,分別計算這些新生成的“社區(qū)點”之間的連邊權(quán)重,以及社區(qū)內(nèi)的所有點之間的連邊權(quán)重之和工三,用于下一輪的迭代(又是收斂的算法)迁酸。
經(jīng)過這一波相互比較和迭代,使得我們的圖(就是那個每個細胞都是一個點的網(wǎng)絡圖)終于穩(wěn)定于一個大統(tǒng)一的帝國俭正,然后統(tǒng)一度量衡(降維到二維平面)奸鬓,劃分行政區(qū)域(分出亞群),派分行政長官(亞群的marker)掸读。至此串远,我們也就找到了細胞異質(zhì)性宏多。
但是,這是真的嗎抑淫?
什么才是真正的細胞異質(zhì)性绷落?
Louvain_modularity
Louvain 算法原理 及設計實現(xiàn)
Community Detection社群發(fā)現(xiàn)算法-文獻綜述