細胞異質(zhì)性||Louvain 算法概述

什么是細胞異質(zhì)性暗膜?

在談及細胞異質(zhì)性之前叹谁,還是讓我們先來看看腫瘤的異質(zhì)性吧:腫瘤的異質(zhì)性是惡性腫瘤的特征之一埂陆,是指腫瘤在生長過程中,經(jīng)過多次分裂增殖呐赡,其子細胞呈現(xiàn)出分子生物學或基因方面的改變退客,從而使腫瘤的生長速度、侵襲能力链嘀、對藥物的敏感性萌狂、預后等各方面產(chǎn)生差異。

那么怀泊,細胞在生長過程中茫藏,經(jīng)過多次分裂增殖,在完成其生命周期的同時也會呈現(xiàn)分子生物學或基因方面的改變霹琼,從而產(chǎn)生細胞(狀態(tài)的或類型的)多樣性务傲,這中多樣性,我們稱之為細胞異質(zhì)性(heterogeneity)枣申。

細胞的異質(zhì)性 (heterogeneity) 是一個普遍存在的生物學現(xiàn)象售葡。多細胞生物個體由多種形態(tài)功能不同的細胞組成。多種類型細胞有序地結(jié)合在一起忠藤,形成了組織和器官挟伙。在疾病發(fā)生的情況下,異常的細胞常常藏匿于正常細胞之中模孩。腫瘤組織也具有很強的細胞異質(zhì)性尖阔,其中決定腫瘤發(fā)展方向的細胞可能只占整個腫瘤組織的一小部分贮缅。而且近年研究表明,即使看起來相同的細胞介却,也可能存在顯著的異質(zhì)性(分群之后又有亞群谴供,而亞群又有亞群,因為細胞分化發(fā)展本來就是連續(xù)的)筷笨。
??研究細胞異質(zhì)性憔鬼,是一個單細胞層面的范疇邓萨。單細胞間的異質(zhì)性存在于DNA截歉、RNA官脓、蛋白等各個層面颇玷。
參考:細胞異質(zhì)性研究策略解析

培養(yǎng)的同一種細胞恕刘,你看多么明顯的異質(zhì)性澳洞酢秋泄!


我是異質(zhì)性

那么基于單細胞技術(shù)得到每個細胞的某一特性的數(shù)值(DNA晦溪、RNA答恶、蛋白)我們就可以基于這些數(shù)據(jù)來探索出細胞的異質(zhì)性了:它們可以分為幾個(亞)群饺蚊?

什么是聚類?

如何分群在過去已經(jīng)不是一個問題:人以群分悬嗓,物以類聚嘛污呼!但是如何才能識別出兩個個體是不是應該屬于一個群呢?這就要請出我們的第二個核心概念了:距離包竹。這里的距離就是你和我之間的距離燕酷,遠嗎?現(xiàn)在你不在我身邊周瞎;近嗎苗缩?我們沒有一點血緣關(guān)系。

這個笑話里面包含了距離的一個核心的屬性:對于不同個體在不同的距離度量方法之下声诸,它們的距離很可能會差的很遠酱讶!比如常見的歐氏距離,馬哈頓距離彼乌,BC距離泻肯,均不同。后來還發(fā)展出其他的算法囤攀,雖然有的不叫距離這個詞软免,但是聚類算法都要有一個衡量兩個個體遠近的統(tǒng)計量。

聚類分析(英語:Cluster analysis)亦稱為群集分析焚挠,是對于統(tǒng)計數(shù)據(jù)分析的一門技術(shù),在許多領(lǐng)域受到廣泛應用漓骚,包括機器學習蝌衔,數(shù)據(jù)挖掘榛泛,模式識別圖像分析以及生物信息噩斟。聚類是把相似的對象通過靜態(tài)分類的方法分成不同的組別或者更多的子集(subset)曹锨,這樣讓在同一個子集中的成員對象都有相似的一些屬性,常見的包括在坐標系中更加短的空間距離等剃允。

在距離定了之后沛简,是不是就可以兩兩比較距離大小來完成聚類了呢?理論上是的斥废,但是在作比較的時候一般又有兩種方法:

數(shù)據(jù)聚類算法可以分為結(jié)構(gòu)性或者分散性椒楣。結(jié)構(gòu)性算法利用以前成功使用過的聚類器進行分類,而分散型算法則是一次確定所有分類牡肉。結(jié)構(gòu)性算法可以從上至下或者從下至上雙向進行計算捧灰。從下至上算法從每個對象作為單獨分類開始,不斷融合其中相近的對象统锤,這樣聚出的類往往小而碎毛俏。而從上至下算法則是把所有對象作為一個整體分類,然后逐漸分小饲窿。

當我們用聚類算法來識別細胞亞群的時候煌寇,要注意的一點就是:同樣的數(shù)據(jù),不同的聚類算法得到的細胞群是不一樣的逾雄。這很正常阀溶,應該成為常識。

那么我們應該用哪種聚類算法呢嘲驾?答案是看數(shù)據(jù)特點淌哟。

Louvain 算法 概覽?

Louvain算法是一種基于圖數(shù)據(jù)的社區(qū)發(fā)現(xiàn)(Community detection)算法辽故。原始論文為:《Fast unfolding of communities in large networks》

我們假想細胞之間是有遠近親疏的(細胞之間有距離)徒仓,我們構(gòu)建一個圖結(jié)構(gòu),他要比平面的歐幾里得結(jié)構(gòu)更能解釋多維數(shù)據(jù)誊垢,所以社區(qū)發(fā)現(xiàn)一開始是應用在社會科學的掉弛。在圖結(jié)構(gòu)中,細胞也像原始人一樣也會聚集成不同的部落喂走,但是部落之間也會有戰(zhàn)國七雄春秋五霸殃饿,所以可能不太穩(wěn)定。我們就發(fā)展出來一個網(wǎng)絡的指標:模塊度芋肠。

  • 度:在無向圖中乎芳,與頂點v關(guān)聯(lián)的邊的條數(shù)成為頂點v的度。有向圖中,則以頂點v為弧尾的弧的條數(shù)成為頂點v的出度奈惑,以頂點v為弧頭的弧的條數(shù)成為頂點v的入度吭净,而頂點v的度=出度+入度。圖中各點度數(shù)之和是邊(或浑鹊椤)的條數(shù)的2倍寂殉。
  • 模塊化指數(shù)(Modularity index): 衡量了網(wǎng)絡圖結(jié)構(gòu)的模塊化程度。一般>0.44 就說明該網(wǎng)絡圖達到了一定的模塊化程度 原在。

更多關(guān)于圖的概念可以參考:Gephi網(wǎng)絡圖極簡教程

模塊度(Modularity)用來衡量一個社區(qū)的劃分是不是相對比較好的結(jié)果友扰。一個相對好的結(jié)果在社區(qū)內(nèi)部的節(jié)點相似度較高,而在社區(qū)外部節(jié)點的相似度較低庶柿。

模塊度的大小定義為社區(qū)內(nèi)部的總邊數(shù)和網(wǎng)絡中總邊數(shù)的比例減去一個期望值村怪,該期望值是將網(wǎng)絡設定為隨機網(wǎng)絡時同樣的社區(qū)分配所形成的社區(qū)內(nèi)部的總邊數(shù)和網(wǎng)絡中總邊數(shù)的比例的大小。

Louvain 算法的優(yōu)化目標為最大化整個數(shù)據(jù)的模塊度澳泵,模塊度的計算如下:

其中m為圖中邊的總數(shù)量实愚,k_i表示所有指向節(jié)點i的連邊權(quán)重之和,k_j同理兔辅。A_{i,j} 表示節(jié)點i腊敲,j之間的連邊權(quán)重。

在算法開始维苔,每個節(jié)點都是一個獨立的社區(qū)碰辅,社區(qū)內(nèi)的連邊權(quán)重為0.

算法遍歷數(shù)據(jù)中的所有節(jié)點,針對每個節(jié)點遍歷該節(jié)點的所有鄰居節(jié)點介时,衡量把該節(jié)點加入其鄰居節(jié)點所在的社區(qū)前后所帶來的模塊度的收益(前后圖的模塊度之差)没宾。

并選擇對應最大收益的鄰居節(jié)點,加入其所在的社區(qū)沸柔。這一過程重復進行循衰,直到每一個節(jié)點的社區(qū)歸屬都不在發(fā)生變化(貪婪的算法)。


對以上形成的社區(qū)進行折疊褐澎,把每個社區(qū)折疊成點会钝,分別計算這些新生成的“社區(qū)點”之間的連邊權(quán)重,以及社區(qū)內(nèi)的所有點之間的連邊權(quán)重之和工三,用于下一輪的迭代(又是收斂的算法)迁酸。

經(jīng)過這一波相互比較和迭代,使得我們的圖(就是那個每個細胞都是一個點的網(wǎng)絡圖)終于穩(wěn)定于一個大統(tǒng)一的帝國俭正,然后統(tǒng)一度量衡(降維到二維平面)奸鬓,劃分行政區(qū)域(分出亞群),派分行政長官(亞群的marker)掸读。至此串远,我們也就找到了細胞異質(zhì)性宏多。

但是,這是真的嗎抑淫?

什么才是真正的細胞異質(zhì)性绷落?


Louvain_modularity
Louvain 算法原理 及設計實現(xiàn)
Community Detection社群發(fā)現(xiàn)算法-文獻綜述

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末姥闪,一起剝皮案震驚了整個濱河市始苇,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌筐喳,老刑警劉巖催式,帶你破解...
    沈念sama閱讀 206,839評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異避归,居然都是意外死亡荣月,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評論 2 382
  • 文/潘曉璐 我一進店門梳毙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來哺窄,“玉大人,你說我怎么就攤上這事账锹∶纫担” “怎么了?”我有些...
    開封第一講書人閱讀 153,116評論 0 344
  • 文/不壞的土叔 我叫張陵奸柬,是天一觀的道長生年。 經(jīng)常有香客問我,道長廓奕,這世上最難降的妖魔是什么抱婉? 我笑而不...
    開封第一講書人閱讀 55,371評論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮桌粉,結(jié)果婚禮上蒸绩,老公的妹妹穿的比我還像新娘。我一直安慰自己铃肯,他們只是感情好患亿,可當我...
    茶點故事閱讀 64,384評論 5 374
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著缘薛,像睡著了一般窍育。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上宴胧,一...
    開封第一講書人閱讀 49,111評論 1 285
  • 那天漱抓,我揣著相機與錄音,去河邊找鬼恕齐。 笑死乞娄,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播仪或,決...
    沈念sama閱讀 38,416評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼确镊,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了范删?” 一聲冷哼從身側(cè)響起蕾域,我...
    開封第一講書人閱讀 37,053評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎到旦,沒想到半個月后旨巷,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡添忘,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,007評論 2 325
  • 正文 我和宋清朗相戀三年采呐,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片搁骑。...
    茶點故事閱讀 38,117評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡斧吐,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出仲器,到底是詐尸還是另有隱情煤率,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評論 4 324
  • 正文 年R本政府宣布娄周,位于F島的核電站涕侈,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏煤辨。R本人自食惡果不足惜裳涛,卻給世界環(huán)境...
    茶點故事閱讀 39,324評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望众辨。 院中可真熱鬧端三,春花似錦、人聲如沸鹃彻。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蛛株。三九已至团赁,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間谨履,已是汗流浹背欢摄。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留笋粟,地道東北人怀挠。 一個月前我還...
    沈念sama閱讀 45,578評論 2 355
  • 正文 我出身青樓析蝴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親绿淋。 傳聞我的和親對象是個殘疾皇子闷畸,可洞房花燭夜當晚...
    茶點故事閱讀 42,877評論 2 345

推薦閱讀更多精彩內(nèi)容

  • feisky云計算、虛擬化與Linux技術(shù)筆記posts - 1014, comments - 298, trac...
    不排版閱讀 3,815評論 0 5
  • 男主外女主內(nèi)吞滞,其實對男人女人都有著更高的要求佑菩,男人必須要有打拼精神,不管耕種還是做生意冯吓,要肩負起全家人的生活所需倘待。...
    蕾蕾_昕靈閱讀 92評論 0 3
  • 《干法》這本書在2009年首次出版,此后常年暢銷组贺。作者稻盛和夫是一位成功的企業(yè)家,創(chuàng)辦的日本京瓷株式會社和第二電電...
    糖楓eki閱讀 116評論 0 0
  • 外婆祖娘,是藏在木椅中的童年 外婆失尖,是藏在童年中的故事 外婆,是藏在故事中的情節(jié) 外婆渐苏,是藏在情節(jié)中的對話 外婆掀潮,是藏...
    易九辭閱讀 201評論 1 3