目前有的一些聚類方法:基于距離的層次聚類、k-means聚類、自組織映射(SOMS)局义。
傳統(tǒng)的分析方法就是將組織分為具有相似的表達(dá)譜的patterns气嫁,這種方法很難去區(qū)分典型的表達(dá)譜數(shù)據(jù)集当窗。本文可以使用GoM(grade of membership)模型,這個(gè)模型允許產(chǎn)生的樣本在多種clusters中存在不同的組員寸宵。也就是說(shuō)崖面,他們要求每個(gè)樣本在每個(gè)cluster中都占有一定的比例或者“grade”。這個(gè)梯影,模型被廣泛使用于種群遺傳學(xué)混合模型(個(gè)體可以從過(guò)多個(gè)種群中擁有自己的祖先)巫员。在文檔聚類中,每個(gè)文檔在多種的topics中都會(huì)有關(guān)系甲棍。在這些領(lǐng)域简识, GoM模型也被叫做 “admixture models”, and “topic models” or “Latent Dirichlet Allocation”。GoM模型目前也可以被用于檢測(cè)腫瘤樣本中突變信息感猛。
“cell type deconvolution”包括使用cell-type-specific expression profiles的marker gene去估計(jì)不同的細(xì)胞類型的比例(混合)七扰。
具體來(lái)說(shuō),我們使用的GoM模型類似于——blind去卷積的方法(估計(jì)細(xì)胞的比例和細(xì)胞類型的信號(hào))唱遭。
在我們分析人類的樣本GTEX項(xiàng)目戳寸,這個(gè)模型可以在樣本中捕獲到生物的異質(zhì)性盡管推斷出的關(guān)系的層級(jí)是和具體的細(xì)胞類型不相關(guān)的。
在我們的單細(xì)胞的項(xiàng)目中拷泽,這個(gè)GoM的模型是一個(gè)靈活的對(duì)于傳統(tǒng)聚類模型的補(bǔ)充疫鹊,盡管將關(guān)系的層級(jí)解釋成“細(xì)胞類型的比例”是不正確的(由于每個(gè)樣本都是單個(gè)細(xì)胞)袖瞻。
現(xiàn)在我們開(kāi)發(fā)GoM作為傳統(tǒng)模型的補(bǔ)充,可以捕獲細(xì)胞內(nèi)連續(xù)的或者離散的變動(dòng)拆吆。
確實(shí)聋迎,細(xì)胞之間的差異在多大程度上可以用離散簇和更連續(xù)的種群來(lái)描述,這是一個(gè)基本問(wèn)題枣耀,當(dāng)結(jié)合適當(dāng)?shù)膯渭?xì)胞RNA-seq數(shù)據(jù)時(shí)霉晕,這里使用的GoM模型可能最終有助于解決這個(gè)問(wèn)題。
To fit this model to RNA-seq data, we exploit the fact that this GoM model is commonly used for document clustering捞奕。
Single-cell RNA-seq data
單細(xì)胞技術(shù)在細(xì)胞差異電費(fèi)表達(dá)譜上徹底改變了人們的認(rèn)知牺堰。以前是以明顯的細(xì)胞類型去分類細(xì)胞群,但是細(xì)胞世紀(jì)山給的異質(zhì)性會(huì)更加的復(fù)雜颅围,在某些情況下伟葫,也許細(xì)胞的狀態(tài)就是連續(xù)的,我們的GoM模型就很適合去捕捉連續(xù)的細(xì)胞狀態(tài)院促。