注:一致性聚類通常被用于確定最佳的聚類數(shù)目K
聚類分析
傳統(tǒng)方法的不足
- 不能提供“客觀的”分類數(shù)目的標(biāo)準(zhǔn)和分類邊界,例如Hierarchical Clustering批狱。
- 需要預(yù)先給定一個(gè)分類的數(shù)目氮惯,且沒有統(tǒng)一的標(biāo)準(zhǔn)去比較不同分類數(shù)目下分類的結(jié)果关面,例如K-means Clustering稚字。
- 聚類結(jié)果的合理性和可靠性無法驗(yàn)證吠架。
一致聚類
- 一致聚類通過基于重采樣的方法來驗(yàn)證聚類合理性
- 一致聚類方法的主要目的是評(píng)估聚類的穩(wěn)定性
基本原理假設(shè)
從原數(shù)據(jù)集不同的子類中提取出的樣本構(gòu)成一個(gè)新的數(shù)據(jù)集怀薛,并且從同一個(gè)子類中有不同的樣本被提取出來落萎,那么在新數(shù)據(jù)集上聚類分析之后的結(jié)果悯许,無論是聚類的數(shù)目還是類內(nèi)樣本都應(yīng)該和原數(shù)據(jù)集相差不大仆嗦。因此所得到的聚類相對(duì)于抽樣變異越穩(wěn)定,我們?cè)娇梢韵嘈胚@一樣的聚類代表了一個(gè)真實(shí)的子類結(jié)構(gòu)先壕。重采樣的方法可以打亂原始數(shù)據(jù)集瘩扼,這樣對(duì)每一次重采樣的樣本進(jìn)行聚類分析然后再綜合評(píng)估多次聚類分析的結(jié)果給出一致性(Consensus)的評(píng)估。--上方描述參考自:福醫(yī)大生物信息學(xué)“一致性聚類”課件
#安裝ConsensusClusterPlus
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
BiocManager::install("ConsensusClusterPlus")
#加載包
library(ConsensusClusterPlus)
#browseVignettes("ConsensusClusterPlus")#查看幫助文檔
ConsensusClusterPlus(d,maxK=10,reps=1000,pItem=0.8,pFeature=1,title="resultstrain",clusterAlg="km",distance="euclidean",seed=1262118388.71279,plot="pdf",writeTable=TRUE)
運(yùn)行上方代碼垃僚,會(huì)生成許多圖和表(上方的d是你的數(shù)據(jù)矩陣)
-
你可以根據(jù)delta圖來選定k,通常選擇最后一個(gè)拐點(diǎn)集绰,所對(duì)應(yīng)的k為你的最佳k值
delta圖 -
該代碼還生成多個(gè)一致性聚類的圖,例如下圖
image.png -
同時(shí)該函數(shù)也生成了每一個(gè)k值的分組情況谆棺,
class
分組情況:
class
參考文檔
http://www.bioconductor.org/packages/release/bioc/vignettes/ConsensusClusterPlus/inst/doc/ConsensusClusterPlus.pdf
參考文獻(xiàn):ConsensusClusterPlus: a class discovery tool with confidence
assessments and item tracking