背景 有時(shí)候數(shù)據(jù)集中會(huì)包含一個(gè)或多個(gè)數(shù)值異常大或異常小的值芬迄,這樣的極端值稱(chēng)為異常值 對(duì)于異常值碑宴,我們?cè)撛趺崔k呢碧磅? 需要采用一定的技術(shù)手段從大量數(shù)...
外部指標(biāo) (要求數(shù)據(jù)集有標(biāo)簽) 調(diào)整蘭德系數(shù) Adjusted Rand Index描述分類(lèi)與真實(shí)標(biāo)簽的相似度1) RI取值范圍為[0,1]身冬,R...
背景 協(xié)方差與相關(guān)系數(shù)協(xié)方差描述兩變量變化的相似度,相關(guān)系數(shù)除去了變量變化幅度的影響 高斯混合模型多個(gè)高斯分布混合得到的結(jié)果 高斯混合分析步驟 ...
DBSCAN DBSCAN: 具有噪聲的基于密度的空間聚類(lèi) DBSCAN理解 Epsilon聚點(diǎn)搜索范圍稚新,如果范圍內(nèi)無(wú)數(shù)據(jù)或者數(shù)據(jù)太少,則認(rèn)為是...
層次凝聚聚類(lèi)法 HAC 也稱(chēng)為全連接聚類(lèi)诬像,與單連接聚類(lèi)不同的是,兩個(gè)類(lèi)之間的距離不是最近點(diǎn)距離闸婴,而是最遠(yuǎn)點(diǎn)距離 層次聚類(lèi) 優(yōu)點(diǎn) 能夠幫助進(jìn)行數(shù)據(jù)...
算法介紹 對(duì)于同一個(gè)數(shù)據(jù)集坏挠,相同的聚簇中心,每次計(jì)算結(jié)果也可能會(huì)不一樣 該算法除了要事先確定簇?cái)?shù)K和對(duì)初始聚類(lèi)中心敏感外掠拳,經(jīng)常以局部最優(yōu)結(jié)束癞揉,同...