【嵌牛導(dǎo)讀】FCM算法是一種基于劃分的聚類算法,它的思想就是使得被劃分到同一簇的對象之間相似度最大擅威,而不同簇之間的相似度最小盆驹。模糊C均值算法是普通C均值算法的改進(jìn),普通C均值算法對于數(shù)據(jù)的劃分是硬性的居凶,而FCM則是一種柔性的模糊劃分虫给。
【嵌牛提問】FCM有什么用?
【嵌牛鼻子】模糊C均值聚類算法
【嵌牛正文】
聚類分析是多元統(tǒng)計(jì)分析的一種侠碧,也是無監(jiān)督模式識(shí)別的一個(gè)重要分支抹估,在模式分類、圖像處理和模糊規(guī)則處理等眾多領(lǐng)域中獲得最廣泛的應(yīng)用弄兜。它把一個(gè)沒有類別標(biāo)記的樣本按照某種準(zhǔn)則劃分為若干子集药蜻,使相似的樣本盡可能歸于一類瓷式,而把不相似的樣本劃分到不同的類中。硬聚類把每個(gè)待識(shí)別的對象嚴(yán)格的劃分某類中语泽,具有非此即彼的性質(zhì)贸典,而模糊聚類建立了樣本對類別的不確定描述,更能客觀的反應(yīng)客觀世界踱卵,從而成為聚類分析的主流瓤漏。
模糊聚類算法是一種基于函數(shù)最優(yōu)方法的聚類算法莲趣,使用微積分計(jì)算技術(shù)求最優(yōu)代價(jià)函數(shù)擒抛,在基于概率算法的聚類方法中將使用概率密度函數(shù)随珠,為此要假定合適的模型,模糊聚類算法的向量可以同時(shí)屬于多個(gè)聚類班利,從而擺脫上述問題。 模糊聚類分析算法大致可分為三類:
1)分類數(shù)不定榨呆,根據(jù)不同要求對事物進(jìn)行動(dòng)態(tài)聚類罗标,此類方法是基于模糊等價(jià)矩陣聚類的,稱為模糊等價(jià)矩陣動(dòng)態(tài)聚類分析法积蜻。
2)分類數(shù)給定闯割,尋找出對事物的最佳分析方案,此類方法是基于目標(biāo)函數(shù)聚類的竿拆,稱為模糊C 均值聚類宙拉。
3)在攝動(dòng)有意義的情況下,根據(jù)模糊相似矩陣聚類丙笋,此類方法稱為基于攝動(dòng)的模糊聚類分析法谢澈。
我所學(xué)習(xí)的是模糊C 均值聚類算法,要學(xué)習(xí)模糊C 均值聚類算法要先了解慮屬度的含義御板,隸屬度函數(shù)是表示一個(gè)對象x 隸屬于集合A 的程度的函數(shù)锥忿,通常記做μA (x),其自變量范圍是所有可能屬于集合A 的對象(即集合A 所在空間中的所有點(diǎn))怠肋,取值范圍是[0,1]敬鬓,即0<=μA (x)<=1。μA (x)=1表示x 完全隸屬于集合A 笙各,相當(dāng)于傳統(tǒng)集合概念上的x ∈A 钉答。一個(gè)定義在空間X={x}上的隸屬度函數(shù)就定義了一個(gè)模糊集合A ,或者叫定義在論域X={x}上的模糊子集A 酪惭。對于有限個(gè)對象x 1希痴,x 2,……春感,x n 模糊集合A 可以表示為:A ={(μA (x i ), x i ) |x i ∈X } (6.1)
有了模糊集合的概念砌创,一個(gè)元素隸屬于模糊集合就不是硬性的了虏缸,在聚類的問題中,可以把聚類生成的簇看成模糊集合嫩实,因此刽辙,每個(gè)樣本點(diǎn)隸屬于簇的隸屬度就是[0,1]區(qū)間里面的值甲献。
FCM 算法需要兩個(gè)參數(shù)一個(gè)是聚類數(shù)目C 宰缤,另一個(gè)是參數(shù)m 。一般來講C 要遠(yuǎn)遠(yuǎn)小于聚類樣本的總個(gè)數(shù)晃洒,同時(shí)要保證C>1慨灭。對于m ,它是一個(gè)控制算法的柔性的參數(shù)球及,如果m 過大氧骤,則聚類效果會(huì)很次,而如果m 過小則算法會(huì)接近HCM 聚類算法吃引。算法的輸出是C 個(gè)聚類中心點(diǎn)向量和C*N的一個(gè)模糊劃分矩陣筹陵,這個(gè)矩陣表示的是每個(gè)樣本點(diǎn)屬于每個(gè)類的隸屬度。根據(jù)這個(gè)劃分矩陣按照模糊集合中的最大隸屬原則就能夠確定每個(gè)樣本點(diǎn)歸為哪個(gè)類镊尺。聚類中心表示的是每個(gè)類的平均特征朦佩,可以認(rèn)為是這個(gè)類的代表點(diǎn)。從算法的推導(dǎo)過程中我們不難看出庐氮,算法對于滿足正態(tài)分布的數(shù)據(jù)聚類效果會(huì)很好语稠。
通過實(shí)驗(yàn)和算法的研究學(xué)習(xí),不難發(fā)現(xiàn)FCM算法的優(yōu)缺點(diǎn):
首先旭愧,模糊c 均值泛函Jm 仍是傳統(tǒng)的硬c 均值泛函J1 的自然推廣颅筋。J1 是一個(gè)應(yīng)用很廣泛的聚類準(zhǔn)則,對其在理論上的研究已經(jīng)相當(dāng)?shù)耐晟剖淇荩@就為Jm 的研究提供了良好的條件议泵。
其次,從數(shù)學(xué)上看桃熄,Jm與Rs的希爾伯特空間結(jié)構(gòu)(正交投影和均方逼近理論) 有密切的關(guān)聯(lián)先口,因此Jm 比其他泛函有更深厚的數(shù)學(xué)基礎(chǔ)。
最后瞳收,F(xiàn)CM 聚類算法不僅在許多鄰域獲得了非常成功的應(yīng)用碉京,而且以該算法為基礎(chǔ),又提出基于其他原型的模糊聚類算法螟深,形成了一大批FCM類型的算法谐宙,比如模糊c線( FCL) ,模糊c面(FCP) 界弧,模糊c殼(FCS) 等聚類算法凡蜻,分別實(shí)現(xiàn)了對呈線狀搭综、超平面狀和“薄殼”狀結(jié)構(gòu)模式子集(或聚類) 的檢測。
模糊c均值算法因設(shè)計(jì)簡單划栓,解決問題范圍廣兑巾,易于應(yīng)用計(jì)算機(jī)實(shí)現(xiàn)等特點(diǎn)受到了越來越多人的關(guān)注,并應(yīng)用于各個(gè)領(lǐng)域忠荞。但是蒋歌,自身仍存在的諸多問題,例如強(qiáng)烈依賴初始化數(shù)據(jù)的好壞和容易陷入局部鞍點(diǎn)等委煤,仍然需要進(jìn)一步的研究堂油。