Lu H, Liu S, Wei H, et al. Multi-kernel fuzzy clustering based on auto-encoder for fMRI functional network[J]. Expert Systems with Applications, 2020, 159: 113513.
摘要翻譯
現(xiàn)有的基于自編碼器的聚類算法只使用了一層信息径筏。本文提出了一種新的子空間聚類算法,該方法利用從堆疊自編碼器中學(xué)習(xí)到的多個隱層的信息構(gòu)建不同的核。提出的基于自動編碼器的模糊多核聚類方法携添,通過核的隸屬矩陣和系數(shù)括荡,實現(xiàn)目標(biāo)函數(shù)的值迭代到最小誤差忧设。同時锄开,該方法結(jié)合了自編碼器梳猪,實現(xiàn)了輸入數(shù)據(jù)的降維效果彩扔。為了驗證該算法的有效性妆档,作者首先在腦網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行了實驗。與MKFC借杰、RMKKM等算法相比过吻,該方法顯著地提高了準(zhǔn)確性。在構(gòu)建的高維網(wǎng)絡(luò)數(shù)據(jù)集上的實驗結(jié)果優(yōu)于目前的幾種聚類算法蔗衡。結(jié)果表明纤虽,子空間信息經(jīng)過降維后更有利于聚類。
因為該論文是針對特定領(lǐng)域的特定數(shù)據(jù)集绞惦,因此筆者只關(guān)注所提出的模型結(jié)構(gòu)逼纸。(:筆者盡力對模型進(jìn)行理解,因涉及到領(lǐng)域?qū)I(yè)知識济蝉,如有偏差請指正杰刽!
預(yù)備知識
- fuzzy clustering
模糊聚類(FCM)是機(jī)器學(xué)習(xí)領(lǐng)域的經(jīng)典聚類算法K-means算法上的擴(kuò)展,它使用L2范數(shù)來度量重構(gòu)誤差王滤。此外贺嫂,F(xiàn)CM是一種軟聚類方法,對球形聚類更有效雁乡。選擇模糊聚類的原因是隸屬度描述了屬于聚類中心的數(shù)據(jù)點的不確定性第喳,因此它比清晰聚類包含更多的信息。(1)式中的為L2范數(shù):
的可能性可以被計算出來曲饱。即,通過每個數(shù)據(jù)點
到集群中心
的距離珠月,可以得到每個數(shù)據(jù)
的隸屬度
扩淀。
-
kernel fuzzy clustering
如果聚類算法的度量只局限于歐式距離,那么類簇中的復(fù)雜特征很難被分開啤挎。Girolami等人(2002)提出了Mercer核方法來分離具有復(fù)雜特征的非線性簇驻谆。在引入核函數(shù)后,將目標(biāo)函數(shù)推廣到等式 (3):
由(3)式可以得出(4)式的優(yōu)化目標(biāo):
其中,K表示為:
- multiple kernel fuzzy clustering
KFC算法中使用的是單個核函數(shù)区端。當(dāng)面對多種不同類型的特征樣本值漫,且每個樣本都有多個非線性聚類時,單核函數(shù)不能滿足核樣本的要求织盼。也就是說對于核方法而言杨何,最重要的是使用的核適合于所有的樣本點數(shù)據(jù)。因此沥邻,對于MKFC中每個樣本都有多個核函數(shù)危虱,期望從中可以得到一個合適的映射。
假設(shè)唐全,有個核
埃跷,為了找到一個合適的核,從而為每個核都建立了對應(yīng)的核權(quán)重邮利。
模型簡述
圖中提出的AE-MKFC將一個堆棧編碼器的多個隱藏層與多個核結(jié)合起來弥雹,最終得到了可以聚類的最佳核矩陣。編碼器部分不僅可以減少維度延届,而且可以高度地表示樣本特征剪勿。在圖中,為了便于表示堆疊的SAE方庭,沒有給出解碼器過程的細(xì)節(jié)厕吉。在實驗中,SAE通過訓(xùn)練
通過
核矩陣(半正定矩陣):
以及對應(yīng)的核權(quán)重:
該算法的最終目標(biāo)是獲得一個全面的最優(yōu)核空間來聚類龄减,從而求解的核可以由權(quán)重獲得:
作者也給出了最好的核函數(shù):
前序有文獻(xiàn)指出项钮,歐式距離可以轉(zhuǎn)化為如下的內(nèi)積形式且正交關(guān)系可以防止映射中的交叉項:
對了找到每個樣本點到對應(yīng)簇中心的最短距離,AE-MKFC的最終的目標(biāo)函數(shù)可以綜合為如下:
emmm 論文中有些符號沒太看懂欺殿。寄纵。鳖敷。先放著吧