【無監(jiān)督聚類方法(一)】譜聚類(基于圖論的聚類方法)

該文章主要整理自珠穆拉瑪峰的文章《從拉普拉斯矩陣說到譜聚類》溅潜,添加了少部分個(gè)人理解的文字和公式推導(dǎo)

該文章同步發(fā)表于 githubgithub homepage

目錄

    1. 一堆基礎(chǔ)概念
    1. 拉普拉斯矩陣
    1. 拉普拉斯矩陣的性質(zhì)
    1. 譜聚類
    • 4.1. 算法思想及優(yōu)化目標(biāo)
    • 4.2. 構(gòu)造Laplacian圖
    • 4.3. 用Cut/Ratio Cut分割子圖
      • 4.3.1. 優(yōu)化目標(biāo)
      • 4.3.2. 求解優(yōu)化問題:最小化RatioCut與最小化 f'Lf 等價(jià)
  • 補(bǔ)充知識
    • *1. 向量的乘法運(yùn)算
      • *1.1. 向量內(nèi)積(點(diǎn)積)
      • *1.2. 向量內(nèi)積的用途
      • *1.3. 向量外積
      • *1.4. 向量外積的用途

1. 一堆基礎(chǔ)概念

  • 單位矩陣

    在矩陣中然遏,n階單位矩陣硼瓣,是一個(gè) nxn 的方形矩陣迁匠,其主對角線元素為1,其余元素為0。單位矩陣以 In 表示电湘;如果階數(shù)可忽略每庆,或可由前后文確定的話臼疫,也可簡記為I(或者E)。 如下圖所示扣孟,便是一些單位矩陣:

    單位矩陣中的第i列即為單位向量vi,單位向量同時(shí)也是單位矩陣的特征向量荣赶,特征值皆為1凤价,因此這是唯一的特征值,且具有重?cái)?shù)n拔创。由此可見利诺,單位矩陣的行列式為1,且跡數(shù)為n剩燥。

  • 單位向量

    向量空間中的單位向量就是長度為 1 的向量

    兩個(gè)單位向量的點(diǎn)積就是它們之間角度的余弦(因?yàn)樗鼈兊拈L度都是 1):

    補(bǔ)充知識——向量的乘法運(yùn)算(見后文補(bǔ)充知識)

    一個(gè)非零向量u的正規(guī)化向量(即單位向量)u^就是平行于u的單位向量慢逾,記作:

    這里||u||是u的范數(shù)(長度)

  • 正交與正交矩陣

    正交是垂直這一直觀概念的推廣,若內(nèi)積空間中兩向量的內(nèi)積(即點(diǎn)積)為0灭红,則稱它們是正交的侣滩,相當(dāng)于這兩向量垂直,換言之变擒,如果能夠定義向量間的夾角君珠,則正交可以直觀的理解為垂直

    正交矩陣(orthogonal matrix)是一個(gè)元素為實(shí)數(shù),而且行與列皆為正交的單位向量的方塊矩陣(方塊矩陣娇斑,或簡稱方陣策添,是行數(shù)及列數(shù)皆相同的矩陣)

2. 拉普拉斯矩陣

拉普拉斯矩陣(Laplacian matrix)),也稱為基爾霍夫矩陣毫缆,是表示圖的一種矩陣

給定一個(gè)有n個(gè)頂點(diǎn)的圖 G=(V,E)唯竹,其拉普拉斯矩陣被定義為 L = D-A,D其中為圖的度矩陣苦丁,A為圖的鄰接矩陣

例如給定下圖G=(V,E)

把此“圖”轉(zhuǎn)換為鄰接矩陣的形式浸颓,記為A(假設(shè)每條邊的連接權(quán)重均為1):

把W的每一列元素加起來得到N個(gè)數(shù),然后把它們放在對角線上(其它地方都是零)芬骄,組成一個(gè)N×N的對角矩陣猾愿,記為度矩陣D,如下圖所示

根據(jù)拉普拉斯矩陣的定義L = D-A账阻,可得拉普拉斯矩陣L 為:

顯然蒂秘,拉普拉斯矩陣都是對稱

3. 拉普拉斯矩陣的性質(zhì)

介紹拉普拉斯矩陣的性質(zhì)之前,首先定義兩個(gè)概念淘太,如下:

  1. 對于鄰接矩陣姻僧,定義圖中A子圖與B子圖之間所有邊的權(quán)值之和如下:

其中规丽,定義 w ij為節(jié)點(diǎn) i 到節(jié)點(diǎn) j 的權(quán)值,如果兩個(gè)節(jié)點(diǎn)不是相連的撇贺,權(quán)值為零

  1. 與某結(jié)點(diǎn)鄰接的所有邊的權(quán)值和定義為該頂點(diǎn)的度d赌莺,多個(gè)d 形成一個(gè)度矩陣(對角陣)

拉普拉斯矩陣L具有如下性質(zhì):

  • L 是對稱半正定矩陣;

  • L * v1 = 0 * v1松嘶,即 L 的最小特征值是 0艘狭,相應(yīng)的特征向量是 v1

    證明: L * v1 = (D-W) * v1 = 0 = 0 * v1

    特征值和特征向量的定義:

    若數(shù)字λ和非零向量v滿足

    則v為A的一個(gè)特征向量,λ是其對應(yīng)的特征值

  • L 有n個(gè)非負(fù)實(shí)特征值

  • 對于任何一個(gè)屬于實(shí)向量 f∈Rn翠订,有以下式子成立

    其中

    下面巢音,來證明下上述結(jié)論,如下:

4. 譜聚類

4.1. 算法思想及優(yōu)化目標(biāo)

譜聚類本質(zhì)上就是將聚類問題轉(zhuǎn)換為圖論問題

從圖論的角度來說尽超,聚類的問題就相當(dāng)于一個(gè)圖的分割問題官撼。即給定一個(gè)圖G = (V, E),頂點(diǎn)集V表示各個(gè)樣本似谁,帶權(quán)的邊表示各個(gè)樣本之間的相似度傲绣,譜聚類的目的便是要找到一種合理的分割圖的方法,使得分割后形成若干個(gè)子圖巩踏,連接不同子圖的邊的權(quán)重(相似度)盡可能低秃诵,同子圖內(nèi)的邊的權(quán)重(相似度)盡可能高。物以類聚蛀缝,人以群分顷链,相似的在一塊兒,不相似的彼此遠(yuǎn)離屈梁。

至于如何把圖的頂點(diǎn)集分割/切割為不相交的子圖有多種辦法嗤练,如:

  • cut/Ratio Cut

  • Normalized Cut

  • 不基于圖,而是轉(zhuǎn)換成SVD能解的問題

優(yōu)化目標(biāo)為:讓被割掉各邊的權(quán)值和最小

因?yàn)楸豢车舻倪叺臋?quán)值和越小在讶,代表被它們連接的子圖之間的相似度越小煞抬,隔得越遠(yuǎn),而相似度低的子圖正好可以從中一刀切斷构哺。

4.2. 構(gòu)造Laplacian圖

(1)先要構(gòu)造相似度矩陣革答,任意兩個(gè)對象xi和xj,其相似度基于高斯核函數(shù)(也稱徑向基函數(shù)核)計(jì)算相似度定義為:

距離越大曙强,代表其相似度越小

相似度矩陣就是Laplacian圖的鄰接矩陣W

根據(jù)鄰接矩陣W可以得到度矩陣

最后Laplacian矩陣為L=D-W

(2)子圖A的指示向量如下:

4.3. 用Cut/Ratio Cut分割子圖</a>

4.3.1. 優(yōu)化目標(biāo)

如何切割才能得到最優(yōu)的結(jié)果呢残拐?

要把圖片分割為幾個(gè)區(qū)域(或若干個(gè)組),要求是分割所得的 Cut 值最小碟嘴,相當(dāng)于那些被切斷的邊的權(quán)值之和最小

設(shè) A1, A2, ..., Ak 為圖的幾個(gè)子集(它們沒有交集) 溪食,為了讓分割的Cut 值最小,譜聚類便是要最小化下述目標(biāo)函數(shù):

但很多時(shí)候娜扇,最小化cut 通常會導(dǎo)致不好的分割错沃。以分成2類為例栅组,這個(gè)式子通常會將圖分成了一個(gè)點(diǎn)和其余的n-1個(gè)點(diǎn)。如下圖所示枢析,很明顯玉掸,最小化的smallest cut不是最好的cut,反而把{A醒叁、B司浪、C、H}分為一邊把沼,{D断傲、E、F智政、G}分為一邊很可能就是最好的cut:

為了讓每個(gè)類都有合理的大小,目標(biāo)函數(shù)盡量讓 A1, A2, ..., Ak 足夠大箱蝠。改進(jìn)后的目標(biāo)函數(shù)為:

其中| A i |表示 A i 組中包含的頂點(diǎn)數(shù)目

或者也可以將優(yōu)化目標(biāo)定義為最小化Ncut:

其中

4.3.2. 求解優(yōu)化問題:最小化RatioCut與最小化 f'Lf 等價(jià)

現(xiàn)在來研究一下將圖劃分為兩個(gè)子圖A和A-的問題

目標(biāo)函數(shù):

定義向量 f = (f1, f22, ..., fm ) ∈ R n续捂,且

根據(jù)之前得到的拉普拉斯矩陣矩陣的性質(zhì),已知

現(xiàn)在把 f i 的定義式代入上式宦搬,我們將得到一個(gè)非常有趣的結(jié)論牙瓢!推導(dǎo)過程如下:

我們竟然從 f'Lf 推出了 RatioCut ,換句話說间校,拉普拉斯矩陣L 和我們要優(yōu)化的目標(biāo)函數(shù)RatioCut 有著密切的聯(lián)系矾克,于是我們的優(yōu)化目標(biāo)變成了:

補(bǔ)充知識

*1. 向量的乘法運(yùn)算

*1.1. 向量內(nèi)積(點(diǎn)積)

使用矩陣乘法并把(縱列)向量當(dāng)作n×1 矩陣,點(diǎn)積還可以寫為:

向量內(nèi)積性質(zhì)

向量內(nèi)積的物理意義

向量內(nèi)積的物理意義是憔足,力通過位移做功

*1.2. 向量內(nèi)積的用途

  • 求兩個(gè)非零向量的夾角

  • 判斷兩個(gè)非零向量是否垂直

    簡單的對應(yīng)坐標(biāo)相乘再求和胁附,結(jié)果為0就垂直,否則就不垂直

*1.3. 向量外積

通過坐標(biāo)進(jìn)行外積的直接計(jì)算比較復(fù)雜滓彰,寫成行列式的形式控妻,再展開,方便記憶

向量外積的性質(zhì)

向量外積的幾何意義

再除以2的話揭绑,就是以 a弓候,b 為邊的三角形的面積

*1.4. 向量外積的用途

求與三角形面積相關(guān)的問題


參考資料:

(1) CSDN·珠穆拉瑪峰《從拉普拉斯矩陣說到譜聚類》

(2) CSDN·鵝城驚喜師爺《【線性代數(shù)】向量的乘法運(yùn)算》

(3) 行者無疆兮.csdn【圖論】拉普拉斯矩陣(Laplacian matrix)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市他匪,隨后出現(xiàn)的幾起案子菇存,更是在濱河造成了極大的恐慌,老刑警劉巖邦蜜,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件依鸥,死亡現(xiàn)場離奇詭異,居然都是意外死亡畦徘,警方通過查閱死者的電腦和手機(jī)毕籽,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進(jìn)店門抬闯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人关筒,你說我怎么就攤上這事溶握。” “怎么了蒸播?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵睡榆,是天一觀的道長。 經(jīng)常有香客問我袍榆,道長胀屿,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任包雀,我火速辦了婚禮宿崭,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘才写。我一直安慰自己葡兑,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布赞草。 她就那樣靜靜地躺著讹堤,像睡著了一般。 火紅的嫁衣襯著肌膚如雪厨疙。 梳的紋絲不亂的頭發(fā)上洲守,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天,我揣著相機(jī)與錄音沾凄,去河邊找鬼梗醇。 笑死,一個(gè)胖子當(dāng)著我的面吹牛撒蟀,可吹牛的內(nèi)容都是我干的婴削。 我是一名探鬼主播,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼牙肝,長吁一口氣:“原來是場噩夢啊……” “哼唉俗!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起配椭,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤虫溜,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后股缸,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體衡楞,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年敦姻,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了瘾境。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片歧杏。...
    茶點(diǎn)故事閱讀 40,567評論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖迷守,靈堂內(nèi)的尸體忽然破棺而出犬绒,到底是詐尸還是另有隱情,我是刑警寧澤兑凿,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布凯力,位于F島的核電站,受9級特大地震影響礼华,放射性物質(zhì)發(fā)生泄漏咐鹤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一圣絮、第九天 我趴在偏房一處隱蔽的房頂上張望祈惶。 院中可真熱鬧,春花似錦扮匠、人聲如沸行瑞。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽镀虐。三九已至,卻和暖如春帮非,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背讹蘑。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工末盔, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人座慰。 一個(gè)月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓陨舱,卻偏偏與公主長得像,于是被迫代替她去往敵國和親版仔。 傳聞我的和親對象是個(gè)殘疾皇子游盲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容

  • 周六下午,我們正式開啟了這個(gè)學(xué)期的課程蛮粮。農(nóng)歷新年如何問候益缎,十二生肖的各個(gè)年份又如何問候呢,今天我們一一作了解答然想。...
    Lucas88閱讀 213評論 0 0
  • 都說女人的心思男人你別猜变泄,還說什么女人心海底針令哟,其實(shí)澳涨怼!那是你沒有看事情本質(zhì)的問題還非要去片面的看待女人屏富!只...
    喵嗚芊芊閱讀 1,016評論 0 1
  • 記得去年和同事一起到三清山晴竞,當(dāng)時(shí)我強(qiáng)烈提出要次日早起看日出,無奈大家當(dāng)天玩耍的太晚役听,均表示不愿意起來颓鲜。我想看日...
    一縷陽光v閱讀 175評論 0 0