[PED04]Ultra-Scalable Spectral Clustering and Ensemble Clustering

Ultra-Scalable Spectral Clustering and Ensemble Clustering

來源: TKDE
作者:Dong Huang, Chang-Dong Wang,等

疑問

二部圖
transfer cut

摘要

提出兩個算法:

  • ultra-scalable spectral clustering (U-SPEC)
  • ultra-scalable ensemble clustering (U-SENC)

在U-SPEC中惠勒,為了構造稀疏關聯(lián)子矩陣,提出了一種混合代表選擇策略和K近鄰代表的快速逼近方法。將稀疏子矩陣解釋為二部圖,利用轉移割(transfer cut)對圖進行有效劃分,得到聚類結果阱飘。

在U-SENC中,多個U-SPEC聚類器被進一步集成到一個集成聚類框架中,以增強U-SPEC的魯棒性剖煌,同時保持較高的效率材鹦。基于多U-SEPC的集成生成耕姊,在目標和基簇之間構造一個新的二部圖桶唐,并對其進行有效劃分,以達到一致的聚類結果茉兰。

Introduction

  • 問題:傳統(tǒng)譜聚類需要 O(N^2 d)的時間復雜度和O(N^2) 的空間復雜度來建立關聯(lián)矩陣尤泽、需要O(N^3)的時間復雜度和O(N^2)的空間復雜度來解決特征值分解問題。
  • 減輕譜聚類的巨大計算負擔的方法:
    • 策略一:稀疏化關聯(lián)矩陣规脸。利用稀疏特征值求解器[2]來解決特征值分解問題坯约。
      • 存在問題:矩陣稀疏化策略可以降低存儲關聯(lián)矩陣的內存成本,促進特征值分解莫鸭,但仍需要計算原關聯(lián)矩陣中的所有項闹丐。
    • 另一個策略:子矩陣構造
      • [3] Nystr?m method:隨機選出p個代表構造N \times p的關聯(lián)子矩陣
      • [4] landmark based spectral clustering:在數(shù)據(jù)集上執(zhí)行k-means以獲得p個聚類中心作為這P個代表點。
        • 存在問題:
          • 復雜度為O(N \times p)黔龟,但是當處理極大的數(shù)據(jù)集時妇智,為了實現(xiàn)更好的近似,p也會很大氏身。
          • 聚類結果嚴重依賴于通過子矩陣的一次近似(one-shot approximation)巍棱,聚類的魯棒性有不穩(wěn)定因素。

因此如何使譜聚類能夠在相當有限的計算資源下高效蛋欣、魯棒地聚類非常大的數(shù)據(jù)集(甚至可能是非線性可分的)仍然是一個極具挑戰(zhàn)性的問題航徙。

本文提出兩種方法:

  • U-SPEC:混合代表點選擇策略來選擇p個代表點。將基于k均值的選擇策略的時間復雜度從O(Npdt)降到O(p^2dt)陷虎。

    • 在此基礎上到踏,設計了一種K最近鄰的快速逼近方法,有效地構造了一個具有O(Np^{\frac{1}{2}}d)時間和O(Np^{\frac{1}{2}})內存的稀疏子矩陣尚猿。
    • 利用稀疏子矩陣作為交叉關聯(lián)矩陣窝稿,在數(shù)據(jù)集和代表點集之間建立二部圖。
    • 通過二部圖結構凿掂,用transfer cut[6]來求解特征值分解問題伴榔,時間復雜度為O(NK(K + k) + p^3 ),其中k為簇的個數(shù)庄萎,K為最接近的代表數(shù)踪少。
    • 最后,采用k-均值離散化方法構造了一組k個特征向量的聚類結果糠涛,花費了O(Nk^2t)時間援奢。
    • 一般認為,k, k <p <N(遠小于)忍捡,我們的U-SPEC算法的時間和空間復雜度分別為O(Np^{\frac{1}{2}}d)O(Np^{\frac{1}{2}})集漾。
    • 此外切黔,為了改進U-SPEC的一次性近似,提供更好的聚類魯棒性帆竹,U-SENC算法將多個U-SPEC聚類結果集成到一個統(tǒng)一的集成聚類框架中绕娘,其時間和空間復雜度分別為O(Nmp^{\frac{1}{2}}d)O(Np ^{\frac{1}{2}})脓规。
  • 貢獻:

    • 1)混合代表點選擇策略栽连,在隨機選擇的效率和基于k均值的選擇的有效性之間取得平衡。
    • 2)設計了一種K -最近鄰表示的快速逼近方法侨舆,該方法對于構造對象與代表點之間的稀疏關聯(lián)子矩陣秒紧,在時間和空間上都非常有效率。
    • 3)提出了一種基于有效關聯(lián)子矩陣構造和二部圖的大規(guī)模譜聚類算法U-SPEC挨下。其時間復雜度和空間復雜度分別為O(Np^{\frac{1}{2}}d)O(Np^{\frac{1}{2}})熔恢。
    • 4)通過集成多個U-SPEC聚類器,提出一種新的大規(guī)模集成聚類算法U-SENC臭笆,該算法在保持高可擴展性的同時叙淌,顯著提高了U-SPEC的魯棒性。它的時間和空間復雜度分別為O(Nmp^{\frac{1}{2}}d)O(Np ^{\frac{1}{2}})愁铺。

Related work

2.1 spectral clustering

  • 傳統(tǒng)譜聚類
    • 時間復雜度:O(N^3)鹰霍,空間復雜度:O(N^2)
  • 稀疏關聯(lián)矩陣,通過K-近鄰茵乱,然后使用sparse eign-solver求特征值分解茂洒。
    • 在這里插入圖片描述
    • 在這里插入圖片描述
    • 問題:但是仍然需要計算原始關聯(lián)矩陣中的所有項。
  • sub-matrix based approximation 避免計算整個的affinity matrix
    • Nystrom :
      • 隨機選擇p個錨點瓶竭,構造N \times p的子矩陣
      • 子矩陣構造:時間復雜度O(Npd) 空間復雜度O(Np)
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末督勺,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子斤贰,更是在濱河造成了極大的恐慌智哀,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,576評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件荧恍,死亡現(xiàn)場離奇詭異瓷叫,居然都是意外死亡,警方通過查閱死者的電腦和手機块饺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,515評論 3 399
  • 文/潘曉璐 我一進店門赞辩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人授艰,你說我怎么就攤上這事辨嗽。” “怎么了淮腾?”我有些...
    開封第一講書人閱讀 168,017評論 0 360
  • 文/不壞的土叔 我叫張陵糟需,是天一觀的道長屉佳。 經(jīng)常有香客問我,道長洲押,這世上最難降的妖魔是什么武花? 我笑而不...
    開封第一講書人閱讀 59,626評論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮杈帐,結果婚禮上体箕,老公的妹妹穿的比我還像新娘。我一直安慰自己挑童,他們只是感情好累铅,可當我...
    茶點故事閱讀 68,625評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著站叼,像睡著了一般娃兽。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上尽楔,一...
    開封第一講書人閱讀 52,255評論 1 308
  • 那天投储,我揣著相機與錄音,去河邊找鬼阔馋。 笑死玛荞,一個胖子當著我的面吹牛,可吹牛的內容都是我干的垦缅。 我是一名探鬼主播冲泥,決...
    沈念sama閱讀 40,825評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼壁涎!你這毒婦竟也來了凡恍?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,729評論 0 276
  • 序言:老撾萬榮一對情侶失蹤怔球,失蹤者是張志新(化名)和其女友劉穎嚼酝,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體竟坛,經(jīng)...
    沈念sama閱讀 46,271評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡闽巩,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 38,363評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了担汤。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涎跨。...
    茶點故事閱讀 40,498評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖崭歧,靈堂內的尸體忽然破棺而出隅很,到底是詐尸還是另有隱情,我是刑警寧澤率碾,帶...
    沈念sama閱讀 36,183評論 5 350
  • 正文 年R本政府宣布叔营,位于F島的核電站屋彪,受9級特大地震影響,放射性物質發(fā)生泄漏绒尊。R本人自食惡果不足惜畜挥,卻給世界環(huán)境...
    茶點故事閱讀 41,867評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望婴谱。 院中可真熱鬧蟹但,春花似錦、人聲如沸勘究。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,338評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽口糕。三九已至,卻和暖如春磕蛇,著一層夾襖步出監(jiān)牢的瞬間景描,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,458評論 1 272
  • 我被黑心中介騙來泰國打工秀撇, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留超棺,地道東北人。 一個月前我還...
    沈念sama閱讀 48,906評論 3 376
  • 正文 我出身青樓呵燕,卻偏偏與公主長得像棠绘,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子再扭,可洞房花燭夜當晚...
    茶點故事閱讀 45,507評論 2 359