聚類分析初識(shí)

實(shí)例

舉兩個(gè)實(shí)際列子:

  1. 如何通過對(duì)餐飲客戶消費(fèi)行為的測(cè)量缎脾,進(jìn)一步評(píng)判餐飲客戶的價(jià)值和對(duì)餐飲客戶進(jìn)行細(xì)分,找到有價(jià)值的客戶群和需要關(guān)注的客戶群
  2. 如何合理對(duì)菜品進(jìn)行分析途凫,以便區(qū)分哪些菜品暢銷毛利又高危纫,哪些菜品滯銷毛利又低。
    這呢可以通過聚類分析解決

聚類分析定義

聚類分析是在沒有給定劃分類別的情況下掰派,根據(jù)相似度進(jìn)行樣本分組的一種方法从诲。是一種非監(jiān)督的學(xué)習(xí)算法,劃分的原則是組內(nèi)距離最小化而組間(外部)距離最大化

常用的聚類方法

  1. 劃分方法:劃分方法就是根據(jù)用戶輸入值K把給定對(duì)象分成K組(滿足2個(gè)條件:1. 每個(gè)組至少包含一個(gè)對(duì)象靡羡。2. 每個(gè)對(duì)象必須且只屬于一個(gè)組)系洛,每組都是一個(gè)聚類,然后利用循環(huán)再定位技術(shù)變換聚類里面的對(duì)象略步,直到客觀劃分標(biāo)準(zhǔn)(常成為相似函數(shù)描扯,如距離)最優(yōu)為止。典型代表:K-MEANS, K-MEDOIDS趟薄。
  2. 層次的方法:層次的方法對(duì)給定的對(duì)象集合進(jìn)行層次分解绽诚。分為2類:凝聚的和分裂的。凝聚的方法也叫自底向上的方法杭煎,即一開始將每個(gè)對(duì)象作為一個(gè)單獨(dú)的簇恩够,然后根據(jù)一定標(biāo)準(zhǔn)進(jìn)行合并,直到所有對(duì)象合并為一個(gè)簇或達(dá)到終止條件為止羡铲。分裂的方法也叫自頂向下的方法蜂桶,即一開始將所有對(duì)象放到一個(gè)簇中,然后進(jìn)行分裂也切,直到所有對(duì)象都成為單獨(dú)的一個(gè)簇或達(dá)到終止條件為止屎飘。典型代表:CURE,BIRCH。
  3. 基于密度的方法:基于密度的方法即不斷增長所獲得的聚類直到鄰近(對(duì)象)密度超過一定的閥值(如一個(gè)聚類中的對(duì)象數(shù)或一個(gè)給定半徑內(nèi)必須包含至少的對(duì)象數(shù))為止贾费。典型代表:DBSCAN钦购,OPTICS。
  4. 基于網(wǎng)格的方法:基于網(wǎng)格的方法即將對(duì)象空間劃分為有限數(shù)目的單元以形成網(wǎng)格結(jié)構(gòu)褂萧。所有聚類操作都在這一網(wǎng)格結(jié)構(gòu)上進(jìn)行押桃。典型代表:STING。
  5. 基于模型的方法:基于模型的方法即為每個(gè)聚類假設(shè)一個(gè)模型导犹,然后按照模型去發(fā)現(xiàn)符合的對(duì)像唱凯。這樣的方法經(jīng)诚弁基于這樣的假設(shè):數(shù)據(jù)是根據(jù)潛在的概率分布生成的。主要有2類:統(tǒng)計(jì)學(xué)方法和神經(jīng)網(wǎng)絡(luò)方法磕昼。典型代表:COBWEB卷雕,SOMS。

常用的聚類分析算法

  1. K-Means:K-均值聚類也稱為快速聚類算法票从,在最小誤差函數(shù)的基礎(chǔ)上將數(shù)據(jù)劃分為預(yù)定的類數(shù)K,該算法原理簡單并便于處理大量數(shù)據(jù)漫雕。
  2. K-中心點(diǎn):對(duì)孤立點(diǎn)的敏感性,不采用促中對(duì)象的平均值作為簇中心峰鄙,采用離平均值最近的對(duì)象作為中心浸间。
  3. 系統(tǒng)聚類:也稱為多層次聚類,分類的單位由高到低呈樹形結(jié)構(gòu)吟榴,所處的位置越低魁蒜,其所包含的對(duì)象越少,對(duì)象間的共同特征越多吩翻,適合小數(shù)據(jù)量的時(shí)候使用兜看。數(shù)據(jù)量大速度比較慢

K-Means聚類算法

1.算法過程

  1. 從N個(gè)樣本數(shù)據(jù)中隨機(jī)選取K個(gè)對(duì)象作為初始的聚類中心
  2. 分別計(jì)算每個(gè)樣本到聚類中心的距離,將對(duì)象分配到距離最近的聚類中
  3. 所有對(duì)象分配完成后狭瞎,重新計(jì)算K個(gè)聚類的中心
  4. 與前一次計(jì)算得到的K個(gè)聚類中心比較铣减,如果聚類中心發(fā)生變化,轉(zhuǎn)過程2脚作,否則5.
  5. 當(dāng)質(zhì)心不發(fā)生變化時(shí)停止并輸出聚類結(jié)果
    小問題:聚類的結(jié)果可能依賴于初始聚類中心的隨機(jī)選擇葫哗,可能使結(jié)果嚴(yán)重偏離全局最優(yōu)分類。
    優(yōu)化:實(shí)踐中球涛,為了得到較好結(jié)果劣针,通常選擇不同的初始聚類中心,多次運(yùn)行K-Means算法亿扁。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末捺典,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子从祝,更是在濱河造成了極大的恐慌襟己,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評(píng)論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件牍陌,死亡現(xiàn)場(chǎng)離奇詭異擎浴,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)毒涧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門贮预,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事仿吞』担” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評(píng)論 0 347
  • 文/不壞的土叔 我叫張陵唤冈,是天一觀的道長峡迷。 經(jīng)常有香客問我,道長你虹,這世上最難降的妖魔是什么绘搞? 我笑而不...
    開封第一講書人閱讀 56,415評(píng)論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮售葡,結(jié)果婚禮上看杭,老公的妹妹穿的比我還像新娘忠藤。我一直安慰自己挟伙,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評(píng)論 6 385
  • 文/花漫 我一把揭開白布模孩。 她就那樣靜靜地躺著尖阔,像睡著了一般。 火紅的嫁衣襯著肌膚如雪榨咐。 梳的紋絲不亂的頭發(fā)上介却,一...
    開封第一講書人閱讀 49,784評(píng)論 1 290
  • 那天,我揣著相機(jī)與錄音块茁,去河邊找鬼齿坷。 笑死,一個(gè)胖子當(dāng)著我的面吹牛数焊,可吹牛的內(nèi)容都是我干的永淌。 我是一名探鬼主播,決...
    沈念sama閱讀 38,927評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼佩耳,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼遂蛀!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起干厚,我...
    開封第一講書人閱讀 37,691評(píng)論 0 266
  • 序言:老撾萬榮一對(duì)情侶失蹤李滴,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后蛮瞄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體所坯,經(jīng)...
    沈念sama閱讀 44,137評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評(píng)論 2 326
  • 正文 我和宋清朗相戀三年挂捅,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了包竹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖周瞎,靈堂內(nèi)的尸體忽然破棺而出苗缩,到底是詐尸還是另有隱情,我是刑警寧澤声诸,帶...
    沈念sama閱讀 34,289評(píng)論 4 329
  • 正文 年R本政府宣布酱讶,位于F島的核電站,受9級(jí)特大地震影響彼乌,放射性物質(zhì)發(fā)生泄漏泻肯。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評(píng)論 3 312
  • 文/蒙蒙 一慰照、第九天 我趴在偏房一處隱蔽的房頂上張望灶挟。 院中可真熱鬧,春花似錦毒租、人聲如沸稚铣。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽惕医。三九已至,卻和暖如春算色,著一層夾襖步出監(jiān)牢的瞬間抬伺,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評(píng)論 1 265
  • 我被黑心中介騙來泰國打工灾梦, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留峡钓,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 46,316評(píng)論 2 360
  • 正文 我出身青樓若河,卻偏偏與公主長得像能岩,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子牡肉,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容

  • 1 聚類分析基本概念 聚類分析將數(shù)據(jù)劃分成有意義或有用的簇捧灰。如果目標(biāo)是劃分成有意義的組,則簇應(yīng)當(dāng)捕獲數(shù)據(jù)的自然結(jié)構(gòu)...
    JasonDing閱讀 2,596評(píng)論 0 13
  • 寫在之前 因簡書導(dǎo)入公式很麻煩统锤,如果想獲得更好的觀看體驗(yàn)請(qǐng)移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 6,818評(píng)論 2 13
  • 參考自初識(shí)聚類算法:K均值毛俏、凝聚層次聚類和DBSCAN,模糊聚類FCM算法饲窿。 聚類的目的 將數(shù)據(jù)劃分為若干個(gè)簇煌寇,簇...
    胡哈哈哈閱讀 4,142評(píng)論 0 16
  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無監(jiān)督學(xué)習(xí)”算法中研究最多、應(yīng)用最廣的算法逾雄,它試圖將數(shù)...
    閃電隨筆閱讀 5,020評(píng)論 1 24
  • 聚類是一種無監(jiān)督的學(xué)習(xí)阀溶,它將相似的對(duì)象歸為同一個(gè)簇中腻脏。之所以成為k均值是因?yàn)樗梢园l(fā)現(xiàn)k個(gè)不同的簇,且每個(gè)簇的中心...
    1597830b3381閱讀 1,270評(píng)論 1 2