群組:數(shù)據(jù)聚類

<數(shù)據(jù)聚類(data clustering): 用以尋找緊密相關(guān)的事筷登、人或觀點渔嚷,并將其可視化的方法蚜锨。>

  • 監(jiān)督學習(supervised learning): 利用樣本輸入和期望輸出來學習如何預測的技術(shù)笙瑟。包括:神經(jīng)網(wǎng)絡(luò)容为,決策樹姥闭,向量支持機褐健,貝葉斯過濾等缸血。利用帶有正確答案的樣本數(shù)據(jù)進行訓練。
  • 無監(jiān)督學習(unsupervised learning): 在一組數(shù)據(jù)中找尋某種結(jié)構(gòu)泛豪,而這些數(shù)據(jù)本身不是所要找的答案稠诲。如聚類侦鹏。

聚類算法的數(shù)據(jù),通常應(yīng)以一組公共的數(shù)值型屬性臀叙,利用屬性對數(shù)據(jù)項進行比較种柑。

分級聚類 Hierarchical Clustering

分級聚類通過連續(xù)不斷地將最為相似的群組兩兩合并,構(gòu)造出一個群組的層級結(jié)構(gòu)匹耕。其中每個群組都是從單一元素開始的聚请。每次迭代中,算法都會計算每兩個群組間的距離稳其,并將距離最近(相似度)的兩個群組合并成一個新的群組(數(shù)據(jù)為兩個舊群組的數(shù)據(jù)求均值)驶赏,重復迭代直至只剩一個群組。
該過程可視化表示為樹狀圖既鞠。

列聚類 Column Clustering

將數(shù)據(jù)集轉(zhuǎn)置后煤傍,再執(zhí)行聚類操作。
當數(shù)據(jù)項的數(shù)量比變量多時嘱蛋,更大概率出現(xiàn)無意義聚類蚯姆,可轉(zhuǎn)置后聚類。

K-均值聚類 K-Means Clustering

分級聚類的算法計算量很大很大(每兩個匹配項的距離都需計算)洒敏,且返回的樹形視圖不會真正將數(shù)據(jù)拆分成不同組龄恋。故采用K-均值聚類:預先告訴算法希望生成的聚類數(shù)量,算法根據(jù)數(shù)據(jù)的結(jié)構(gòu)狀況確定聚類的大小凶伙。
算法過程:先確定k個中心位置(位于空間中代表聚類中心的點)郭毕,然后將各個數(shù)據(jù)項分配給最臨近的中心店,待分配完成后函荣,聚類中心移到分配給該聚類的所有節(jié)點的平均位置處显押,然后重新開始整個分配過程。重復此過程傻挂,直至分配過程不再產(chǎn)生變化乘碑。

針對偏好的聚類

數(shù)據(jù)集取值有多種時,采用皮爾遜相關(guān)度較優(yōu)金拒;但當數(shù)據(jù)集只有兩種取值時兽肤,對用戶在物品方面互有重疊的情況進行度量,更具有意義殖蚕。

Tanimoto系數(shù): 代表交集(只包含那些在兩個集合中都出現(xiàn)的項)與并集(包含所有出現(xiàn)于任一集合中的項)的比率轿衔。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市睦疫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌鞭呕,老刑警劉巖蛤育,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異,居然都是意外死亡瓦糕,警方通過查閱死者的電腦和手機底洗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來咕娄,“玉大人亥揖,你說我怎么就攤上這事∈ダ眨” “怎么了费变?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長圣贸。 經(jīng)常有香客問我挚歧,道長,這世上最難降的妖魔是什么吁峻? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任滑负,我火速辦了婚禮,結(jié)果婚禮上用含,老公的妹妹穿的比我還像新娘矮慕。我一直安慰自己,他們只是感情好啄骇,可當我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布凡傅。 她就那樣靜靜地躺著,像睡著了一般肠缔。 火紅的嫁衣襯著肌膚如雪夏跷。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天明未,我揣著相機與錄音槽华,去河邊找鬼。 笑死趟妥,一個胖子當著我的面吹牛猫态,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播披摄,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼亲雪,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了疚膊?” 一聲冷哼從身側(cè)響起义辕,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎寓盗,沒想到半個月后灌砖,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體璧函,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年基显,在試婚紗的時候發(fā)現(xiàn)自己被綠了蘸吓。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡撩幽,死狀恐怖库继,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窜醉,我是刑警寧澤宪萄,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站酱虎,受9級特大地震影響雨膨,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜读串,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一聊记、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧恢暖,春花似錦排监、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至嫁佳,卻和暖如春挨队,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蒿往。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工盛垦, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瓤漏。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓腾夯,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蔬充。 傳聞我的和親對象是個殘疾皇子蝶俱,可洞房花燭夜當晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容

  • 1. 章節(jié)主要內(nèi)容 “聚類”(clustering)算法是“無監(jiān)督學習”算法中研究最多、應(yīng)用最廣的算法饥漫,它試圖將數(shù)...
    閃電隨筆閱讀 5,052評論 1 24
  • 寫在之前 因簡書導入公式很麻煩榨呆,如果想獲得更好的觀看體驗請移步https://www.zybuluo.com/ha...
    hainingwyx閱讀 6,846評論 2 13
  • debug了發(fā)現(xiàn)重走了onCreateView 我這邊是pad的程序運行在了手機上pad程序是默認橫屏的當鎖屏的時...
    Amy_LuLu__閱讀 243評論 0 0
  • 文/初雪夏霜 快到二月份了,南方的天氣還是很冷趾浅。夜里愕提,隨手抓件大衣穿上馒稍,從抽屜里拿出鑰匙皿哨,往口袋放上十塊錢浅侨,走到客...
    初雪夏霜閱讀 463評論 0 2
  • 現(xiàn)在人們的手機里有各種各樣的群,都是自愿組成的各種功能性團體证膨,有跑步的如输,看病的,養(yǎng)魚的央勒,購物的不见,公益的。還有很多我...
    今日黃花蝶舞閱讀 597評論 0 4