<數(shù)據(jù)聚類(data clustering): 用以尋找緊密相關(guān)的事筷登、人或觀點渔嚷,并將其可視化的方法蚜锨。>
- 監(jiān)督學習(supervised learning): 利用樣本輸入和期望輸出來學習如何預測的技術(shù)笙瑟。包括:神經(jīng)網(wǎng)絡(luò)容为,決策樹姥闭,向量支持機褐健,貝葉斯過濾等缸血。利用帶有正確答案的樣本數(shù)據(jù)進行訓練。
- 無監(jiān)督學習(unsupervised learning): 在一組數(shù)據(jù)中找尋某種結(jié)構(gòu)泛豪,而這些數(shù)據(jù)本身不是所要找的答案稠诲。如聚類侦鹏。
聚類算法的數(shù)據(jù),通常應(yīng)以一組公共的數(shù)值型屬性臀叙,利用屬性對數(shù)據(jù)項進行比較种柑。
分級聚類 Hierarchical Clustering
分級聚類通過連續(xù)不斷地將最為相似的群組兩兩合并,構(gòu)造出一個群組的層級結(jié)構(gòu)匹耕。其中每個群組都是從單一元素開始的聚请。每次迭代中,算法都會計算每兩個群組間的距離稳其,并將距離最近(相似度)的兩個群組合并成一個新的群組(數(shù)據(jù)為兩個舊群組的數(shù)據(jù)求均值)驶赏,重復迭代直至只剩一個群組。
該過程可視化表示為樹狀圖既鞠。
列聚類 Column Clustering
將數(shù)據(jù)集轉(zhuǎn)置后煤傍,再執(zhí)行聚類操作。
當數(shù)據(jù)項的數(shù)量比變量多時嘱蛋,更大概率出現(xiàn)無意義聚類蚯姆,可轉(zhuǎn)置后聚類。
K-均值聚類 K-Means Clustering
分級聚類的算法計算量很大很大(每兩個匹配項的距離都需計算)洒敏,且返回的樹形視圖不會真正將數(shù)據(jù)拆分成不同組龄恋。故采用K-均值聚類:預先告訴算法希望生成的聚類數(shù)量,算法根據(jù)數(shù)據(jù)的結(jié)構(gòu)狀況確定聚類的大小凶伙。
算法過程:先確定k個中心位置(位于空間中代表聚類中心的點)郭毕,然后將各個數(shù)據(jù)項分配給最臨近的中心店,待分配完成后函荣,聚類中心移到分配給該聚類的所有節(jié)點的平均位置處显押,然后重新開始整個分配過程。重復此過程傻挂,直至分配過程不再產(chǎn)生變化乘碑。
針對偏好的聚類
數(shù)據(jù)集取值有多種時,采用皮爾遜相關(guān)度較優(yōu)金拒;但當數(shù)據(jù)集只有兩種取值時兽肤,對用戶在物品方面互有重疊的情況進行度量,更具有意義殖蚕。
Tanimoto系數(shù): 代表交集(只包含那些在兩個集合中都出現(xiàn)的項)與并集(包含所有出現(xiàn)于任一集合中的項)的比率轿衔。