無監(jiān)督學(xué)習(xí)的目標
利用無標簽的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的分布或數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系被稱作無監(jiān)督學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的最大區(qū)別就在于數(shù)據(jù)是否有標簽
無監(jiān)督學(xué)習(xí)最常應(yīng)用的場景是聚類(clustering)和降維(Dimension reduction)
聚類是根據(jù)數(shù)據(jù)相似性間數(shù)據(jù)分為多類的過程督勺。
評估兩個不同樣本之間的“相似性”贴铜,通常使用的方法就是計算兩個樣本之間的“距離”羊壹,
使用不同的方法計算樣本見得距離會關(guān)系到聚類結(jié)果的好壞侈净。
常用方法
歐氏距離:最常用的距離度量方法有序,源于歐式空間中兩點的距離
曼哈頓距離:城市街區(qū)距離跛十,類似于在城市之中駕車行駛唐含,從一個十字路口到另一個十字路口的距離浅浮。其計算方法如下:
馬氏距離表示數(shù)據(jù)協(xié)方差距離,是一種尺度無關(guān)的度量放肆捷枯,也就是說滚秩,馬氏距離會先將樣本點的各個屬性標準化,再計算樣本之間的距離淮捆。其計算方式如下:
夾角余弦
余弦相似度用向量空間中兩個兩個向量夾腳的余弦值作為衡量兩個樣本差異的大小郁油。
余弦值越接近為1,說明兩個響亮夾角越接近零度攀痊,表明兩個向量越相似桐腌。
其計算方法如下:
sklearn vs 聚類
scikit聚類和分類都是無監(jiān)督學(xué)習(xí)
scikit_learn庫(簡稱sklearn庫)提供常用的聚類算法函數(shù)包含在sklearn.cluster這模塊中,如:K_Means苟径,近鄰傳播算法案站,DBSCAN,等棘街。
以同樣的數(shù)據(jù)集應(yīng)用于不同的算法可能會得到不同的結(jié)果蟆盐,算法所消耗的時間也不盡相同,這是由算法特性決定的遭殉。
sklearn.cluster模塊提供的各聚類算法函數(shù)可以使用不同的數(shù)據(jù)形式作為輸入:
標準數(shù)據(jù)輸入格式:[樣本數(shù)目石挂,特征數(shù)目]定義的矩陣形式,矩陣中的每一個元素為兩個樣本的相似度险污,如DBSCAN , AffinityPropagation(近鄰傳播算法)接受這種輸入誊稚。如果以余弦相似度為例,對角線元素全為1,矩陣中每個元素的取值范圍為【0,1】
sklearn.cluster
算法名稱 參數(shù) 可擴展性 相似度度量
K-means 聚類個數(shù) 大數(shù)據(jù)規(guī)模 點間距離
DBSCAN 鄰域大小 大規(guī)模數(shù)據(jù) 點間距離
Gaussian聚類個數(shù)及其他超參 復(fù)雜度高里伯,不適合處理大規(guī)模數(shù)據(jù) 馬氏距離
MIixtures
Birth 分支因子,閾值等其他超參 大規(guī)模數(shù)據(jù) 兩點之間的歐式距離
降維渤闷,降維就是在保證數(shù)據(jù)具有的帶百姓特性或者分布的情況下疾瓮,將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)的過程:
數(shù)據(jù)可視化
精簡數(shù)據(jù)
聚類和降維都是無監(jiān)督學(xué)習(xí)的典型任務(wù),任務(wù)之間存在著關(guān)聯(lián)飒箭,比如某些高位數(shù)據(jù)的聚類可以通過降維處理更好的獲得狼电,另外學(xué)界研究也表明代表性的聚類算法如K-means與降維算法之間存在等價性。
降維是機器學(xué)習(xí)靈位的一個重要研究內(nèi)容弦蹂,有很多北工業(yè)界和學(xué)術(shù)界接受的典型算法肩碟,截止到目前sklearn庫提供7種降維算法。
將為過程中也可以被理解為對數(shù)據(jù)集的組成成分進行分解的過程凸椿,因此sklearn庫為降維南髌恚快命名為decomposition ,在對降維算法調(diào)用需要使用sklearn.decompositon哪月快髓抑。
算法名稱 參數(shù)可擴展性 適用任務(wù)
PCA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 信號處理
FastICA 所降維度及其他超參 超大規(guī)模數(shù)據(jù) 圖形圖像特征提取
NMF 所降維度及其他超參 大規(guī)模數(shù)據(jù) 圖形圖像特征提取
LDA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 文本數(shù)據(jù),主題挖掘
哪些是降維任務(wù)哪些是聚類任務(wù)优幸?
31省市居民家庭消費情況調(diào)查表
學(xué)生月上網(wǎng)時間分布調(diào)查表
人臉圖像特征抽取