目錄###
1. 什么是無監(jiān)督學習
2. 發(fā)現(xiàn)和無監(jiān)督學習
3. 聚類分析
1. 什么是無監(jiān)督學習
無監(jiān)督學習沒有教師采呐,需要學習器自身形成(form)和評價(evaluate)概念蕉堰。
科學是人類中無監(jiān)督學習最好的例子凌净,因為科學家沒有教師的指點,他們提出假設來解釋現(xiàn)象嘁灯,并設計實驗來驗證假設泻蚊。
hypothesis -> generality -> conclusion
2. 發(fā)現(xiàn)和無監(jiān)督學習(Discovery and unsupervised learning)
2.1 Automated Mathematician(AM)
- AM是最早的和最成功的發(fā)現(xiàn)程序之一
- AM獲取了許多有趣的數(shù)學概念,比如:集合論的概念丑婿。通過搜索這個數(shù)學概念空間性雄,AM發(fā)現(xiàn)自然數(shù)和幾個重要的數(shù)論的概念没卸,比如質數(shù)的存在性。
- AM并不具備學習能力
2.2 BACON
- BACON發(fā)展了量化科學定律的形式的計算模型
- 用與行星和太陽間的距離以及行星的旋轉周期相關的數(shù)據(jù)秒旋,BACON“重發(fā)現(xiàn)”行星運動的開普勒定律约计。
2.3 SCAVENGER
- 用ID3算法的一個變種來改進它形成類比的能力。
3. 聚類分析(Clustering analysis)
3.1 什么是聚類分析
Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).
-from wikipedia
- 聚類是一種無監(jiān)督學習
- 聚類唯一需要的信息就是樣品之間的相似性(similarity between examples)迁筛。
- 一個好的聚類要滿足:
- High intra-cluster similarity
- Low inner-cluster similarity
注:computationally difficult problem (NP-hard)
3.2 相似性(similarity)的定義
- 相似性衡量標準的選擇煤蚌,對于聚類(clustering)十分重要。
- 與相似性相對應的就是差異性(dissimilarity或者說distance)细卧。
- Proximity通常指的相似性(similarity)或者差異性(dissimilarity)
- 現(xiàn)有的一些對于distance的衡量方法:
- 歐幾里得距離(Euclidean distance)
- 明氏距離(Minkowski distance)
Minkowski distance is a generalization of Euclidean distance - 曼哈頓距離(Manhattan distance/City Block distance)
- Kernelized (non-linear) distance
3.3 聚類在生活中的應用
類別對于人類如何分析和描述世界起了至關重要的作用尉桩,人類其實非常擅長做分類,一個小孩子就可以將熟悉的事物分為建筑贪庙、機動車蜘犁、動物、植物.......
生物學(Biology)
生物學家花費多年時間為所有的生物創(chuàng)建了一套生物學分類法(等級結構分類):界(kingdom), 門(phylum), 綱(class), 目(order), 科(family), 屬(genus), 和種(species)止邮。信息檢索(Information Retrieval)
萬維網包含了數(shù)十億網頁这橙,搜索引擎可以將搜索結果進行分類,分成不同的clusters导披。每個cluster可能代表搜索的一個方面屈扎。比如當你搜索“電影”,搜索結果可能被分為“電影預告片”“電影導演”“電影院”......當然也可能會繼續(xù)向下層級的分類撩匕,完善用戶體驗鹰晨。氣候(Climate)
理解地球氣候需要在大氣和海洋中尋求模式,聚類分析已經被應用于相應的模式尋找過程滑沧,例如海洋對陸地氣候的顯著影響并村。心理學和醫(yī)學(Psychology and Medicine)
疾病會頻繁的出現(xiàn)一系列新的變種,聚類分析可以用來鑒定和識別這些新的不同的子類滓技。商業(yè)(Business)
聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征棚潦。
3.4 不同類型的Clustering
3.4.1 層次聚類 vs 劃分聚類
被討論的最多的區(qū)分不同聚類類型的依據(jù)就是看被劃分好的這些clusters是嵌套的(nested)還是非嵌套的(untested)令漂,或者更通俗點說,是hierarchical還是partitional.
-
層次聚類(Hierarchical clustering)
-
劃分聚類(Partitional or Flat clustering)
3.4.2 互斥聚類 vs 重疊聚類 vs 模糊聚類
- 互斥聚類(Exclusive clustering)每個對象都指派到單個簇丸边。
- 重疊聚類(Overlapping clustering)用來反映一個對象同時屬于多個簇(類)這一事實叠必。
- 模糊聚類(Fuzzy clustering)每個對象以一個0(絕對不屬于)和1(絕對屬于)之間的錄屬權值屬于每個簇。
3.4.3 完全聚類 vs 部分聚類
- 完全聚類(Complete clustering)將每一個對象都分配到某一個簇(cluster)
- 部分分類(Partial clustering)有些對象沒有被聚類妹窖,比如一些噪聲(noise)或者離群值(outliers)
3.5不同類型的Cluster
在很多實際應用中纬朝,cluster的概念并沒有一個很好的定義。為了更好的理解決定一個cluster由什么構成的困難性骄呼,我們在下圖展示了同樣的20個點共苛,用三種不同的方法去把它們劃分到不同的clusters判没。
上圖闡明了其實一個cluster的定義不是精確的,固定不變的隅茎。對于cluster最好的定義依賴于數(shù)據(jù)的性質和預期結果澄峰。
聚類(Clustering)的目標是要找到一組有意義的對象(object)或者說cluster。 這里所說的有意義或者說有用辟犀,是針對數(shù)據(jù)分析的目標而言的俏竞。毫無懸念,在實際當中已經有一些不同的對于cluster的概念堂竟,被證明是有意義的魂毁,具體如下:
3.5.1 明顯分離的(Well-Separated)
不同組中的任意兩點之間的距離都大于組內任意兩點之間的距離。明顯分離的簇不必是球形的出嘹,可以具有任意形狀席楚。
3.5.2 基于原型的(Prototype-Based /center-based clusters)
簇是對象的集合,其中每個對象到定義該簇的原型的距離比到其他簇的原型的距離更近(或更加相似)疚漆。對于具有連續(xù)屬性的數(shù)據(jù)酣胀,簇的原型通常是質心,即簇中所有點的平均值娶聘。這種簇傾向于呈球狀闻镶。基于原型的聚類技術創(chuàng)建數(shù)據(jù)對象的單層劃分丸升。
3.5.3 基于圖的(Graph-Based)
如果數(shù)據(jù)用圖表示铆农,其中節(jié)點是對象,而邊代表對象之間的聯(lián)系狡耻,則簇可以定義為連通分支墩剖,即互相連通但不與組外對象連通的對象組。當簇不規(guī)則或纏繞時夷狰,簇的這種定義是有用的岭皂。但是,當數(shù)據(jù)具有噪聲時就可能出現(xiàn)問題沼头。也存在其他類型的基于圖的簇爷绘。一種方法是定義簇為團,即圖中相互之間完全連接的節(jié)點的集合进倍。
3.5.4 基于密度的(Density-Based)
簇是對象的稠密區(qū)域土至,被低密度的區(qū)域環(huán)繞。當簇不規(guī)則或互相盤繞猾昆,并且有噪聲和離群點時陶因,常常使用基于密度的簇定義。
3.5.5 共同性質的/概念簇(Shared-Property /Conceptual Clusters)
把簇定義為有某種共同性質的對象的集合垂蜗。發(fā)現(xiàn)這樣的簇的過程稱作概念聚類楷扬。
3.6 K-means 簡介
K-means 屬于 基于中心的(Center-Based)劃分(partitional)聚類法方
Each cluster is associated with a centroid(center point)
Each point is assigned to the cluster with the closest centroid
K的值必須事先給定 (K centroids)
K-means 算法的基本步驟:
從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心
-
迭代
- 通過把每個點分配給最近的聚類中心解幽,從而形成K個類
- 重新計算每個類的聚類中心
-
終止 如果計算后,聚類中心不發(fā)生改變
K-means 算法優(yōu)點
算法框架清晰亚铁,簡單,容易理解螟加。
本算法確定的k個劃分到達平方誤差最小徘溢。當聚類是密集的,且類與類之間區(qū)別明顯時捆探,效果較好然爆。
對于處理大數(shù)據(jù)集,這個算法是相對可伸縮和高效的黍图,計算的復雜度為O(NKt)曾雕,其中N是數(shù)據(jù)對象的數(shù)目,t是迭代的次數(shù)助被。一般來說剖张,K<<N,t<<N 揩环。
K-means 算法缺點
K-means算法中k是事先給定的搔弄,這個k值的選定是非常難以估計的。
算法的時間開銷是非常大的丰滑。
K-means算法對異常數(shù)據(jù)很敏感顾犹。在計算質心的過程中,如果某個數(shù)據(jù)很異常褒墨,在計算均值的時候炫刷,會對結果影響非常大。