【Machine Learning】從零開始,了解無監(jiān)督學習的方法


目錄###

1. 什么是無監(jiān)督學習
2. 發(fā)現(xiàn)和無監(jiān)督學習
3. 聚類分析


1. 什么是無監(jiān)督學習

無監(jiān)督學習沒有教師采呐,需要學習器自身形成(form)和評價(evaluate)概念蕉堰。

科學是人類中無監(jiān)督學習最好的例子凌净,因為科學家沒有教師的指點,他們提出假設來解釋現(xiàn)象嘁灯,并設計實驗來驗證假設泻蚊。

hypothesis -> generality -> conclusion


2. 發(fā)現(xiàn)和無監(jiān)督學習(Discovery and unsupervised learning)

2.1 Automated Mathematician(AM)

  • AM是最早的和最成功的發(fā)現(xiàn)程序之一
  • AM獲取了許多有趣的數(shù)學概念,比如:集合論的概念丑婿。通過搜索這個數(shù)學概念空間性雄,AM發(fā)現(xiàn)自然數(shù)和幾個重要的數(shù)論的概念没卸,比如質數(shù)的存在性。
  • AM并不具備學習能力

2.2 BACON

  • BACON發(fā)展了量化科學定律的形式的計算模型
  • 用與行星和太陽間的距離以及行星的旋轉周期相關的數(shù)據(jù)秒旋,BACON“重發(fā)現(xiàn)”行星運動的開普勒定律约计。

2.3 SCAVENGER

  • 用ID3算法的一個變種來改進它形成類比的能力。

3. 聚類分析(Clustering analysis)

3.1 什么是聚類分析

Cluster analysis or clustering is the task of grouping a set of objects in such a way that objects in the same group (called a cluster) are more similar (in some sense or another) to each other than to those in other groups (clusters).
-from wikipedia

  • 聚類是一種無監(jiān)督學習
  • 聚類唯一需要的信息就是樣品之間的相似性(similarity between examples)迁筛。
  • 一個好的聚類要滿足:
    • High intra-cluster similarity
    • Low inner-cluster similarity
      聚類

      注:computationally difficult problem (NP-hard)

3.2 相似性(similarity)的定義

相似性通常很難去定義
  • 相似性衡量標準的選擇煤蚌,對于聚類(clustering)十分重要。
  • 相似性相對應的就是差異性(dissimilarity或者說distance)细卧。
  • Proximity通常指的相似性(similarity)或者差異性(dissimilarity)
  • 現(xiàn)有的一些對于distance的衡量方法:
    • 歐幾里得距離(Euclidean distance)
    • 明氏距離(Minkowski distance)
      Minkowski distance is a generalization of Euclidean distance
    • 曼哈頓距離(Manhattan distance/City Block distance)
    • Kernelized (non-linear) distance

3.3 聚類在生活中的應用

類別對于人類如何分析和描述世界起了至關重要的作用尉桩,人類其實非常擅長做分類,一個小孩子就可以將熟悉的事物分為建筑贪庙、機動車蜘犁、動物、植物.......

  • 生物學(Biology)
    生物學家花費多年時間為所有的生物創(chuàng)建了一套生物學分類法(等級結構分類):界(kingdom), 門(phylum), 綱(class), 目(order), 科(family), 屬(genus), 和種(species)止邮。

  • 信息檢索(Information Retrieval)
    萬維網包含了數(shù)十億網頁这橙,搜索引擎可以將搜索結果進行分類,分成不同的clusters导披。每個cluster可能代表搜索的一個方面屈扎。比如當你搜索“電影”,搜索結果可能被分為“電影預告片”“電影導演”“電影院”......當然也可能會繼續(xù)向下層級的分類撩匕,完善用戶體驗鹰晨。

  • 氣候(Climate)
    理解地球氣候需要在大氣和海洋中尋求模式,聚類分析已經被應用于相應的模式尋找過程滑沧,例如海洋對陸地氣候的顯著影響并村。

  • 心理學和醫(yī)學(Psychology and Medicine)
    疾病會頻繁的出現(xiàn)一系列新的變種,聚類分析可以用來鑒定和識別這些新的不同的子類滓技。

  • 商業(yè)(Business)
    聚類分析被用來發(fā)現(xiàn)不同的客戶群,并且通過購買模式刻畫不同的客戶群的特征棚潦。

3.4 不同類型的Clustering

3.4.1 層次聚類 vs 劃分聚類

被討論的最多的區(qū)分不同聚類類型的依據(jù)就是看被劃分好的這些clusters是嵌套的(nested)還是非嵌套的(untested)令漂,或者更通俗點說,是hierarchical還是partitional.

  • 層次聚類(Hierarchical clustering)


    層次聚類
  • 劃分聚類(Partitional or Flat clustering)


    劃分聚類
3.4.2 互斥聚類 vs 重疊聚類 vs 模糊聚類
  • 互斥聚類(Exclusive clustering)每個對象都指派到單個簇丸边。
  • 重疊聚類(Overlapping clustering)用來反映一個對象同時屬于多個簇(類)這一事實叠必。
  • 模糊聚類(Fuzzy clustering)每個對象以一個0(絕對不屬于)和1(絕對屬于)之間的錄屬權值屬于每個簇。
3.4.3 完全聚類 vs 部分聚類
  • 完全聚類(Complete clustering)將每一個對象都分配到某一個簇(cluster)
  • 部分分類(Partial clustering)有些對象沒有被聚類妹窖,比如一些噪聲(noise)或者離群值(outliers)

3.5不同類型的Cluster

在很多實際應用中纬朝,cluster的概念并沒有一個很好的定義。為了更好的理解決定一個cluster由什么構成的困難性骄呼,我們在下圖展示了同樣的20個點共苛,用三種不同的方法去把它們劃分到不同的clusters判没。

The notion of cluster is important

上圖闡明了其實一個cluster的定義不是精確的,固定不變的隅茎。對于cluster最好的定義依賴于數(shù)據(jù)的性質預期結果澄峰。

聚類(Clustering)的目標是要找到一組有意義的對象(object)或者說cluster。 這里所說的有意義或者說有用辟犀,是針對數(shù)據(jù)分析的目標而言的俏竞。毫無懸念,在實際當中已經有一些不同的對于cluster的概念堂竟,被證明是有意義的魂毁,具體如下:

3.5.1 明顯分離的(Well-Separated)

不同組中的任意兩點之間的距離都大于組內任意兩點之間的距離。明顯分離的簇不必是球形的出嘹,可以具有任意形狀席楚。


Well-Seperated cluster
3.5.2 基于原型的(Prototype-Based /center-based clusters)

簇是對象的集合,其中每個對象到定義該簇的原型的距離比到其他簇的原型的距離更近(或更加相似)疚漆。對于具有連續(xù)屬性的數(shù)據(jù)酣胀,簇的原型通常是質心,即簇中所有點的平均值娶聘。這種簇傾向于呈球狀闻镶。基于原型的聚類技術創(chuàng)建數(shù)據(jù)對象的單層劃分丸升。


Prototype-Based cluster
3.5.3 基于圖的(Graph-Based)

如果數(shù)據(jù)用圖表示铆农,其中節(jié)點是對象,而邊代表對象之間的聯(lián)系狡耻,則簇可以定義為連通分支墩剖,即互相連通但不與組外對象連通的對象組。當簇不規(guī)則或纏繞時夷狰,簇的這種定義是有用的岭皂。但是,當數(shù)據(jù)具有噪聲時就可能出現(xiàn)問題沼头。也存在其他類型的基于圖的簇爷绘。一種方法是定義簇為團,即圖中相互之間完全連接的節(jié)點的集合进倍。


Graph-Based cluster
3.5.4 基于密度的(Density-Based)

簇是對象的稠密區(qū)域土至,被低密度的區(qū)域環(huán)繞。當簇不規(guī)則或互相盤繞猾昆,并且有噪聲和離群點時陶因,常常使用基于密度的簇定義。


Desity-Based cluster
3.5.5 共同性質的/概念簇(Shared-Property /Conceptual Clusters)

把簇定義為有某種共同性質的對象的集合垂蜗。發(fā)現(xiàn)這樣的簇的過程稱作概念聚類楷扬。


Conceptual Cluster

3.6 K-means 簡介

  • K-means 屬于 基于中心的(Center-Based)劃分(partitional)聚類法方

  • Each cluster is associated with a centroid(center point)

  • Each point is assigned to the cluster with the closest centroid

  • K的值必須事先給定 (K centroids)

  • K-means 算法的基本步驟:

  • 從 n個數(shù)據(jù)對象任意選擇 k 個對象作為初始聚類中心

  • 迭代

    • 通過把每個點分配給最近的聚類中心解幽,從而形成K個類
    • 重新計算每個類的聚類中心
  • 終止 如果計算后,聚類中心不發(fā)生改變

    K-means算法毅否,過程演示(K=2)

  • K-means 算法優(yōu)點

  • 算法框架清晰亚铁,簡單,容易理解螟加。

  • 本算法確定的k個劃分到達平方誤差最小徘溢。當聚類是密集的,且類與類之間區(qū)別明顯時捆探,效果較好然爆。

  • 對于處理大數(shù)據(jù)集,這個算法是相對可伸縮和高效的黍图,計算的復雜度為O(NKt)曾雕,其中N是數(shù)據(jù)對象的數(shù)目,t是迭代的次數(shù)助被。一般來說剖张,K<<N,t<<N 揩环。

  • K-means 算法缺點

  • K-means算法中k是事先給定的搔弄,這個k值的選定是非常難以估計的。

  • 算法的時間開銷是非常大的丰滑。

  • K-means算法對異常數(shù)據(jù)很敏感顾犹。在計算質心的過程中,如果某個數(shù)據(jù)很異常褒墨,在計算均值的時候炫刷,會對結果影響非常大。


結語和參考文獻

  1. Cluster Analysis: Basic Concepts and Algorithms
  2. Clustering - ccsu
  3. Clustering - Matteo Pardo
  4. Data Clustering: K-means and Hierarchical Clustering
  5. Cluster analysis wikipedia
  6. 聚類算法總結
  7. 文本聚類算法介紹
  8. 漫談 Clustering (1): k-means
  9. 聚類分析
  10. 聚類算法:K-means
  11. Artificial Intelligence郁妈,6th Edition
  12. 數(shù)據(jù)挖掘技術(四)——聚類
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末浑玛,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子噩咪,更是在濱河造成了極大的恐慌锄奢,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,496評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件剧腻,死亡現(xiàn)場離奇詭異,居然都是意外死亡涂屁,警方通過查閱死者的電腦和手機书在,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,407評論 3 392
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來拆又,“玉大人儒旬,你說我怎么就攤上這事栏账。” “怎么了栈源?”我有些...
    開封第一講書人閱讀 162,632評論 0 353
  • 文/不壞的土叔 我叫張陵挡爵,是天一觀的道長。 經常有香客問我甚垦,道長茶鹃,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,180評論 1 292
  • 正文 為了忘掉前任艰亮,我火速辦了婚禮闭翩,結果婚禮上,老公的妹妹穿的比我還像新娘迄埃。我一直安慰自己疗韵,他們只是感情好,可當我...
    茶點故事閱讀 67,198評論 6 388
  • 文/花漫 我一把揭開白布侄非。 她就那樣靜靜地躺著蕉汪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪逞怨。 梳的紋絲不亂的頭發(fā)上者疤,一...
    開封第一講書人閱讀 51,165評論 1 299
  • 那天,我揣著相機與錄音骇钦,去河邊找鬼宛渐。 笑死,一個胖子當著我的面吹牛眯搭,可吹牛的內容都是我干的窥翩。 我是一名探鬼主播,決...
    沈念sama閱讀 40,052評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼鳞仙,長吁一口氣:“原來是場噩夢啊……” “哼寇蚊!你這毒婦竟也來了?” 一聲冷哼從身側響起棍好,我...
    開封第一講書人閱讀 38,910評論 0 274
  • 序言:老撾萬榮一對情侶失蹤仗岸,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后借笙,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體扒怖,經...
    沈念sama閱讀 45,324評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 37,542評論 2 332
  • 正文 我和宋清朗相戀三年业稼,在試婚紗的時候發(fā)現(xiàn)自己被綠了盗痒。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,711評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡低散,死狀恐怖俯邓,靈堂內的尸體忽然破棺而出骡楼,到底是詐尸還是另有隱情,我是刑警寧澤稽鞭,帶...
    沈念sama閱讀 35,424評論 5 343
  • 正文 年R本政府宣布鸟整,位于F島的核電站,受9級特大地震影響朦蕴,放射性物質發(fā)生泄漏篮条。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,017評論 3 326
  • 文/蒙蒙 一梦重、第九天 我趴在偏房一處隱蔽的房頂上張望兑燥。 院中可真熱鬧,春花似錦琴拧、人聲如沸降瞳。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,668評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽挣饥。三九已至,卻和暖如春沛膳,著一層夾襖步出監(jiān)牢的瞬間扔枫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,823評論 1 269
  • 我被黑心中介騙來泰國打工锹安, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留短荐,地道東北人。 一個月前我還...
    沈念sama閱讀 47,722評論 2 368
  • 正文 我出身青樓叹哭,卻偏偏與公主長得像忍宋,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子风罩,可洞房花燭夜當晚...
    茶點故事閱讀 44,611評論 2 353

推薦閱讀更多精彩內容