無監(jiān)督學(xué)習(xí)

無監(jiān)督學(xué)習(xí)的目標
利用無標簽的數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的分布或數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系被稱作無監(jiān)督學(xué)習(xí)。
有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)的最大區(qū)別就在于數(shù)據(jù)是否有標簽
無監(jiān)督學(xué)習(xí)最常應(yīng)用的場景是聚類(clustering)和降維(Dimension reduction)
聚類是根據(jù)數(shù)據(jù)相似性間數(shù)據(jù)分為多類的過程督勺。
評估兩個不同樣本之間的“相似性”贴铜,通常使用的方法就是計算兩個樣本之間的“距離”羊壹,
使用不同的方法計算樣本見得距離會關(guān)系到聚類結(jié)果的好壞侈净。
常用方法
歐氏距離:最常用的距離度量方法有序,源于歐式空間中兩點的距離

image.png

曼哈頓距離:城市街區(qū)距離跛十,類似于在城市之中駕車行駛唐含,從一個十字路口到另一個十字路口的距離浅浮。其計算方法如下:


image.png

馬氏距離表示數(shù)據(jù)協(xié)方差距離,是一種尺度無關(guān)的度量放肆捷枯,也就是說滚秩,馬氏距離會先將樣本點的各個屬性標準化,再計算樣本之間的距離淮捆。其計算方式如下:

image.png

夾角余弦
余弦相似度用向量空間中兩個兩個向量夾腳的余弦值作為衡量兩個樣本差異的大小郁油。
余弦值越接近為1,說明兩個響亮夾角越接近零度攀痊,表明兩個向量越相似桐腌。
其計算方法如下:

image.png

sklearn vs 聚類
scikit聚類和分類都是無監(jiān)督學(xué)習(xí)
scikit_learn庫(簡稱sklearn庫)提供常用的聚類算法函數(shù)包含在sklearn.cluster這模塊中,如:K_Means苟径,近鄰傳播算法案站,DBSCAN,等棘街。
以同樣的數(shù)據(jù)集應(yīng)用于不同的算法可能會得到不同的結(jié)果蟆盐,算法所消耗的時間也不盡相同,這是由算法特性決定的遭殉。

sklearn.cluster模塊提供的各聚類算法函數(shù)可以使用不同的數(shù)據(jù)形式作為輸入:
標準數(shù)據(jù)輸入格式:[樣本數(shù)目石挂,特征數(shù)目]定義的矩陣形式,矩陣中的每一個元素為兩個樣本的相似度险污,如DBSCAN , AffinityPropagation(近鄰傳播算法)接受這種輸入誊稚。如果以余弦相似度為例,對角線元素全為1,矩陣中每個元素的取值范圍為【0,1】

image.png

sklearn.cluster
算法名稱 參數(shù) 可擴展性 相似度度量
K-means 聚類個數(shù) 大數(shù)據(jù)規(guī)模 點間距離
DBSCAN 鄰域大小 大規(guī)模數(shù)據(jù) 點間距離
Gaussian聚類個數(shù)及其他超參 復(fù)雜度高里伯,不適合處理大規(guī)模數(shù)據(jù) 馬氏距離
MIixtures
Birth 分支因子,閾值等其他超參 大規(guī)模數(shù)據(jù) 兩點之間的歐式距離
降維渤闷,降維就是在保證數(shù)據(jù)具有的帶百姓特性或者分布的情況下疾瓮,將高維數(shù)據(jù)轉(zhuǎn)化為低維數(shù)據(jù)的過程:
數(shù)據(jù)可視化
精簡數(shù)據(jù)

聚類和降維都是無監(jiān)督學(xué)習(xí)的典型任務(wù),任務(wù)之間存在著關(guān)聯(lián)飒箭,比如某些高位數(shù)據(jù)的聚類可以通過降維處理更好的獲得狼电,另外學(xué)界研究也表明代表性的聚類算法如K-means與降維算法之間存在等價性。
降維是機器學(xué)習(xí)靈位的一個重要研究內(nèi)容弦蹂,有很多北工業(yè)界和學(xué)術(shù)界接受的典型算法肩碟,截止到目前sklearn庫提供7種降維算法。
將為過程中也可以被理解為對數(shù)據(jù)集的組成成分進行分解的過程凸椿,因此sklearn庫為降維南髌恚快命名為decomposition ,在對降維算法調(diào)用需要使用sklearn.decompositon哪月快髓抑。

image.png

算法名稱 參數(shù)可擴展性 適用任務(wù)
PCA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 信號處理
FastICA 所降維度及其他超參 超大規(guī)模數(shù)據(jù) 圖形圖像特征提取
NMF 所降維度及其他超參 大規(guī)模數(shù)據(jù) 圖形圖像特征提取
LDA 所降維度及其他超參 大規(guī)模數(shù)據(jù) 文本數(shù)據(jù),主題挖掘

哪些是降維任務(wù)哪些是聚類任務(wù)优幸?

31省市居民家庭消費情況調(diào)查表
學(xué)生月上網(wǎng)時間分布調(diào)查表
人臉圖像特征抽取

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末吨拍,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子网杆,更是在濱河造成了極大的恐慌羹饰,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,888評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件碳却,死亡現(xiàn)場離奇詭異队秩,居然都是意外死亡,警方通過查閱死者的電腦和手機追城,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,677評論 3 399
  • 文/潘曉璐 我一進店門刹碾,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人座柱,你說我怎么就攤上這事迷帜。” “怎么了色洞?”我有些...
    開封第一講書人閱讀 168,386評論 0 360
  • 文/不壞的土叔 我叫張陵戏锹,是天一觀的道長。 經(jīng)常有香客問我火诸,道長锦针,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,726評論 1 297
  • 正文 為了忘掉前任,我火速辦了婚禮奈搜,結(jié)果婚禮上悉盆,老公的妹妹穿的比我還像新娘。我一直安慰自己馋吗,他們只是感情好焕盟,可當我...
    茶點故事閱讀 68,729評論 6 397
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著宏粤,像睡著了一般脚翘。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上绍哎,一...
    開封第一講書人閱讀 52,337評論 1 310
  • 那天来农,我揣著相機與錄音,去河邊找鬼崇堰。 笑死沃于,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的赶袄。 我是一名探鬼主播揽涮,決...
    沈念sama閱讀 40,902評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼饿肺!你這毒婦竟也來了蒋困?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,807評論 0 276
  • 序言:老撾萬榮一對情侶失蹤敬辣,失蹤者是張志新(化名)和其女友劉穎雪标,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體溉跃,經(jīng)...
    沈念sama閱讀 46,349評論 1 318
  • 正文 獨居荒郊野嶺守林人離奇死亡村刨,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,439評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了撰茎。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片嵌牺。...
    茶點故事閱讀 40,567評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖龄糊,靈堂內(nèi)的尸體忽然破棺而出逆粹,到底是詐尸還是另有隱情,我是刑警寧澤炫惩,帶...
    沈念sama閱讀 36,242評論 5 350
  • 正文 年R本政府宣布僻弹,位于F島的核電站,受9級特大地震影響他嚷,放射性物質(zhì)發(fā)生泄漏蹋绽。R本人自食惡果不足惜芭毙,卻給世界環(huán)境...
    茶點故事閱讀 41,933評論 3 334
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望卸耘。 院中可真熱鬧退敦,春花似錦、人聲如沸鹊奖。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,420評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽忠聚。三九已至,卻和暖如春唱捣,著一層夾襖步出監(jiān)牢的瞬間两蟀,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,531評論 1 272
  • 我被黑心中介騙來泰國打工震缭, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留赂毯,地道東北人。 一個月前我還...
    沈念sama閱讀 48,995評論 3 377
  • 正文 我出身青樓拣宰,卻偏偏與公主長得像党涕,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子巡社,可洞房花燭夜當晚...
    茶點故事閱讀 45,585評論 2 359

推薦閱讀更多精彩內(nèi)容