- 本文首發(fā)自公眾號:RAIS僻爽,點(diǎn)擊直接關(guān)注头遭。
前言
本系列文章為 《Deep Learning》 讀書筆記太颤,可以參看原書一起閱讀苞俘,效果更佳。
無監(jiān)督學(xué)習(xí)算法
就是無監(jiān)督的一種學(xué)習(xí)方法龄章,太抽象苗胀,有一種定義(這種定義其實不夠準(zhǔn)確,無監(jiān)督和監(jiān)督之間界限模糊)是說如果訓(xùn)練集有標(biāo)簽的就是有監(jiān)督學(xué)習(xí)瓦堵,無標(biāo)簽的就是無監(jiān)督存和,沒有標(biāo)簽贿衍,意味著不知道結(jié)果。有監(jiān)督學(xué)習(xí)算法可以知道一堆圖片它們是狗的照片澜术,無監(jiān)督學(xué)習(xí)算法只能知道它們是一類陷揪,但這一類叫什么就不知道了惋鸥。
無監(jiān)督學(xué)習(xí)算法沒有標(biāo)簽杂穷,因此訓(xùn)練的也往往是沒有明確目標(biāo)的,對于結(jié)果也可能不好說是好是壞卦绣,在本質(zhì)上來說耐量,無監(jiān)督學(xué)習(xí)算法是一種概率統(tǒng)計的方法,在數(shù)據(jù)中可以發(fā)現(xiàn)一些潛在的結(jié)構(gòu)滤港。這么說還是不夠清楚廊蜒,舉幾個例子說明無監(jiān)督學(xué)習(xí)方法有什么作用:
用戶分類:馬云說每天晚上有五十萬的人會瀏覽淘寶,什么也不買溅漾,他也不知道為什么山叮,那既然有如此大的流量,不能浪費(fèi)添履,進(jìn)行精準(zhǔn)推薦屁倔,會不會效果很好呢?在龐大的用戶群中暮胧,找到和你很相似的用戶锐借,也說不出來哪里相識,反正就是相似往衷,他買過的東西你還沒買過钞翔,推薦給你,你會不會就沖動了呢炼绘?
發(fā)現(xiàn)異常:對于網(wǎng)站來說嗅战,防止 DDOS 攻擊就需要在巨大的請求中找到那些非法請求(廣義上的非法,并非單純指參數(shù)非法)俺亮,進(jìn)行丟棄不進(jìn)行服務(wù)驮捍,這可能就需要無監(jiān)督學(xué)習(xí)算法,找到那些和正常用戶不一樣的請求脚曾,也說不出來哪里不一樣东且,反正就是不一樣,直接拋棄請求本讥,不進(jìn)行服務(wù)珊泳,那攻擊帶來的影響就會降低一些。
表示
表示是深度學(xué)習(xí)的核心主題之一拷沸,一個經(jīng)典的無監(jiān)督學(xué)習(xí)任務(wù)是找到數(shù)據(jù)的最佳表示色查,去除那些無關(guān)緊要不影響大局或影響因子極小的因素,找到數(shù)據(jù)最核心最關(guān)鍵的簡單表示撞芍,這里的簡單表示包括低緯表示秧了、稀疏表示和獨(dú)立表示。
- 低緯表示:將 x 中的信息盡可能壓縮在一個較小的表示中序无,通常會產(chǎn)生比原始的高維數(shù)據(jù)具有較小或較弱依賴關(guān)系的元素验毡;
- 稀疏表示:將數(shù)據(jù)集嵌入到輸入項大多數(shù)為零的表示中衡创,通常會用于需要增加維數(shù)的情況,使得大部分為零的表示不會丟失很多信息晶通;
- 獨(dú)立表示:試圖分開數(shù)據(jù)分布中變化的來源璃氢,使得表示的維度是相互獨(dú)立的。
主成分分析
主成分分析(PAC)是經(jīng)典的降維算法狮辽,是一種無監(jiān)督學(xué)習(xí)一也。主成分顧名思義,主要的成分隘竭,與之相對應(yīng)的就是非主要的成分塘秦。舉個例子,矩陣中有些向量可以用其他的某些向量線性表示动看,線性相關(guān)尊剔,那這個向量有一點(diǎn)多余了,去除后不影響原來的空間菱皆,基于這樣的思想须误,我們可以考慮將矩陣壓縮,在減小矩陣維數(shù)的同時盡可能保留原來的信息仇轻。
對于方陣的特征分解京痢,就是線性代數(shù)中的方法:
其中 X 是 m*m 的矩陣,X 對應(yīng)的協(xié)方差矩陣為:
PAC 通過線性變換找到一個 Var(x) 是對角矩陣的線性表示:z=
對于任意矩陣篷店,奇異值分解(SVD)是最接近于特征分解的祭椰,同樣這里也是:
其中 X 是 m*n 的矩陣;U 是 m*m 的方陣疲陕,其中的正交向量稱作左奇異向量方淤;∑ 是 m*n 矩陣,除對角線元素外都是零蹄殃,對角線上的元素稱為奇異值携茂;W 是 n*n 的矩陣,其中的正交向量稱為右奇異向量诅岩。具體的求法步驟為:
- U:求
的特征值和特征向量讳苦,再單位化;
- W:求
的特征值和特征向量吩谦,再單位化鸳谜;
- ∑:將
的特征值求平方根。
以 W 作為特征向量基式廷,可以得到原來的特征向量方程咐扭,:
X 的方差:
z 的協(xié)方差滿足對角的要求:
K-maeans 聚類(K-均值聚類)
聚類與分類是不同的,分類的類別是已知的,需要根據(jù)訓(xùn)練集進(jìn)行訓(xùn)練和學(xué)習(xí)草描,找到不同的特征,再喂入測試集輸出結(jié)果策严;聚類是事先不知道數(shù)據(jù)會被分成幾類穗慕,通過聚類分析將數(shù)據(jù)分成幾個群體。具體方法:
- 隨機(jī)將找到 K 個特殊數(shù)據(jù)點(diǎn)妻导;
- 其他的數(shù)據(jù)點(diǎn)根據(jù)距離分成 K 類逛绵;
- 然后在 K 類中每個類別中重新推選 K 個特殊的數(shù)據(jù)點(diǎn);
- 如果新選定的數(shù)據(jù)點(diǎn)與之前選定的數(shù)據(jù)點(diǎn)距離較大倔韭,則根據(jù)新的數(shù)據(jù)點(diǎn)重復(fù)步驟 2 之后的步驟术浪;
- 如果新的數(shù)據(jù)點(diǎn)和原來的數(shù)據(jù)點(diǎn)距離在一定閾值內(nèi),算法結(jié)束寿酌。
K-means 聚類優(yōu)點(diǎn)是快胰苏,簡單,對于數(shù)據(jù)點(diǎn)屬于一團(tuán)一團(tuán)的數(shù)據(jù)效果很好醇疼,但是比較嚴(yán)重的問題是有可能根據(jù)初始值的不同分類效果不同且不好硕并,比如汽車圖片分類,有可能按照是卡車還是小轎車分類秧荆,也有可能是根據(jù)紅色還是白色分類甚至有些是錯誤的倔毙,這一點(diǎn)需要注意,在不合適的地方此方法可能達(dá)不到目標(biāo)乙濒。
總結(jié)
本文介紹了主成分分析和 K-means 聚類兩種非監(jiān)督學(xué)習(xí)方法陕赃。
- 本文首發(fā)自公眾號:RAIS,點(diǎn)擊直接關(guān)注颁股。由于各平臺 Markdown 解析差異么库,有些公式顯示效果不好,請到我 個人維護(hù)網(wǎng)站 查看豌蟋。