無監(jiān)督學(xué)習(xí)算法

  • 本文首發(fā)自公眾號:RAIS僻爽,點(diǎn)擊直接關(guān)注头遭。

前言

本系列文章為 《Deep Learning》 讀書筆記太颤,可以參看原書一起閱讀苞俘,效果更佳。

無監(jiān)督學(xué)習(xí)算法

就是無監(jiān)督的一種學(xué)習(xí)方法龄章,太抽象苗胀,有一種定義(這種定義其實不夠準(zhǔn)確,無監(jiān)督和監(jiān)督之間界限模糊)是說如果訓(xùn)練集有標(biāo)簽的就是有監(jiān)督學(xué)習(xí)瓦堵,無標(biāo)簽的就是無監(jiān)督存和,沒有標(biāo)簽贿衍,意味著不知道結(jié)果。有監(jiān)督學(xué)習(xí)算法可以知道一堆圖片它們是狗的照片澜术,無監(jiān)督學(xué)習(xí)算法只能知道它們是一類陷揪,但這一類叫什么就不知道了惋鸥。

無監(jiān)督學(xué)習(xí)算法沒有標(biāo)簽杂穷,因此訓(xùn)練的也往往是沒有明確目標(biāo)的,對于結(jié)果也可能不好說是好是壞卦绣,在本質(zhì)上來說耐量,無監(jiān)督學(xué)習(xí)算法是一種概率統(tǒng)計的方法,在數(shù)據(jù)中可以發(fā)現(xiàn)一些潛在的結(jié)構(gòu)滤港。這么說還是不夠清楚廊蜒,舉幾個例子說明無監(jiān)督學(xué)習(xí)方法有什么作用:

用戶分類:馬云說每天晚上有五十萬的人會瀏覽淘寶,什么也不買溅漾,他也不知道為什么山叮,那既然有如此大的流量,不能浪費(fèi)添履,進(jìn)行精準(zhǔn)推薦屁倔,會不會效果很好呢?在龐大的用戶群中暮胧,找到和你很相似的用戶锐借,也說不出來哪里相識,反正就是相似往衷,他買過的東西你還沒買過钞翔,推薦給你,你會不會就沖動了呢炼绘?

發(fā)現(xiàn)異常:對于網(wǎng)站來說嗅战,防止 DDOS 攻擊就需要在巨大的請求中找到那些非法請求(廣義上的非法,并非單純指參數(shù)非法)俺亮,進(jìn)行丟棄不進(jìn)行服務(wù)驮捍,這可能就需要無監(jiān)督學(xué)習(xí)算法,找到那些和正常用戶不一樣的請求脚曾,也說不出來哪里不一樣东且,反正就是不一樣,直接拋棄請求本讥,不進(jìn)行服務(wù)珊泳,那攻擊帶來的影響就會降低一些。

表示

表示是深度學(xué)習(xí)的核心主題之一拷沸,一個經(jīng)典的無監(jiān)督學(xué)習(xí)任務(wù)是找到數(shù)據(jù)的最佳表示色查,去除那些無關(guān)緊要不影響大局或影響因子極小的因素,找到數(shù)據(jù)最核心最關(guān)鍵的簡單表示撞芍,這里的簡單表示包括低緯表示秧了、稀疏表示和獨(dú)立表示。

  • 低緯表示:將 x 中的信息盡可能壓縮在一個較小的表示中序无,通常會產(chǎn)生比原始的高維數(shù)據(jù)具有較小或較弱依賴關(guān)系的元素验毡;
  • 稀疏表示:將數(shù)據(jù)集嵌入到輸入項大多數(shù)為零的表示中衡创,通常會用于需要增加維數(shù)的情況,使得大部分為零的表示不會丟失很多信息晶通;
  • 獨(dú)立表示:試圖分開數(shù)據(jù)分布中變化的來源璃氢,使得表示的維度是相互獨(dú)立的。

主成分分析

主成分分析(PAC)是經(jīng)典的降維算法狮辽,是一種無監(jiān)督學(xué)習(xí)一也。主成分顧名思義,主要的成分隘竭,與之相對應(yīng)的就是非主要的成分塘秦。舉個例子,矩陣中有些向量可以用其他的某些向量線性表示动看,線性相關(guān)尊剔,那這個向量有一點(diǎn)多余了,去除后不影響原來的空間菱皆,基于這樣的思想须误,我們可以考慮將矩陣壓縮,在減小矩陣維數(shù)的同時盡可能保留原來的信息仇轻。

對于方陣的特征分解京痢,就是線性代數(shù)中的方法:

X=QΛQ^{-1}

其中 X 是 m*m 的矩陣,X 對應(yīng)的協(xié)方差矩陣為:

Var(x)=\frac{1}{m-1}X^TX

PAC 通過線性變換找到一個 Var(x) 是對角矩陣的線性表示:z=W^TX

對于任意矩陣篷店,奇異值分解(SVD)是最接近于特征分解的祭椰,同樣這里也是:

X=U∑W^T

其中 X 是 m*n 的矩陣;U 是 m*m 的方陣疲陕,其中的正交向量稱作左奇異向量方淤;∑ 是 m*n 矩陣,除對角線元素外都是零蹄殃,對角線上的元素稱為奇異值携茂;W 是 n*n 的矩陣,其中的正交向量稱為右奇異向量诅岩。具體的求法步驟為:

  1. U:求 XX^T 的特征值和特征向量讳苦,再單位化;
  2. W:求 X^TX 的特征值和特征向量吩谦,再單位化鸳谜;
  3. ∑:將 XX^T 的特征值求平方根。

以 W 作為特征向量基式廷,可以得到原來的特征向量方程咐扭,U^TU=I, W^TW=I

X^TX=(U∑W^T)^TU∑W^T=W(∑)^{2}W^T

X 的方差:

Var(x)=\frac{1}{m-1}X^TX=\frac{1}{m-1}W(∑)^{2}W^T

z 的協(xié)方差滿足對角的要求:

Var(z)=\frac{1}{m-1}Z^TZ=\frac{1}{m-1}(∑)^2

K-maeans 聚類(K-均值聚類)

聚類與分類是不同的,分類的類別是已知的,需要根據(jù)訓(xùn)練集進(jìn)行訓(xùn)練和學(xué)習(xí)草描,找到不同的特征,再喂入測試集輸出結(jié)果策严;聚類是事先不知道數(shù)據(jù)會被分成幾類穗慕,通過聚類分析將數(shù)據(jù)分成幾個群體。具體方法:

  1. 隨機(jī)將找到 K 個特殊數(shù)據(jù)點(diǎn)妻导;
  2. 其他的數(shù)據(jù)點(diǎn)根據(jù)距離分成 K 類逛绵;
  3. 然后在 K 類中每個類別中重新推選 K 個特殊的數(shù)據(jù)點(diǎn);
  4. 如果新選定的數(shù)據(jù)點(diǎn)與之前選定的數(shù)據(jù)點(diǎn)距離較大倔韭,則根據(jù)新的數(shù)據(jù)點(diǎn)重復(fù)步驟 2 之后的步驟术浪;
  5. 如果新的數(shù)據(jù)點(diǎn)和原來的數(shù)據(jù)點(diǎn)距離在一定閾值內(nèi),算法結(jié)束寿酌。

K-means 聚類優(yōu)點(diǎn)是快胰苏,簡單,對于數(shù)據(jù)點(diǎn)屬于一團(tuán)一團(tuán)的數(shù)據(jù)效果很好醇疼,但是比較嚴(yán)重的問題是有可能根據(jù)初始值的不同分類效果不同且不好硕并,比如汽車圖片分類,有可能按照是卡車還是小轎車分類秧荆,也有可能是根據(jù)紅色還是白色分類甚至有些是錯誤的倔毙,這一點(diǎn)需要注意,在不合適的地方此方法可能達(dá)不到目標(biāo)乙濒。

總結(jié)

本文介紹了主成分分析和 K-means 聚類兩種非監(jiān)督學(xué)習(xí)方法陕赃。

  • 本文首發(fā)自公眾號:RAIS,點(diǎn)擊直接關(guān)注颁股。由于各平臺 Markdown 解析差異么库,有些公式顯示效果不好,請到我 個人維護(hù)網(wǎng)站 查看豌蟋。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末廊散,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子梧疲,更是在濱河造成了極大的恐慌允睹,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,366評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件幌氮,死亡現(xiàn)場離奇詭異缭受,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)该互,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,521評論 3 395
  • 文/潘曉璐 我一進(jìn)店門米者,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事蔓搞∫榷。” “怎么了?”我有些...
    開封第一講書人閱讀 165,689評論 0 356
  • 文/不壞的土叔 我叫張陵喂分,是天一觀的道長锦庸。 經(jīng)常有香客問我,道長蒲祈,這世上最難降的妖魔是什么甘萧? 我笑而不...
    開封第一講書人閱讀 58,925評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮梆掸,結(jié)果婚禮上扬卷,老公的妹妹穿的比我還像新娘。我一直安慰自己酸钦,他們只是感情好怪得,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,942評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著钝鸽,像睡著了一般汇恤。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上拔恰,一...
    開封第一講書人閱讀 51,727評論 1 305
  • 那天因谎,我揣著相機(jī)與錄音,去河邊找鬼颜懊。 笑死财岔,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的河爹。 我是一名探鬼主播匠璧,決...
    沈念sama閱讀 40,447評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼咸这!你這毒婦竟也來了夷恍?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,349評論 0 276
  • 序言:老撾萬榮一對情侶失蹤媳维,失蹤者是張志新(化名)和其女友劉穎酿雪,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體侄刽,經(jīng)...
    沈念sama閱讀 45,820評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡指黎,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,990評論 3 337
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了州丹。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片醋安。...
    茶點(diǎn)故事閱讀 40,127評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡杂彭,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出吓揪,到底是詐尸還是另有隱情亲怠,我是刑警寧澤,帶...
    沈念sama閱讀 35,812評論 5 346
  • 正文 年R本政府宣布柠辞,位于F島的核電站赁炎,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏钾腺。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,471評論 3 331
  • 文/蒙蒙 一讥裤、第九天 我趴在偏房一處隱蔽的房頂上張望放棒。 院中可真熱鬧,春花似錦己英、人聲如沸间螟。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,017評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽厢破。三九已至,卻和暖如春治拿,著一層夾襖步出監(jiān)牢的瞬間摩泪,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,142評論 1 272
  • 我被黑心中介騙來泰國打工劫谅, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留见坑,地道東北人。 一個月前我還...
    沈念sama閱讀 48,388評論 3 373
  • 正文 我出身青樓捏检,卻偏偏與公主長得像荞驴,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子贯城,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,066評論 2 355

推薦閱讀更多精彩內(nèi)容