[機器學習入門] 李宏毅機器學習筆記-14 (Unsupervised Learning: Linear Dimension
Reduction俩滥;線性降維)
VIDEO |
---|
Unsupervised Learning
把Unsupervised Learning分為兩大類:
化繁為簡:有很多種input嘉蕾,進行抽象化處理,只有input沒有output
無中生有:隨機給一個input霜旧,自動畫一張圖错忱,只有output沒有input
Clustering
有一大堆image ,把他們分為幾大類挂据,給他們貼上標簽以清,將不同的image用相同的
cluster表示。
也面臨一個問題崎逃,要有多少種cluster呢掷倔?
有兩種clustering的方法:
K-means(K均值)
Hierarchical Agglomerative Clustering (HAC階層式匯聚分群法)
如果說K均值算法的問題是不好卻確定分為幾類,那么HAC的問題在于不知將分類門檻劃在哪一層
Distributed Representation(分布式表征)
光做clustering是很卡的个绍,有的個體并不只屬于一個大類今魔,所以需要一個vector來表示在各個類中的概率勺像。這樣障贸,從一個(高維)圖片到一個各屬性概率(低維)就是一個Dimension Reduction错森。
Dimension Reduction
為什么說降維是很有用的呢?
有時候在3D種很復雜的圖像到2D種就被簡化了
在MNIST訓練集中篮洁,很多2828維的向量轉(zhuǎn)成一個image看起來根本不想數(shù)字涩维,其中是digit的vector很少,所以或許我們可以用少于2828維的向量來描述它袁波。
比如下圖一堆3瓦阐,每一個都是28*28維的向量,但是篷牌,我們發(fā)現(xiàn)睡蟋,它們僅僅是角度的不同,所以我們可以加上角度值進行降維枷颊,來簡化表示戳杀。
那我們應該怎樣做Dimension Reduction呢?
就是要找一個function夭苗。有兩個方法:
- Feature selection特征選擇:比如在左圖二維坐標系中信卡,我們發(fā)現(xiàn)X1軸對樣本點影響不大,那么就可以把它拿掉题造。
- PCA 主成分分析: 輸出 z=Wx輸入傍菇,找到這個向量W。
Principle Component Analysis (PCA) 主成分分析
在一維的例子里界赔,我們要找 z1 方差最大的情況丢习,當維度升高到2維,找 z2 方差最大淮悼,為了避免與 z1 重復咐低,所以規(guī)定 w1 與 w2 垂直。依次方法可進行高維計算敛惊。將所有w轉(zhuǎn)置一下渊鞋,組成一個高維向量,就是我們要找的W瞧挤。
那么怎樣借w呢锡宋?
Warning of Math
PCA - decorrelation
PCA – Another Point of View
每個手寫識別,都是由基礎(chǔ)組件構(gòu)成的特恬,把基礎(chǔ)組件加起來执俩,得到一個數(shù)字。
對7來說癌刽,C1\C2\C3\C4\C5分別為1\0\1\0\1
那我們?nèi)绾握业?u1-uK這K個Vector呢役首?
我們要找K個vector使重構(gòu)誤差越小越好尝丐。
轉(zhuǎn)化為Matrix。
怎么解這個問題呢衡奥?SVD方法爹袁。
matrix X 可以用SVD拆成 matrix U * matrix ∑ * matrix V。
這樣w已經(jīng)通過SVD求出來了矮固,Ck怎么求呢失息?