1. PCA:principal Component Analysis
- 用途:降維中最常用的一種手段
- 目標(biāo):提取最有價(jià)值的信息(基于方差)
- 方差最大化,使得所有的樣本點(diǎn)盡可能的分開儡毕。
- 問題:降維后的數(shù)據(jù)的意義缘挑?
- 原來的數(shù)據(jù)都是有實(shí)際意義的螟左,降維之后表達(dá)的什么意思就不知道了潮饱。但是我們最終是要拿一個(gè)結(jié)果,所以中間的過程也不是很重要太示。
-
向量的表示及基的變換
-
內(nèi)積:用坐標(biāo)表示向量
-
解釋:設(shè)B向量的模長為1攒钳,則A與B的內(nèi)積值等于A像B所在直線投影的矢量長度帮孔。
-
解釋:設(shè)B向量的模長為1攒钳,則A與B的內(nèi)積值等于A像B所在直線投影的矢量長度帮孔。
- 向量可以表示為(3,2)實(shí)際上表示線性組合:x(1,0)'+y(0,1)'。(.)'表示轉(zhuǎn)置不撑。
- 基:(1,0)和(0,1)叫做二維空間的一組基文兢。
- 基是正交的(內(nèi)積為0,互相垂直)焕檬,最好是單位向量
- 要求:線性無關(guān)禽作。
- 基變換:
-
數(shù)據(jù)與一個(gè)基做內(nèi)積運(yùn)算,結(jié)果作為第一個(gè)新的坐標(biāo)分量揩页,然后與第二個(gè)基做內(nèi)積運(yùn)算旷偿,結(jié)果作為第二個(gè)新坐標(biāo)的分量烹俗。
-
兩個(gè)矩陣相乘的意義是將右邊矩陣中的每一列列向量變換到左邊矩陣中每一行行向量為基所表示的空間中去。
-
數(shù)據(jù)與一個(gè)基做內(nèi)積運(yùn)算,結(jié)果作為第一個(gè)新的坐標(biāo)分量揩页,然后與第二個(gè)基做內(nèi)積運(yùn)算旷偿,結(jié)果作為第二個(gè)新坐標(biāo)的分量烹俗。
- 如何找到最合適的基呢萍程?
- 協(xié)方差矩陣
- 方向:如何選擇這個(gè)方向(基)才能盡量保留最多的原始信息呢幢妄?一種直觀的看法是:希望投影后的投影值盡可能分散
-
方差:公式
- 尋找一個(gè)一維基,使得所有數(shù)據(jù)變換為這個(gè)基上的坐標(biāo)表示后茫负,方差值最大蕉鸳。
- 協(xié)方差:表示兩個(gè)向量之間的關(guān)系
-
公式為:
-
數(shù)據(jù)已經(jīng)做了均值為0的中心化,因此忍法,協(xié)方差的公式可以寫成:
- 如果單純只選擇方差最大的方向潮尝,后續(xù)的方向應(yīng)該會和方差最大的方向接近重合(線性相關(guān))。線性相關(guān)不利于我們的建模饿序。
- 解決方案:為了讓兩個(gè)字段盡可能表示更多的原始信息勉失,我們是不希望它們之間存在(線性)相關(guān)性的。
- 協(xié)方差:可以用兩個(gè)字段的協(xié)方差表示其相關(guān)性
- 當(dāng)協(xié)方差為0時(shí)原探,表示兩個(gè)字段完全獨(dú)立乱凿。為了讓協(xié)方差為0.選擇第二個(gè)基時(shí)能與第一個(gè)基正交的方向上選擇。因此最終選擇的兩個(gè)方向一定是正交的咽弦。
-
公式為:
- 優(yōu)化目標(biāo):
- 將一組N維向量降為K維徒蟆,(0<K<N),目標(biāo)是選擇K個(gè)單位正交基型型,使得原始數(shù)據(jù)變換到這組基上后段审,各字段兩兩間的協(xié)方差為0,字段的方差都盡可能大闹蒜。
-
協(xié)方差矩陣:矩陣對角線上的兩個(gè)元素分別是兩個(gè)字段的方差戚哎,而其他元素是a和b的協(xié)方差。
- 協(xié)方差矩陣對角化:除對角線外的其他元素化為0嫂用,并且在對角線上將元素按大小從上到下排列。
- 實(shí)對稱矩陣:一個(gè)n行n列的實(shí)對稱矩陣一定可以找到n個(gè)單位正交特征向量丈冬。
實(shí)對稱矩陣一定可進(jìn)行對角化 - 根據(jù)特征值的從大到小嘱函,將特征向量從上到下排列,再用前K行組成的矩陣乘以原始數(shù)據(jù)矩陣X埂蕊,就得到我們需要的降維后的數(shù)據(jù)矩陣Y往弓。
-
內(nèi)積:用坐標(biāo)表示向量
-
PCA實(shí)例
-
數(shù)據(jù):
-
協(xié)方差矩陣:
- 特征值:
-
特征向量:
-
對角化:
-
降維:
-
數(shù)據(jù):
2. 線性代數(shù)知識:
- 特征值與特征向量:
- 定義
設(shè)A為n階矩陣,如果存在一個(gè)數(shù) 及非零的n維列向量使得A=成立蓄氧,則稱是矩陣A的一個(gè)特征值函似,稱非零向量是矩陣A屬于的一個(gè)特征向量。 -
求特征值和特征向量
- 定義