歡迎關(guān)注我的專欄( つ??ω??)つ【人工智能通識】
主成分析PCA
Principal components analysis,簡單說就是物體的分類來說靴迫,它們的哪些屬性更重要惕味,這些重要的屬性就叫做主要成分Principal components 。比如對于人的身材來說玉锌,身高名挥、體重、體脂率這些肯定是主要成分主守,年齡禀倔、月收入這些肯定不是。
但數(shù)學運算根本不懂這些現(xiàn)實道理参淫,有沒有辦法直接用數(shù)學方法救湖,把那些對分類影響最大的屬性找出來呢?PCA主成分析就是用數(shù)學運算來判斷哪些屬性更重要涎才,哪些不重要鞋既,——它根本不管你是要區(qū)分胖瘦還是區(qū)分貧富。
方差
三個人耍铜,韓梅梅邑闺、李雷和小明,體重分別是40棕兼,50陡舅,60。平均數(shù)mean就是160伴挚,那么方差Variance就是
所以方差其實是和平均數(shù)的差的平方之和靶衍,方差其實是差臂寝、方、和摊灭。
更多數(shù)字的方差也是一樣咆贬,如下圖,中間紅線是水平方向7個點的平均值帚呼,方差就是藍色虛線長度的平方和掏缎,反正要平方也就無所謂正負。
方差公式就是:
什么樣的分布數(shù)據(jù)最好用煤杀?能幫助我們進行分類的數(shù)據(jù)就是好數(shù)據(jù)眷蜈。
如上圖所示,藍色A的分布情況最好沈自,一眼就能開出平均值左右分成兩類酌儒;橙色的B也不錯,但怎么劃分就看不大懂了枯途;綠色C就糟糕了忌怎,都擠在中間,沒法劃分酪夷。但也不要覺得綠色中間那一堆有問題榴啸,去掉兩端的兩個,把中間這一堆橫向拉長舒展開晚岭,就是紅色D的情況鸥印,其實并不比B差。
用數(shù)學表示就是A的方差最大坦报,B其次库说,C最小。結(jié)論就是片择,在一般情況下潜的,對于一個屬性的數(shù)據(jù)分布來說,方差越大越好分類构回。
那么兩個屬性相比夏块,怎么判斷哪個數(shù)據(jù)更好一些疏咐?
協(xié)方差
把樣本當做圓點纤掸,兩個屬性分別對應和軸,畫到二維坐標上浑塞,這樣計算方差用的就分別落到了橫向和豎向的坐標軸上面借跪。如下圖所示。
協(xié)方差Covariance就是每個點P對應的藍色虛線乘以綠色虛線酌壕,然后把得到的所有乘積再相加掏愁。公式如下歇由,其中是橫向平均數(shù),是豎向平均數(shù)果港,即圖中所示短紅線:
即:
如果和是同一個屬性的話就變成了方差沦泌。
不過說這些都沒用,我們也不用討論到底是藍色虛線加起來大還是綠色虛線加起來大辛掠,因為它們兩個肯定都不是最大的谢谦,誰是最大呢?
坐標系變換
“橫看成嶺側(cè)成峰”萝衩,對于一排數(shù)據(jù)來說回挽,高低起伏的山巒從側(cè)面看成一座禿山那就是廢了。對分類影響比較大的一定是既成簇又分團的數(shù)據(jù)猩谊。
觀察角度不好就是千手觀音千劈,角度好了才能看出高矮胖瘦。比如下面這個圖上的五個采樣點牌捷,無論是橫軸和縱軸看墙牌,分布的都比較均勻。但如果沿著方向看暗甥,就會發(fā)現(xiàn)這5個點在方向上投影的灰色圓點呈簇分布憔古,而且在方向上各個點的虛線也都比藍色或者綠色虛線長,也就是方差比較大淋袖。
所以說鸿市,不要拘泥于現(xiàn)有數(shù)據(jù)的角度來觀察,要變換到方差最大的角度來分析〖赐耄現(xiàn)有的數(shù)據(jù)角度未必是對分類產(chǎn)生最大影響的數(shù)據(jù)焰情,那條斜著的屬性才是影響分類的主要成分Principal components,一般叫做PC1剥懒。和PC1垂直的就是PC2内舟。
從這個旋轉(zhuǎn)后的坐標可以更加清晰的看出這些點的分布主要由PC1決定。而PC1和PC2影響力的比例也可以用各自方向上的方差來計算初橘。
三維坐標
同樣對于三維坐標中的一團樣本點验游,像云朵一樣分布,我們?nèi)匀豢梢哉业截灤┱麄€云朵的最長的那條軸線保檐,以及和它互相垂直的另外兩條軸線耕蝉。這樣我們就針對變換得到新的即PC1、PC2夜只、PC3垒在。
主成分分析的意義
其實某種意義上講,和就是原來的另外一種角度的表現(xiàn)形式扔亥。
得到主成分軸向(屬性)的目的就是為了可以舍棄其他次要的成分场躯,當然谈为,主成分屬性也是優(yōu)于其他成分的屬性,缺點就是這個屬性沒法用語言來解釋踢关。
假象我們有1000個屬性數(shù)據(jù)伞鲫,實在太多了,這時候就可以用主成分分析签舞。把它們放到一千維的坐標系里面榔昔,每個屬性占一維。然后在這個復雜空間中的樣本云中找出貫穿其中方差最長的那個方向瘪菌,它就是PC1撒会,再找出方差其次長的PC2,PC3师妙,...PC1000诵肛。
原本1000個屬性我們不知道誰重要誰不重要,但現(xiàn)在我們知道PC1最重要默穴,PC2其次...所以我們就可以只留下前面比較重要的PC1到PC10怔檩,其余的900個都忽略掉。注意這里PC1并不是和第一個屬性對應的蓄诽,甚至1000個新PC屬性和原來1000個屬性之間沒有一一對應關(guān)系薛训,誰也不知道在這1000維的坐標空間中PC1這個箭頭指向哪里,更沒法說它是和身高仑氛、體重乙埃、年齡那個屬性對應了。
附注:在上面的二維坐標系中锯岖,一定優(yōu)于嗎介袜?似乎并不見得,雖然看上去的確比長太多出吹,方差也大很多遇伞。但還是應該把它們的分布放到同等的范圍內(nèi)進行比較,如下圖所示捶牢,當把橫向縮短到范圍內(nèi)之后如下圖所示鸠珠,的成簇情況要比還好一點點,方差也大一點秋麸。后續(xù)再仔細學習和驗證吧渐排。另外,開始也沒有將所有屬性(身高竹勉、體重飞盆、年齡等)數(shù)值都統(tǒng)一到同樣范圍(歸一化)娄琉,但似乎并不是這個問題的原因次乓。
歡迎關(guān)注我的專欄( つ??ω??)つ【人工智能通識】
每個人的智能新時代
如果您發(fā)現(xiàn)文章錯誤吓歇,請不吝留言指正;
如果您覺得有用票腰,請點喜歡城看;
如果您覺得很有用,歡迎轉(zhuǎn)載~
END