【編程】三分鐘搞懂PCA主成分分析暇藏!

歡迎關(guān)注我的專欄( つ??ω??)つ【人工智能通識】


主成分析PCA

Principal components analysis,簡單說就是物體的分類來說靴迫,它們的哪些屬性更重要惕味,這些重要的屬性就叫做主要成分Principal components 。比如對于人的身材來說玉锌,身高名挥、體重、體脂率這些肯定是主要成分主守,年齡禀倔、月收入這些肯定不是。

但數(shù)學運算根本不懂這些現(xiàn)實道理参淫,有沒有辦法直接用數(shù)學方法救湖,把那些對分類影響最大的屬性找出來呢?PCA主成分析就是用數(shù)學運算來判斷哪些屬性更重要涎才,哪些不重要鞋既,——它根本不管你是要區(qū)分胖瘦還是區(qū)分貧富。

方差

三個人耍铜,韓梅梅邑闺、李雷和小明,體重分別是40棕兼,50陡舅,60。平均數(shù)mean就是160伴挚,那么方差Variance就是
Var(三人體重)=(150-160)^2+(160-160)^2+(170-160)^2

所以方差其實是和平均數(shù)的差的平方之和靶衍,方差其實是差臂寝、方、和摊灭。

更多數(shù)字的方差也是一樣咆贬,如下圖,中間紅線是水平方向7個點的平均值帚呼,方差就是藍色虛線長度的平方和掏缎,反正要平方也就無所謂正負。

方差公式就是:

Var(x)=d_1^2+d_2^2+d_3^2+...d_n^2

什么樣的分布數(shù)據(jù)最好用煤杀?能幫助我們進行分類的數(shù)據(jù)就是好數(shù)據(jù)眷蜈。

如上圖所示,藍色A的分布情況最好沈自,一眼就能開出平均值左右分成兩類酌儒;橙色的B也不錯,但怎么劃分就看不大懂了枯途;綠色C就糟糕了忌怎,都擠在中間,沒法劃分酪夷。但也不要覺得綠色中間那一堆有問題榴啸,去掉兩端的兩個,把中間這一堆橫向拉長舒展開晚岭,就是紅色D的情況鸥印,其實并不比B差。

用數(shù)學表示就是A的方差最大坦报,B其次库说,C最小。結(jié)論就是片择,在一般情況下潜的,對于一個屬性的數(shù)據(jù)分布來說,方差越大越好分類构回。

那么兩個屬性相比夏块,怎么判斷哪個數(shù)據(jù)更好一些疏咐?

協(xié)方差

把樣本當做圓點纤掸,兩個屬性分別對應xy軸,畫到二維坐標上浑塞,這樣計算方差用的d就分別落到了橫向和豎向的坐標軸上面借跪。如下圖所示。

協(xié)方差Covariance就是每個點P對應的藍色虛線乘以綠色虛線酌壕,然后把得到的所有乘積再相加掏愁。公式如下歇由,其中\bar{x}是橫向平均數(shù),\bar{y}是豎向平均數(shù)果港,即圖中所示短紅線:

Var(x)=(P_{1x}-\bar{x})(P_{1y}-\bar{y})+(P_{1x}-\bar{x})(P_{1y}-\bar{y})...+(P_{nx}-\bar{x})(P_{ny}-\bar{y})
即:
Var(x)=d_{1x}*d_{1y}+d_{1x}*d_{1y}...d_{nx}*d_{ny}
如果xy是同一個屬性的話就變成了方差d_{1x}^2+d_{1x}^2+...d_{nx}^2沦泌。

不過說這些都沒用,我們也不用討論到底是藍色虛線加起來大還是綠色虛線加起來大辛掠,因為它們兩個肯定都不是最大的谢谦,誰是最大呢?

坐標系變換

“橫看成嶺側(cè)成峰”萝衩,對于一排數(shù)據(jù)來說回挽,高低起伏的山巒從側(cè)面看成一座禿山那就是廢了。對分類影響比較大的一定是既成簇又分團的數(shù)據(jù)猩谊。

觀察角度不好就是千手觀音千劈,角度好了才能看出高矮胖瘦。比如下面這個圖上的五個采樣點牌捷,無論是橫軸和縱軸看墙牌,分布的都比較均勻。但如果沿著y'方向看暗甥,就會發(fā)現(xiàn)這5個點在x'方向上投影的灰色圓點呈簇分布憔古,而且在x'方向上各個點的虛線也都比藍色或者綠色虛線長,也就是方差比較大淋袖。

所以說鸿市,不要拘泥于現(xiàn)有數(shù)據(jù)的角度來觀察,要變換到方差最大的角度來分析〖赐耄現(xiàn)有的數(shù)據(jù)角度未必是對分類產(chǎn)生最大影響的數(shù)據(jù)焰情,那條斜著的x'屬性才是影響分類的主要成分Principal components,一般叫做PC1剥懒。和PC1垂直的y'就是PC2内舟。

從這個旋轉(zhuǎn)后的坐標可以更加清晰的看出這些點的分布主要由PC1決定。而PC1和PC2影響力的比例也可以用各自方向上的方差來計算初橘。

三維坐標

同樣對于x,y,z三維坐標中的一團樣本點验游,像云朵一樣分布,我們?nèi)匀豢梢哉业截灤┱麄€云朵的最長的那條軸線保檐,以及和它互相垂直的另外兩條軸線耕蝉。這樣我們就針對x,y,z變換得到新的x',y',z'即PC1、PC2夜只、PC3垒在。

主成分分析的意義

其實某種意義上講,x'y'就是原來x,y的另外一種角度的表現(xiàn)形式扔亥。

得到主成分軸向(屬性)的目的就是為了可以舍棄其他次要的成分场躯,當然谈为,主成分屬性也是優(yōu)于其他成分的屬性,缺點就是這個屬性沒法用語言來解釋踢关。

假象我們有1000個屬性數(shù)據(jù)伞鲫,實在太多了,這時候就可以用主成分分析签舞。把它們放到一千維的坐標系里面榔昔,每個屬性占一維。然后在這個復雜空間中的樣本云中找出貫穿其中方差最長的那個方向瘪菌,它就是PC1撒会,再找出方差其次長的PC2,PC3师妙,...PC1000诵肛。

原本1000個屬性我們不知道誰重要誰不重要,但現(xiàn)在我們知道PC1最重要默穴,PC2其次...所以我們就可以只留下前面比較重要的PC1到PC10怔檩,其余的900個都忽略掉。注意這里PC1并不是和第一個屬性對應的蓄诽,甚至1000個新PC屬性和原來1000個屬性之間沒有一一對應關(guān)系薛训,誰也不知道在這1000維的坐標空間中PC1這個箭頭指向哪里,更沒法說它是和身高仑氛、體重乙埃、年齡那個屬性對應了。

附注:在上面的二維坐標系中锯岖,x'一定優(yōu)于y'嗎介袜?似乎并不見得,雖然x'看上去的確比y'長太多出吹,方差也大很多遇伞。但還是應該把它們的分布放到同等的范圍內(nèi)進行比較,如下圖所示捶牢,當把x'橫向縮短到y'范圍內(nèi)之后如下圖所示鸠珠,y'的成簇情況要比x'還好一點點,方差也大一點秋麸。后續(xù)再仔細學習和驗證吧渐排。另外,開始也沒有將所有屬性(身高竹勉、體重飞盆、年齡等)數(shù)值都統(tǒng)一到同樣范圍(歸一化)娄琉,但似乎并不是這個問題的原因次乓。


歡迎關(guān)注我的專欄( つ??ω??)つ【人工智能通識】


每個人的智能新時代

如果您發(fā)現(xiàn)文章錯誤吓歇,請不吝留言指正;
如果您覺得有用票腰,請點喜歡城看;
如果您覺得很有用,歡迎轉(zhuǎn)載~


END

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末杏慰,一起剝皮案震驚了整個濱河市测柠,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌缘滥,老刑警劉巖轰胁,帶你破解...
    沈念sama閱讀 206,126評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異朝扼,居然都是意外死亡赃阀,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評論 2 382
  • 文/潘曉璐 我一進店門擎颖,熙熙樓的掌柜王于貴愁眉苦臉地迎上來榛斯,“玉大人,你說我怎么就攤上這事搂捧⊥运祝” “怎么了?”我有些...
    開封第一講書人閱讀 152,445評論 0 341
  • 文/不壞的土叔 我叫張陵允跑,是天一觀的道長王凑。 經(jīng)常有香客問我,道長聋丝,這世上最難降的妖魔是什么荤崇? 我笑而不...
    開封第一講書人閱讀 55,185評論 1 278
  • 正文 為了忘掉前任,我火速辦了婚禮潮针,結(jié)果婚禮上术荤,老公的妹妹穿的比我還像新娘。我一直安慰自己每篷,他們只是感情好瓣戚,可當我...
    茶點故事閱讀 64,178評論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著焦读,像睡著了一般子库。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上矗晃,一...
    開封第一講書人閱讀 48,970評論 1 284
  • 那天仑嗅,我揣著相機與錄音,去河邊找鬼。 笑死仓技,一個胖子當著我的面吹牛鸵贬,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播脖捻,決...
    沈念sama閱讀 38,276評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼阔逼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了地沮?” 一聲冷哼從身側(cè)響起嗜浮,我...
    開封第一講書人閱讀 36,927評論 0 259
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎摩疑,沒想到半個月后危融,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡雷袋,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 35,883評論 2 323
  • 正文 我和宋清朗相戀三年专挪,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片片排。...
    茶點故事閱讀 37,997評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡寨腔,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出率寡,到底是詐尸還是另有隱情迫卢,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評論 4 322
  • 正文 年R本政府宣布冶共,位于F島的核電站乾蛤,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏捅僵。R本人自食惡果不足惜家卖,卻給世界環(huán)境...
    茶點故事閱讀 39,213評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望庙楚。 院中可真熱鬧上荡,春花似錦、人聲如沸馒闷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽纳账。三九已至逛薇,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間疏虫,已是汗流浹背永罚。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評論 1 260
  • 我被黑心中介騙來泰國打工啤呼, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人呢袱。 一個月前我還...
    沈念sama閱讀 45,423評論 2 352
  • 正文 我出身青樓官扣,卻偏偏與公主長得像,于是被迫代替她去往敵國和親产捞。 傳聞我的和親對象是個殘疾皇子醇锚,可洞房花燭夜當晚...
    茶點故事閱讀 42,722評論 2 345

推薦閱讀更多精彩內(nèi)容