主成分分析(PCA,principal components analysis),是一種分析台谢、簡化數(shù)據(jù)集的技術(shù)。Wiki里面給到的定義:主成分分析經(jīng)常用于減少數(shù)據(jù)集的維數(shù),同時(shí)保持?jǐn)?shù)據(jù)集中對方差貢獻(xiàn)最大的特征值屋讶。平時(shí)我們所看的一些書籍里面,經(jīng)常在數(shù)據(jù)降維的篇章里面講到主成分分析须教,該分析在負(fù)載復(fù)雜數(shù)據(jù)時(shí)代尤為有用皿渗,比如人臉識(shí)別斩芭。
下面舉個(gè)例子讓大家理解下主成分分析的意義。(內(nèi)容來源:A
layman's introduction to principal component analysis by Jame X.Li)
假如乐疆,一個(gè)攝影師準(zhǔn)備拍攝一個(gè)茶壺
拍攝過程中划乖,有很多角度可以供你選擇,但是有些角度很好挤土,有些角度缺不是特別好琴庵。
現(xiàn)在大家思考一下,為什么最上面一個(gè)是最好的拍攝角度仰美?
原因很簡單细卧,因?yàn)樽钌厦娴呐臄z角度,最能體現(xiàn)出整個(gè)茶壺的樣子筒占,其他角度僅僅是茶壺的一個(gè)斷面贪庙,不能很好的體現(xiàn)出全貌。也就是說最上面那個(gè)角度的茶壺翰苫,體現(xiàn)的信息最多止邮。
OK,那接下來問題來了奏窑,假如這個(gè)攝影師是個(gè)小白入門导披,沒有經(jīng)驗(yàn)。那么怎么幫助他找到最佳的角度埃唯?
答案是依據(jù)主成分分析算法來旋轉(zhuǎn)你的茶壺撩匕,直到找到最佳的角度。
第一步墨叛,找到第一根軸止毕,這根軸可以使得你的茶壺在這根軸上有最大的長度延伸(最大方差)。
第二步漠趁,基于第一步尋找到的最長軸為軸心扁凛,將茶壺旋轉(zhuǎn)去尋找第二根軸。第二根軸將垂直于第一根軸闯传,與第一根軸的確定方式類似谨朝。第二根軸也可以使這個(gè)茶壺在這根軸上有一個(gè)最大長度的延伸(最大方差)。
在主成分分析里面甥绿,這兩根軸就分別叫做第一主成分和第二主成分字币。上面所說的在軸上的最大長度的延伸,就稱作特征值共缕。
主成分分析的主要應(yīng)用:
1.多維數(shù)據(jù)的可視化展現(xiàn)
2.找到關(guān)鍵的變量
3.降維
進(jìn)一步用電影的例子舉例洗出,這些年3d電影興起,3d電影其實(shí)也是讓我在電影信息的接收上通過三個(gè)維度骄呼,平面(x,y)和立體(z)共苛。然而大家想想,即便不是3d電影蜓萄,缺了那個(gè)z隅茎,我們也不會(huì)丟失掉觀影里面的具體信息。我們拍照也是同樣的一個(gè)道理嫉沽,將三維的圖畫壓縮到二維的平面上辟犀。