1.將數(shù)據(jù)進(jìn)行中心化的原因:
減去均值等同于坐標(biāo)移動灶体,這樣就能把原始數(shù)據(jù)點的中心移到與原點重合荒辕,此舉有利于很多表達(dá)搀军,比如數(shù)據(jù)的協(xié)方差矩陣可以直接寫成X*X'连霉,若沒有減去均值,則每兩個特征之間都要進(jìn)行(X-X均值)*(Y-Y均值)運(yùn)算佛呻,再組合成協(xié)方差矩陣裳朋。
2.將數(shù)據(jù)除以標(biāo)準(zhǔn)差的原因:
除以標(biāo)準(zhǔn)差是為了統(tǒng)一并消除量綱。一個樣本中有多個特征吓著,有些可能表示長度鲤嫡,有些可能表示重量。如果各個特征之間的數(shù)值或數(shù)量級存在較大差異绑莺,就會使得較小的數(shù)被淹沒泛范,導(dǎo)致主成分偏差較大。所以要將每個特征對應(yīng)的樣本除以標(biāo)準(zhǔn)差紊撕,這樣才能讓他們僅以“數(shù)的概念一起比較運(yùn)算”罢荡。
簡言之---除以標(biāo)準(zhǔn)差的作用:去掉量綱,將不同量綱的數(shù)據(jù)拉伸至同一水平对扶。公平比較区赵。?
注意兩點:
1.標(biāo)準(zhǔn)化與歸一化:
上述1,2兩步統(tǒng)稱為數(shù)據(jù)的標(biāo)準(zhǔn)化過程----將每個特征(即矩陣的每一列)減去均值并除以標(biāo)準(zhǔn)差浪南。
而數(shù)據(jù)的歸一化僅僅是指除以標(biāo)準(zhǔn)差或類似意思笼才。
2.圖像不需要除以標(biāo)準(zhǔn)差,因為他們都是像素值络凿,同量綱同尺度(1~255)骡送,所以只減去均值即可昂羡。
PCA的深層次解釋:
協(xié)方差矩陣和主成分分析
m.blog.csdn.net/article/details
淺談協(xié)方差矩陣
pinkyjie.com/2010/08/31/covariance/