規(guī)格化就是將一個(gè)屬性取值范圍投射到一個(gè)特定范圍之內(nèi)蠢护,以消除數(shù)值型屬 性因大小不一而造成挖掘結(jié)果的偏差雅宾。規(guī)劃化處理常常用于神經(jīng)網(wǎng)絡(luò)、基于距離 計(jì)算的最近鄰分類和聚類挖掘的數(shù)據(jù)預(yù)處理葵硕。對(duì)于神經(jīng)網(wǎng)絡(luò)眉抬,采用規(guī)格化后的數(shù) 據(jù)不僅有助于確保學(xué)習(xí)結(jié)果的正確性,而且也會(huì)幫助提高學(xué)習(xí)的速度懈凹。對(duì)于基于 距離計(jì)算的挖掘蜀变,規(guī)格化方法可以幫助消除因?qū)傩匀≈捣秶煌绊懲诰蚪Y(jié)果 的公正性。介紹三種規(guī)格化方法
- <a href="http://www.reibang.com/p/f59c051551e1">最大最小規(guī)格化方法</a>
- <a href="http://www.reibang.com/p/92318a6c3a65">零均值規(guī)格化方法</a>
- <a href="http://www.reibang.com/p/890c36ff8f34">十基數(shù)變換規(guī)格化方法</a>
零均值規(guī)格化方法
- 該方法是根據(jù)屬性 的<b>均值和偏差</b>來(lái)對(duì)進(jìn)行規(guī)格化介评。
屬性 的 值可以通過(guò)以下計(jì)算公式獲得其映射值v'
<b>其中的 和σ 分別為屬性 的 均值 和 方差库北。
這種規(guī)格化方法常用于屬性最大值與最小值未知;或使用最大最小規(guī)格化方法時(shí)會(huì)出現(xiàn)異常數(shù)據(jù)的情況。</b>
- 示例
假設(shè)屬性income的均值與方差分別我餓54,000元和16,000元,使用零均值規(guī)格化方法將73,000元的屬性income值映射為
( 73,000 ? 54,000 ) / 16,000 = 1.225
- 代碼實(shí)現(xiàn)
待續(xù)......