引言
在運(yùn)用一些機(jī)器學(xué)習(xí)算法的時(shí)候不可避免地要對(duì)數(shù)據(jù)進(jìn)行特征縮放(feature scaling)铺厨,比如:在隨機(jī)梯度下降(stochastic gradient descent)算法中刑峡,特征縮放有時(shí)能提高算法的收斂速度全蝶。下面我會(huì)主要介紹一些特征縮放的方法锌妻。
什么是特征縮放
特征縮放是用來(lái)標(biāo)準(zhǔn)化數(shù)據(jù)特征的范圍。
機(jī)器算法為什么要特征縮放
特征縮放還可以使機(jī)器學(xué)習(xí)算法工作的更好双霍。比如在K近鄰算法中嘿架,分類器主要是計(jì)算兩點(diǎn)之間的歐幾里得距離涩赢,如果一個(gè)特征比其它的特征有更大的范圍值,那么距離將會(huì)被這個(gè)特征值所主導(dǎo)馆里。因此每個(gè)特征應(yīng)該被歸一化隘世,比如將取值范圍處理為0到1之間。
就如我在引言所說(shuō)鸠踪,特征縮放也可以加快梯度收斂的速度丙者。
特征縮放的一些方法
調(diào)節(jié)比例(Rescaling)
這種方法是將數(shù)據(jù)的特征縮放到[0,1]或[-1,1]之間∮埽縮放到什么范圍取決于數(shù)據(jù)的性質(zhì)械媒。對(duì)于這種方法的公式如下:
調(diào)節(jié)比例(Rescaling)
標(biāo)準(zhǔn)化(Standardization)
特征標(biāo)準(zhǔn)化使每個(gè)特征的值有零均值(zero-mean)和單位方差(unit-variance)。這個(gè)方法在機(jī)器學(xué)習(xí)地算法中被廣泛地使用评汰。例如:SVM纷捞,邏輯回歸和神經(jīng)網(wǎng)絡(luò)。這個(gè)方法的公式如下:
標(biāo)準(zhǔn)化(Standardization)
- 其中delta為x的標(biāo)準(zhǔn)差