scikit_learn學習筆記八——scikit_learn標準化/歸一化操作

數(shù)據(jù)標準化（Standardization）與歸一化（Normalization）

在機器學習領(lǐng)域中，不同評價指標（即特征向量中的不同特征就是所述的不同評價指標）往往具有不同的量綱和量綱單位何荚，這樣的情況會影響到數(shù)據(jù)分析的結(jié)果煤率，為了消除指標之間的量綱影響，需要進行數(shù)據(jù)標準化處理蜕依，以解決數(shù)據(jù)指標之間的可比性。原始數(shù)據(jù)經(jīng)過數(shù)據(jù)標準化處理后琉雳，各指標處于同一數(shù)量級样眠，適合進行綜合對比評價。

一般涉及到梯度下降和距離的計算需要進行標準化或正則化翠肘。

數(shù)據(jù)的標準化（Standardization）是將數(shù)據(jù)按比例縮放檐束，使之落入一個小的特定區(qū)間。因而標準化的數(shù)據(jù)可正可負束倍。
歸一化（Normalization）其實就是標準化的一種方式被丧，只不過歸一化是將數(shù)據(jù)映射到了[0,1]這個區(qū)間中。

歸一化的目的就是使得預(yù)處理的數(shù)據(jù)被限定在一定的范圍內(nèi)（比如[0,1]或者[-1,1]）绪妹，從而消除奇異樣本數(shù)據(jù)導(dǎo)致的不良影響甥桂。

線性歸一化（min-max normalization）

${x}' = \frac{x-min(x)} {max(x) - min(x)}$

從公式中可看出，這種歸一化適合數(shù)值比較集中的情況邮旷，缺陷就是如果max和min不穩(wěn)定黄选，很容易使得歸一化結(jié)果不穩(wěn)定，使得后續(xù)的效果不穩(wěn)定婶肩。

# 使用scikit-learn函數(shù)
min_max_scaler = preprocessing.MinMaxScaler()
feature_scaled = min_max_scaler.fit_transform(feature)
# 使用numpy自定義函數(shù)
def min_max_norm(x):
    x = np.array(x)
    x_norm = (x-np.min(x))/(np.max(x)-np.min(x))
    return x_norm

標準差標準化 Z-Score Standardization

${x}' = \frac{x- \mu }{\delta }$ , μ為總體平均值办陷，X-μ為離均差，σ表示總體標準偏差

Z-Score即零-均值標準化律歼，即先求出全部數(shù)據(jù)的均值和方差民镜，再進行計算。數(shù)據(jù)符合標準正態(tài)分布苗膝，均值為0殃恒，標準差為1。

sklearn.preprocessing.scale(X, axis=0, with_mean=True,with_std=True,copy=True)
"""
參數(shù)解釋：
X：數(shù)組或者矩陣
axis：int類型辱揭，初始值為0离唐，axis用來計算均值 means 和標準方差 standard deviations. 如果是0，則單獨的標準化每個特征（列）问窃，如果是1亥鬓，則標準化每個觀測樣本（行）。
with_mean: boolean類型域庇，默認為True嵌戈，表示將數(shù)據(jù)均值規(guī)范到0
with_std: boolean類型覆积，默認為True，表示將數(shù)據(jù)方差規(guī)范到1
"""

StandardScaler.png

# 使用scikit-learn函數(shù)
standar_scaler = preprocessing.StandardScaler()
feature_scaled = standar_scaler.fit_transform(feature)
# 使用numpy自定義函數(shù)
def min_max_norm(x):
    x = np.array(x)
    x_norm = (x-np.mean(x))/np.std(x)
    return x_norm

非線性歸一化

在數(shù)據(jù)分化較大的場景熟呛，有些數(shù)值大宽档，有些很小。通過一些數(shù)學函數(shù)庵朝，將原始值進行映射吗冤。該方法包括log、指數(shù)九府、反正切等椎瘟。需要根據(jù)數(shù)據(jù)分布的情況，決定非線性函數(shù)的曲線侄旬。

log函數(shù)： $x = lg(x)/lg(max)$

反正切函數(shù)： $x = atan(x)*2/pi$

歸一化處理的好處

加快梯度下降的求解速度肺蔚，即提升模型的收斂速度

image.png

如上圖所示，兩個特征區(qū)間相差非常大時儡羔，如左圖中的x1[0-2000]和x2[1-5]宣羊，形成的等高線偏橢圓，迭代時很有可能走“之字型”路線（垂直長軸）笔链，從而導(dǎo)致需要迭代很多次才能收斂段只。
而右圖對兩個特征進行了歸一化，對應(yīng)的等高線就會變圓鉴扫，在梯度下降進行求解時能較快的收斂。
有可能提高模型的精度
一些分類器需要計算樣本之間的距離澈缺，如果一個特征的值域范圍非常大坪创，那么距離計算就會主要取決于這個特征，有時就會偏離實際情況姐赡。

正則化（Regularization）

用一組與原不適定問題相“鄰近”的適定問題的解莱预，去逼近原問題的解，這種方法稱為正則化方法项滑。

正則化的過程是將每個樣本縮放到單位范數(shù)（每個樣本的范數(shù)為1）依沮，如果后面要使用如二次型（點積）或者其它核方法計算兩個樣本之間的相似性這個方法會很有用。

image.png

【總結(jié)】
歸一化是為了消除不同數(shù)據(jù)之間的量綱枪狂，方便數(shù)據(jù)比較和共同處理危喉，比如在神經(jīng)網(wǎng)絡(luò)中，歸一化可以加快訓(xùn)練網(wǎng)絡(luò)的收斂性州疾；標準化是為了方便數(shù)據(jù)的下一步處理辜限，而進行的數(shù)據(jù)縮放等變換，并不是為了方便與其他數(shù)據(jù)一同處理或比較严蓖，比如數(shù)據(jù)經(jīng)過零-均值標準化后薄嫡，更利于使用標準正態(tài)分布的性質(zhì)氧急，進行處理；正則化而是利用先驗知識毫深，在處理過程中引入正則化因子(regulator)吩坝，增加引導(dǎo)約束的作用，比如在邏輯回歸中使用正則化哑蔫，可有效降低過擬合的現(xiàn)象钉寝。

最后編輯于：2018.08.31 12:53:15

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市鸳址，隨后出現(xiàn)的幾起案子瘩蚪，更是在濱河造成了極大的恐慌，老刑警劉巖稿黍，帶你破解...
沈念sama閱讀 216,651評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件疹瘦，死亡現(xiàn)場離奇詭異，居然都是意外死亡巡球，警方通過查閱死者的電腦和手機言沐，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,468評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來酣栈，“玉大人险胰，你說我怎么就攤上這事】篌荩” “怎么了起便？”我有些...
開封第一講書人閱讀 162,931評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長窖维。經(jīng)常有香客問我榆综，道長，這世上最難降的妖魔是什么铸史？我笑而不...
開封第一講書人閱讀 58,218評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任鼻疮，我火速辦了婚禮，結(jié)果婚禮上琳轿，老公的妹妹穿的比我還像新娘判沟。我一直安慰自己，他們只是感情好崭篡，可當我...
茶點故事閱讀 67,234評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布挪哄。她就那樣靜靜地躺著，像睡著了一般媚送。火紅的嫁衣襯著肌膚如雪中燥。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 51,198評論 1贊 299
城市分裂傳說
那天塘偎，我揣著相機與錄音疗涉，去河邊找鬼拿霉。笑死，一個胖子當著我的面吹牛咱扣，可吹牛的內(nèi)容都是我干的绽淘。我是一名探鬼主播，決...
沈念sama閱讀 40,084評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼闹伪，長吁一口氣：“原來是場噩夢啊……” “哼沪铭！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起偏瓤，我...
開封第一講書人閱讀 38,926評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤杀怠，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后厅克，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體赔退，經(jīng)...
沈念sama閱讀 45,341評論 1贊 311
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,563評論 2贊 333
?白月光啟示錄
正文我和宋清朗相戀三年证舟，在試婚紗的時候發(fā)現(xiàn)自己被綠了硕旗。大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 39,731評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡女责，死狀恐怖漆枚，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情抵知，我是刑警寧澤墙基，帶...
沈念sama閱讀 35,430評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站刷喜，受9級特大地震影響碘橘，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜吱肌，卻給世界環(huán)境...
茶點故事閱讀 41,036評論 3贊 326
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望仰禽。院中可真熱鬧氮墨，春花似錦、人聲如沸吐葵。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,676評論 0贊 22
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽温峭。三九已至猛铅，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間凤藏，已是汗流浹背奸忽。一陣腳步聲響...
開封第一講書人閱讀 32,829評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工堕伪，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人栗菜。一個月前我還...
沈念sama閱讀 47,743評論 2贊 368
代替公主和親
正文我出身青樓欠雌，卻偏偏與公主長得像，于是被迫代替她去往敵國和親疙筹。傳聞我的和親對象是個殘疾皇子富俄，可洞房花燭夜當晚...
茶點故事閱讀 44,629評論 2贊 354