參考鏈接:
- 標(biāo)準(zhǔn)化和歸一化什么區(qū)別? - 龔焱的回答 - 知乎 https://www.zhihu.com/question/20467170/answer/392949674
- https://www.cnblogs.com/chaosimple/p/4153167.html
在學(xué)習(xí)ML或者查找論文、資料的時(shí)候經(jīng)常能夠看到文章中會(huì)提到“某某需要?dú)w一化/標(biāo)準(zhǔn)化”湖笨,然而卻不提供具體的公式,只好自己去查衍菱,貌似作者也不怎么重視的樣子赶么,好像在說:“就是大家經(jīng)常做的那樣,隨便標(biāo)準(zhǔn)化一下就好了”脊串。****辫呻,講真清钥,這種不明不白似是而非的東西有時(shí)候讓我對(duì)ML有些厭煩,總是在說“你看放闺,我又發(fā)明了一個(gè)算法(其實(shí)不過是個(gè)新名詞)”祟昭、“我也不知道為什么,他就是有用”怖侦、“調(diào)參數(shù)還是換算法篡悟,你自己看著辦”。
說多了匾寝,總之搬葬,歸一化、標(biāo)準(zhǔn)化到底是什么艳悔,到底什么時(shí)候該用急凰,什么時(shí)候不能用,我認(rèn)為這是一個(gè)必須弄清楚的問題猜年,而不是看別人用了就用抡锈。
一查之下,果然這兩個(gè)中文名詞沒有那么簡(jiǎn)單乔外,不但不能代表兩個(gè)特定的算法床三,甚至各種文獻(xiàn)、博客杨幼、源碼中都沒有統(tǒng)一的叫法撇簿,英文更是沒有能夠完全對(duì)應(yīng)的算法。下面的截圖中說這兩個(gè)詞代指了四種算法推汽,其實(shí)還是不太清楚补疑,因?yàn)檫€有一種說法指出“歸一化只是一種標(biāo)準(zhǔn)化的算法”歧沪,那這樣說來標(biāo)準(zhǔn)化這個(gè)詞會(huì)包含十幾種特征縮放的處理方法歹撒。
我強(qiáng)烈建議各位在寫文章的時(shí)候,把文字不能完全指明的算法的公式列出來诊胞。
快速理解暖夭,不一定正確,先記下來:
- Rescaling:將特征映射到(0,1)撵孤,均值不為0迈着,不改變分布。
- Mean normallization:將特征映射到(-1,1)邪码,均值為0裕菠,不改變分布。
- Standardization(z-score):映射到(-1,1)闭专, 經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布奴潘,即均值為0旧烧,標(biāo)準(zhǔn)差為1, σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差画髓。 z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況掘剪,或有超出取值范圍的離群數(shù)據(jù)的情況。該種標(biāo)準(zhǔn)化方式要求原始數(shù)據(jù)的分布可以近似為高斯分布奈虾,否則效果會(huì)變得很糟糕夺谁。
- Scaling to unit length:分母可以為任意p范數(shù)(我認(rèn)為),則肉微, 對(duì)每個(gè)樣本計(jì)算其p-范數(shù)匾鸥,然后對(duì)該樣本中每個(gè)元素除以該范數(shù),這樣處理的結(jié)果是使得每個(gè)處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1碉纳。 該方法主要應(yīng)用于文本分類和聚類中扫腺。例如,對(duì)于兩個(gè)TF-IDF向量的l2-norm進(jìn)行點(diǎn)積村象,就可以得到這兩個(gè)向量的余弦相似性笆环。