我對(duì)于特征縮放中的歸一化、標(biāo)準(zhǔn)化的一點(diǎn)理解

參考鏈接:

在學(xué)習(xí)ML或者查找論文、資料的時(shí)候經(jīng)常能夠看到文章中會(huì)提到“某某需要?dú)w一化/標(biāo)準(zhǔn)化”湖笨,然而卻不提供具體的公式,只好自己去查衍菱,貌似作者也不怎么重視的樣子赶么,好像在說:“就是大家經(jīng)常做的那樣,隨便標(biāo)準(zhǔn)化一下就好了”脊串。****辫呻,講真清钥,這種不明不白似是而非的東西有時(shí)候讓我對(duì)ML有些厭煩,總是在說“你看放闺,我又發(fā)明了一個(gè)算法(其實(shí)不過是個(gè)新名詞)”祟昭、“我也不知道為什么,他就是有用”怖侦、“調(diào)參數(shù)還是換算法篡悟,你自己看著辦”。

說多了匾寝,總之搬葬,歸一化、標(biāo)準(zhǔn)化到底是什么艳悔,到底什么時(shí)候該用急凰,什么時(shí)候不能用,我認(rèn)為這是一個(gè)必須弄清楚的問題猜年,而不是看別人用了就用抡锈。

一查之下,果然這兩個(gè)中文名詞沒有那么簡(jiǎn)單乔外,不但不能代表兩個(gè)特定的算法床三,甚至各種文獻(xiàn)、博客杨幼、源碼中都沒有統(tǒng)一的叫法撇簿,英文更是沒有能夠完全對(duì)應(yīng)的算法。下面的截圖中說這兩個(gè)詞代指了四種算法推汽,其實(shí)還是不太清楚补疑,因?yàn)檫€有一種說法指出“歸一化只是一種標(biāo)準(zhǔn)化的算法”歧沪,那這樣說來標(biāo)準(zhǔn)化這個(gè)詞會(huì)包含十幾種特征縮放的處理方法歹撒。

我強(qiáng)烈建議各位在寫文章的時(shí)候,把文字不能完全指明的算法的公式列出來诊胞。

image.png

快速理解暖夭,不一定正確,先記下來:

  • Rescaling:將特征映射到(0,1)撵孤,均值不為0迈着,不改變分布。
  • Mean normallization:將特征映射到(-1,1)邪码,均值為0裕菠,不改變分布。
  • Standardization(z-score):映射到(-1,1)闭专, 經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布奴潘,即均值為0旧烧,標(biāo)準(zhǔn)差為1, σ為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差画髓。 z-score標(biāo)準(zhǔn)化方法適用于屬性A的最大值和最小值未知的情況掘剪,或有超出取值范圍的離群數(shù)據(jù)的情況。該種標(biāo)準(zhǔn)化方式要求原始數(shù)據(jù)的分布可以近似為高斯分布奈虾,否則效果會(huì)變得很糟糕夺谁。
  • Scaling to unit length:分母可以為任意p范數(shù)(我認(rèn)為),則肉微, 對(duì)每個(gè)樣本計(jì)算其p-范數(shù)匾鸥,然后對(duì)該樣本中每個(gè)元素除以該范數(shù),這樣處理的結(jié)果是使得每個(gè)處理后樣本的p-范數(shù)(l1-norm,l2-norm)等于1碉纳。 該方法主要應(yīng)用于文本分類和聚類中扫腺。例如,對(duì)于兩個(gè)TF-IDF向量的l2-norm進(jìn)行點(diǎn)積村象,就可以得到這兩個(gè)向量的余弦相似性笆环。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市厚者,隨后出現(xiàn)的幾起案子躁劣,更是在濱河造成了極大的恐慌,老刑警劉巖库菲,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件账忘,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡熙宇,警方通過查閱死者的電腦和手機(jī)鳖擒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來烫止,“玉大人蒋荚,你說我怎么就攤上這事」萑洌” “怎么了期升?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)互躬。 經(jīng)常有香客問我播赁,道長(zhǎng),這世上最難降的妖魔是什么吼渡? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任容为,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘坎背。我一直安慰自己竭缝,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布沼瘫。 她就那樣靜靜地躺著抬纸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪耿戚。 梳的紋絲不亂的頭發(fā)上湿故,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音膜蛔,去河邊找鬼坛猪。 笑死,一個(gè)胖子當(dāng)著我的面吹牛皂股,可吹牛的內(nèi)容都是我干的墅茉。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼呜呐,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼就斤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蘑辑,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤洋机,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后洋魂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绷旗,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年副砍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了衔肢。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡豁翎,死狀恐怖角骤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情谨垃,我是刑警寧澤启搂,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布,位于F島的核電站刘陶,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏牢撼。R本人自食惡果不足惜匙隔,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望熏版。 院中可真熱鬧纷责,春花似錦捍掺、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至喂柒,卻和暖如春不瓶,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背灾杰。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工蚊丐, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人艳吠。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓麦备,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親昭娩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子凛篙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 一鞋诗、概念 歸一化(Normlization)數(shù)據(jù)歸一化就是將訓(xùn)練集中某一列數(shù)值特征的值縮放到0和1之間。1迈嘹、把數(shù)變...
    井底蛙蛙呱呱呱閱讀 2,069評(píng)論 0 4
  • 會(huì)玩閱讀 181評(píng)論 0 0
  • 2008年8月18日削彬,農(nóng)歷七月七,俗稱“七夕節(jié)”秀仲。此節(jié)源于我國(guó)牛郎織女的傳說融痛。節(jié)日夜晚,人們會(huì)抬頭觀看天上的...
    輕舞飛揚(yáng)CY閱讀 417評(píng)論 0 2
  • 1. 昨天又偷懶一天神僵,這樣似乎很不好雁刷,但是一想到下個(gè)月各種考試,各種競(jìng)賽的來臨保礼,我不免驚得瑟瑟發(fā)抖沛励。你們可知道大學(xué)...
    不愛說話的痞子閱讀 371評(píng)論 2 0
  • 夏天,火辣辣的 看著曬傷的臉 玫瑰炮障,哭了 夏天目派,忽晴忽雨 摸著淋濕的心 玫瑰,哭了 迷惘的玫瑰 翻開落滿塵埃的情書...
    開心點(diǎn)金石閱讀 679評(píng)論 9 22