Training NN -2- Data Preprocessing

關鍵詞:zero-centered哀墓、normalization、PCA雄嚣、白化

3個常用的符號:數(shù)據(jù)矩陣X,假設其尺寸是[N x D]N是數(shù)據(jù)樣本的數(shù)量喘蟆,D是數(shù)據(jù)的維度)缓升。


均值減法(Mean subtraction

預處理最常用的形式。它對數(shù)據(jù)中每個獨立特征減去平均值蕴轨,從幾何上可以理解為在每個維度上都將數(shù)據(jù)云的中心都遷移到原點港谊。在numpy中,該操作可以通過代碼X - = np.mean(X, axis=0)實現(xiàn)橙弱。而對于圖像歧寺,更常用的是對所有像素都減去一個值燥狰,可以用X - = np.mean(X)實現(xiàn),也可以在3個顏色通道上分別操作斜筐。

歸一化(Normalization

指將數(shù)據(jù)的所有維度都歸一化龙致,使其數(shù)值范圍都近似相等。有兩種常用方法可以實現(xiàn)歸一化顷链。

第一種是先對數(shù)據(jù)做零中心化(zero-centered)處理目代,然后每個維度都除以其標準差。它的實現(xiàn)代碼為X /= np.std(X, axis=0)蕴潦。

第二種方法是對每個維度都做歸一化像啼,使得每個維度的最大和最小值是1和-1。這個預處理操作只有在確信不同的輸入特征有不同的數(shù)值范圍(或計量單位)時才有意義潭苞,但要注意預處理操作的重要性幾乎等同于學習算法本身忽冻。在圖像處理中,由于像素的數(shù)值范圍幾乎是一致的(都在0-255之間)此疹,所以進行這個額外的預處理步驟并不是很必要僧诚。

Preprocess the data

注:上圖中紅色的線指出了數(shù)據(jù)各維度的數(shù)值范圍,在中間的圖中不同列數(shù)據(jù)的數(shù)值范圍不同蝗碎,但在右邊歸一化數(shù)據(jù)中數(shù)值范圍相同湖笨。


實踐操作

對圖片數(shù)據(jù)常進行的預處理操作:零中心化操作、對每個像素進行歸一化蹦骑。

常見錯誤慈省。進行預處理很重要的一點是:任何預處理策略(比如數(shù)據(jù)均值)都只能在訓練集數(shù)據(jù)上進行計算,算法訓練完畢后再應用到驗證集或者測試集上眠菇。例如边败,如果先計算整個數(shù)據(jù)集圖像的平均值然后每張圖片都減去平均值,最后將整個數(shù)據(jù)集分成訓練/驗證/測試集捎废,那么這個做法是錯誤的笑窜。應該怎么做呢?應該先分成訓練/驗證/測試集登疗,只是從訓練集中求圖片平均值排截,然后各個集(訓練/驗證/測試集)中的圖像再減去這個平均值。

譯者注:此處確為初學者常見錯誤辐益,請務必注意断傲!

實踐操作

PCA and Whitening

實際上在對圖片處理時中并不會采用PCA或者白化的變換。這里只是為了解釋的完整性

PCA和白化(Whitening是另一種預處理形式智政。在這種處理中艳悔,先對數(shù)據(jù)進行zero-centered處理,然后計算協(xié)方差矩陣女仰,它展示了數(shù)據(jù)中的相關性結構猜年。

通常使用PCA降維過的數(shù)據(jù)訓練線性分類器和神經(jīng)網(wǎng)絡會達到非常好的性能效果抡锈,同時還能節(jié)省時間和存儲器空間。

白化(whitening

白化操作的輸入是特征基準上的數(shù)據(jù)乔外,然后對每個維度除以其特征值來對數(shù)值范圍進行歸一化床三。

該變換的幾何解釋是:如果數(shù)據(jù)服從多變量的高斯分布,那么經(jīng)過白化后杨幼,數(shù)據(jù)的分布將會是一個均值為零撇簿,且協(xié)方差相等的矩陣。該操作的代碼如下:

# 對數(shù)據(jù)進行白化操作:# 除以特征值 Xwhite=Xrot/np.sqrt(S+1e-5)

警告:夸大的噪聲差购。注意分母中添加了1e-5(或一個更小的常量)來防止分母為0四瘫。該變換的一個缺陷是在變換的過程中可能會夸大數(shù)據(jù)中的噪聲,這是因為它將所有維度都拉伸到相同的數(shù)值范圍欲逃,這些維度中也包含了那些只有極少差異性(方差小)而大多是噪聲的維度找蜜。在實際操作中,這個問題可以用更強的平滑來解決(例如:采用比1e-5更大的值)稳析。

詳細內(nèi)容:http://blog.csdn.net/llp1992/article/details/45640527

PCA和白化

注:左邊是二維的原始數(shù)據(jù)洗做。

中間:經(jīng)過PCA操作的數(shù)據(jù)≌镁樱可以看出數(shù)據(jù)首先是zero-centered的诚纸,然后變換到了數(shù)據(jù)協(xié)方差矩陣的基準軸上。這樣就對數(shù)據(jù)進行了解相關(協(xié)方差矩陣變成對角陣)陈惰。

右邊:每個維度都被特征值調(diào)整數(shù)值范圍畦徘,將數(shù)據(jù)協(xié)方差矩陣變?yōu)閱挝痪仃嚒膸缀紊峡刺Т常褪菍?shù)據(jù)在各個方向上拉伸壓縮井辆,使之變成服從高斯分布的一個數(shù)據(jù)點分布。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末画髓,一起剝皮案震驚了整個濱河市掘剪,隨后出現(xiàn)的幾起案子平委,更是在濱河造成了極大的恐慌奈虾,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,183評論 6 516
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件廉赔,死亡現(xiàn)場離奇詭異肉微,居然都是意外死亡,警方通過查閱死者的電腦和手機蜡塌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,850評論 3 399
  • 文/潘曉璐 我一進店門碉纳,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人馏艾,你說我怎么就攤上這事劳曹∨洌” “怎么了?”我有些...
    開封第一講書人閱讀 168,766評論 0 361
  • 文/不壞的土叔 我叫張陵铁孵,是天一觀的道長锭硼。 經(jīng)常有香客問我,道長蜕劝,這世上最難降的妖魔是什么檀头? 我笑而不...
    開封第一講書人閱讀 59,854評論 1 299
  • 正文 為了忘掉前任,我火速辦了婚禮岖沛,結果婚禮上暑始,老公的妹妹穿的比我還像新娘。我一直安慰自己婴削,他們只是感情好廊镜,可當我...
    茶點故事閱讀 68,871評論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著馆蠕,像睡著了一般期升。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上互躬,一...
    開封第一講書人閱讀 52,457評論 1 311
  • 那天播赁,我揣著相機與錄音,去河邊找鬼吼渡。 笑死容为,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的寺酪。 我是一名探鬼主播坎背,決...
    沈念sama閱讀 40,999評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼寄雀!你這毒婦竟也來了得滤?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 39,914評論 0 277
  • 序言:老撾萬榮一對情侶失蹤盒犹,失蹤者是張志新(化名)和其女友劉穎懂更,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體急膀,經(jīng)...
    沈念sama閱讀 46,465評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡沮协,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,543評論 3 342
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了卓嫂。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片慷暂。...
    茶點故事閱讀 40,675評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖晨雳,靈堂內(nèi)的尸體忽然破棺而出行瑞,到底是詐尸還是另有隱情奸腺,我是刑警寧澤,帶...
    沈念sama閱讀 36,354評論 5 351
  • 正文 年R本政府宣布血久,位于F島的核電站洋机,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏洋魂。R本人自食惡果不足惜绷旗,卻給世界環(huán)境...
    茶點故事閱讀 42,029評論 3 335
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望副砍。 院中可真熱鬧衔肢,春花似錦、人聲如沸豁翎。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,514評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽心剥。三九已至邦尊,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間优烧,已是汗流浹背蝉揍。 一陣腳步聲響...
    開封第一講書人閱讀 33,616評論 1 274
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留畦娄,地道東北人又沾。 一個月前我還...
    沈念sama閱讀 49,091評論 3 378
  • 正文 我出身青樓,卻偏偏與公主長得像熙卡,于是被迫代替她去往敵國和親杖刷。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,685評論 2 360

推薦閱讀更多精彩內(nèi)容