Autoencoder 的基本概念
之前的文章介紹過(guò)機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)和非監(jiān)督學(xué)習(xí),其中非監(jiān)督學(xué)習(xí)簡(jiǎn)單來(lái)說(shuō)就是學(xué)習(xí)人類沒(méi)有標(biāo)記過(guò)的數(shù)據(jù)优训。對(duì)于沒(méi)有標(biāo)記的數(shù)據(jù)最常見(jiàn)的應(yīng)用就是通過(guò)聚類(Clustering)的方式將數(shù)據(jù)進(jìn)行分類朵你。對(duì)于這些數(shù)據(jù)來(lái)說(shuō)通常有非常多的維度或者說(shuō)Features。如何降低這些數(shù)據(jù)的維度或者說(shuō)“壓縮”數(shù)據(jù)揣非,從而減輕模型學(xué)習(xí)的負(fù)擔(dān)抡医,我們就要用到Autoencoder了。
用Autoencoder 給數(shù)據(jù)“壓縮”和降維不僅能夠給機(jī)器“減壓”早敬,同時(shí)也有利于數(shù)據(jù)的可視化(人類只能看懂三維的數(shù)據(jù))忌傻。
Autoencoder 實(shí)際上跟普通的神經(jīng)網(wǎng)絡(luò)沒(méi)有什么本質(zhì)的區(qū)別毛仪,分為輸入層,隱藏層和輸出層芯勘。唯一比較特殊的是箱靴,輸入層的輸入feature的數(shù)量(也就是神經(jīng)元的數(shù)量)要等于輸出層。同時(shí)要保證輸入和輸出相等荷愕。
結(jié)構(gòu)大概就是如圖所示
因?yàn)檩敵鲆扔谳斎牒饣常灾虚g的每一層都最大程度地保留了原有的數(shù)據(jù)信息,但是由于神經(jīng)元個(gè)數(shù)發(fā)生了變化安疗,數(shù)據(jù)的維度也就發(fā)生了變化抛杨。比如上圖的中間層(第三層)只有兩個(gè)神經(jīng)元,那么這一層輸出的結(jié)果實(shí)際上就是二維的數(shù)據(jù)結(jié)構(gòu)荐类。我們就可以用這一層的輸出結(jié)果進(jìn)行無(wú)監(jiān)督學(xué)習(xí)分類怖现,或者做視覺(jué)化的展示。
簡(jiǎn)化的Autoencoder
對(duì)于Autoencoder從輸入層到最中間層的數(shù)據(jù)處理過(guò)程叫做數(shù)據(jù)編碼(Encode)過(guò)程玉罐,從中間層到輸出層則為解碼(Decode)過(guò)程屈嗤,最后保證輸出等于輸入。
Autoencoder的隱藏層可以是多層也可以是單層吊输,這里我用一個(gè)只有一層隱藏層的Autoencoder的實(shí)例來(lái)介紹Autoencoder.
Autoencoder實(shí)例代碼
1饶号、導(dǎo)入需要用到的庫(kù)
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
2、創(chuàng)建一個(gè)三維的數(shù)據(jù)
這里用sklearn 的一個(gè)make_blobs的工具創(chuàng)造有兩個(gè)聚集點(diǎn)的三維數(shù)據(jù)
from sklearn.datasets import make_blobs
data = make_blobs(n_samples=100, n_features=3,centers=2,random_state=101)
數(shù)據(jù)長(zhǎng)這個(gè)樣子
注意data[0]是100x3的數(shù)據(jù)(100個(gè)點(diǎn)季蚂,3個(gè)features(維度))
3. 搭建神經(jīng)網(wǎng)絡(luò)
下面用Tensorflow Layers來(lái)搭一個(gè)三層的全連接的神經(jīng)網(wǎng)路茫船,輸入層,隱藏層和輸出層的神經(jīng)元個(gè)數(shù)分別是3扭屁,2算谈,3。
import tensorflow as tf
from tensorflow.contrib.layers import fully_connected
num_inputs = 3 # 3 dimensional input
num_hidden = 2 # 2 dimensional representation
num_outputs = num_inputs # Must be true for an autoencoder!
learning_rate = 0.01
Placeholder,Layers,Loss Function 和 Optimizer
#Placeholder
X = tf.placeholder(tf.float32, shape=[None, num_inputs])
#Layers
hidden = fully_connected(X, num_hidden, activation_fn=None)
outputs = fully_connected(hidden, num_outputs, activation_fn=None)
#Loss Function
loss = tf.reduce_mean(tf.square(outputs - X)) # MSE
#Optimizer
optimizer = tf.train.AdamOptimizer(learning_rate)
train = optimizer.minimize( loss)
#Init
init = tf.global_variables_initializer()
4. 訓(xùn)練神經(jīng)網(wǎng)絡(luò)
num_steps = 1000
with tf.Session() as sess:
sess.run(init)
for iteration in range(num_steps):
sess.run(train,feed_dict={X: scaled_data})
# Now ask for the hidden layer output (the 2 dimensional output)
output_2d = hidden.eval(feed_dict={X: scaled_data})
注意:output_2d就是中間層輸出的結(jié)果料滥,這是一個(gè)二維(100x2)的數(shù)據(jù)然眼。
這個(gè)數(shù)據(jù)長(zhǎng)這個(gè)樣子
4.總結(jié)
從上面的例子可以看到,Autoencoder 不是簡(jiǎn)單地去掉一個(gè)維度幔欧,而是通過(guò)編碼的過(guò)程將數(shù)據(jù)“壓縮”到二維罪治。這些數(shù)據(jù)通過(guò)解碼過(guò)程可以再次在輸出層輸出三維的數(shù)據(jù),并且保留了元數(shù)據(jù)的兩個(gè)積聚點(diǎn)礁蔗。
上面只是一個(gè)非常簡(jiǎn)單的將三維數(shù)據(jù)通過(guò)Autoencoder降到二維空間觉义,當(dāng)數(shù)據(jù)的feature 太多的時(shí)候,通過(guò)Autoencoder 就可以在最大限度保留原數(shù)據(jù)的信息并降低源數(shù)據(jù)的維度浴井。
————
相關(guān)文章
AI學(xué)習(xí)筆記——循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的基本概念
AI學(xué)習(xí)筆記——神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)
AI學(xué)習(xí)筆記——卷積神經(jīng)網(wǎng)絡(luò)1(CNN)
————
首發(fā)steemit
歡迎掃描二維碼關(guān)注我的微信公眾號(hào)“tensorflow機(jī)器學(xué)習(xí)”晒骇,一起學(xué)習(xí),共同進(jìn)步