1、理解dropout
在機(jī)器學(xué)習(xí)的模型中,如果模型的參數(shù)太多窜骄,而訓(xùn)練樣本又太少(或者相對少),訓(xùn)練出來的模型很容易產(chǎn)生過擬合的現(xiàn)象摆屯。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的時(shí)候經(jīng)常會(huì)遇到過擬合的問題邻遏,過擬合具體表現(xiàn)在:模型在訓(xùn)練數(shù)據(jù)上損失函數(shù)較小,預(yù)測準(zhǔn)確率較高虐骑;但是在測試數(shù)據(jù)上損失函數(shù)比較大准验,預(yù)測準(zhǔn)確率較低。
過擬合是很多機(jī)器學(xué)習(xí)模型的通病廷没。如果模型過擬合糊饱,那么得到的模型幾乎不能用。為了解決過擬合問題颠黎,一般會(huì)采用模型集成的方法另锋,即訓(xùn)練多個(gè)模型進(jìn)行組合。此時(shí)狭归,訓(xùn)練模型費(fèi)時(shí)就成為一個(gè)很大的問題夭坪,不僅訓(xùn)練多個(gè)模型費(fèi)時(shí),測試多個(gè)模型也是很費(fèi)時(shí)过椎。而dropout可以比較有效的緩解過擬合的發(fā)生室梅,在一定程度上達(dá)到正則化的效果。
定義:dropout是指在深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練過程中,對于神經(jīng)網(wǎng)絡(luò)單元亡鼠,按照一定的概率將其暫時(shí)從網(wǎng)絡(luò)中丟棄赏殃。注意是暫時(shí),對于隨機(jī)梯度下降來說拆宛,由于是隨機(jī)丟棄嗓奢,故而每一個(gè)mini-batch都在訓(xùn)練不同的網(wǎng)絡(luò)讼撒。
原因:dropout為何有效這一點(diǎn)眾說紛紜浑厚。具體的細(xì)節(jié)可以參考博客:http://blog.csdn.net/stdcoutzyx/article/details/49022443,這篇寫的挺好的根盒,大家可以深入研究一下钳幅。
2、實(shí)現(xiàn)dropout(使用tensorflow)
tensorflow中的drop-out非常容易實(shí)現(xiàn)炎滞,使用下面的語法:
Wx_plus_b = tf.nn.dropout(Wx_plus_b, keep_prob)
此時(shí)我們需要定義一個(gè)keep_prob的placeholder
keep_prob = tf.placeholder(tf.float32)
當(dāng)然不要忘記在feed_dict里面加入keep_prob
sess.run(train_step,feed_dict={xs:trainx,ys:trainy,keep_prob:0.5})
3敢艰、完整代碼
import tensorflow as tf
from sklearn.preprocessing import LabelBinarizer
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_digits
digits = load_digits()
X = digits.data
Y = digits.target
Y = LabelBinarizer().fit_transform(Y)
print(Y.shape)
trainx,testx,trainy,testy = train_test_split(X,Y,test_size=0.3)
def add_layer(input,input_size,output_size,layer_name,activation_function=None):
Weights = tf.Variable(tf.random_normal([input_size,output_size]))
biases = tf.Variable(tf.zeros([1,output_size])+0,1)
Wx_plus_bias = tf.add(tf.matmul(input,Weights),biases)
Wx_plus_bias = tf.nn.dropout(Wx_plus_bias,keep_prob)
if activation_function == None:
outputs = Wx_plus_bias
else:
outputs = activation_function(Wx_plus_bias)
#這里的output是一個(gè)二維的,所以每一步對應(yīng)一個(gè)線(或者說小的矩形册赛,顏色越深的地方表示這個(gè)地方的數(shù)越多钠导,可以認(rèn)為縱向上表示train到這一步的時(shí)候的一個(gè)數(shù)據(jù)分布
tf.summary.histogram(layer_name+'/outputs',outputs)
return outputs
xs = tf.placeholder(tf.float32,[None,64])
ys = tf.placeholder(tf.float32,[None,10])
keep_prob = tf.placeholder(tf.float32)
l1 = add_layer(xs,64,50,"l1",activation_function=tf.nn.tanh)
prediction = add_layer(l1,50,10,"l2",activation_function=tf.nn.softmax)
cross_entropy = tf.reduce_mean(-tf.reduce_sum(ys * tf.log(prediction),reduction_indices=[1]))
#因?yàn)閏ross_entropy是一個(gè)標(biāo)量,所以定義tf.summary.scalar
tf.summary.scalar("loss",cross_entropy)
train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)
init = tf.global_variables_initializer()
with tf.Session() as sess:
#合并所有的summary
merged = tf.summary.merge_all()
#得到summary的FileWriter
train_writer = tf.summary.FileWriter('logs/train/',sess.graph)
test_writer = tf.summary.FileWriter('logs/test/',sess.graph)
sess.run(init)
for i in range(1000):
sess.run(train_step,feed_dict={xs:trainx,ys:trainy,keep_prob:0.5})
if i % 50 == 0:
#print(sess.run(cross_entropy,feed_dict={xs:trainx,ys:trainy}))
#這里要運(yùn)行merged
train_loss = sess.run(merged,feed_dict = {xs:trainx,ys:trainy,keep_prob:0.5})
test_loss = sess.run(merged,feed_dict={xs:testx,ys:testy,keep_prob:0.5})
#將loss寫入FileWriter中
train_writer.add_summary(train_loss,i)
test_writer.add_summary(test_loss,i)