在第三篇學(xué)習(xí)筆記中媒吗,我們實現(xiàn)了兩個簡單的模型陨舱,線性回歸和logistic回歸,對于模型結(jié)構(gòu)簡單的網(wǎng)絡(luò)共耍,我們不需要去處理他們的結(jié)構(gòu)關(guān)系虑灰,但是在復(fù)雜的模型中,我們需要更好的安排模型的結(jié)構(gòu)痹兜,這樣方便我們debug和良好的可視化穆咐,接下來,我們就討論一下如何結(jié)構(gòu)化我們的模型字旭。
TensorFlow中結(jié)構(gòu)化模型
一般我們的模型都是由一下的兩步構(gòu)成对湃,第一步是構(gòu)建計算圖,第二步是執(zhí)行計算圖遗淳,下面我們就來依次看看這兩步操作中如何結(jié)構(gòu)化模型拍柒。
構(gòu)建計算圖
在構(gòu)建計算圖中,一般分為下面5個步驟:
定義輸入和輸出的占位符(placeholder)
定義模型中需要用到的權(quán)重
定義推斷模型屈暗,構(gòu)建網(wǎng)絡(luò)
定義損失函數(shù)作為優(yōu)化對象
定義優(yōu)化器進行優(yōu)化
執(zhí)行計算圖
定義好了計算圖之后拆讯,我們就可以構(gòu)建session去進行運算,一般也分為下面5個步驟:
第一次進行運算的時候养叛,初始化模型的所有參數(shù)
傳入訓(xùn)練數(shù)據(jù)往果,可以打亂順序
網(wǎng)絡(luò)前向傳播,計算出當(dāng)前參數(shù)下的網(wǎng)絡(luò)輸出
根據(jù)網(wǎng)絡(luò)輸出和目標(biāo)計算出loss
通過loss方向傳播更新網(wǎng)絡(luò)中的參數(shù)
下面是一個可視化的示意圖
實例介紹
上面是一個基本的一般性描述一铅,下面我們使用詞向量和skip-gram這個具體的例子來介紹一下如何結(jié)構(gòu)化模型陕贮,如果對詞向量不熟悉的同學(xué),可以查看一下我的這篇文章的簡單介紹潘飘,更加詳細的介紹可以閱讀這篇博文或者是cs224n的課件肮之。
詞向量的簡單介紹
詞向量簡單來說就是用一個向量去表示一個詞語,但是這個向量并不是隨機的卜录,因為這樣并沒有任何意義戈擒,所以我們需要對每個詞有一個特定的向量去表示他們,而有一些詞的詞性是相近的艰毒,比如"(love)喜歡"和"(like)愛"筐高,對于這種詞性相近的詞,我們需要他們的向量表示也能夠相近,如何去度量和定義向量之間的相近呢柑土?非常簡單蜀肘,就是使用兩個向量的夾角,夾角越小稽屏,越相近扮宠,這樣就有了一個完備的定義。
雖然我們知道了如何定義詞向量的相似性狐榔,但是我們?nèi)匀徊恢廊绾蔚玫皆~向量坛增,因為這顯然不可能人為去賦值,為了得到詞向量薄腻,需要介紹skip-gram模型收捣。
skip-gram模型的簡單介紹
skip-gram模型簡單來講就是在一大段話中,我們給定其中一個詞語庵楷,希望預(yù)測它周圍的詞語罢艾,將詞向量作為參數(shù),通過這種方式來訓(xùn)練詞向量嫁乘,最后能夠得到滿足要求的詞向量昆婿。而一般來講球碉,skip-gram模型都是比較簡單的線性模型蜓斧。另外cs224n中還介紹了Noise Contrastive Estimation(不知道怎么翻譯)的方法,這里就不再詳細介紹了睁冬,這只是一種負樣本的取樣方法挎春。
TensorFlow實現(xiàn)
下面使用tensorflow的實現(xiàn)來具體講解一下如何結(jié)構(gòu)化模型,首先我們會實現(xiàn)一個非結(jié)構(gòu)化版本豆拨,看看他的局限性和不足性直奋,然后講解一下如何結(jié)構(gòu)化模型。
數(shù)據(jù)集
這里使用的是text8數(shù)據(jù)集施禾,這是一個大約100 MB的清理過的數(shù)據(jù)集脚线,當(dāng)然這個數(shù)據(jù)集非常小并不足以訓(xùn)練詞向量,但是我們可以得到一些有趣的結(jié)果弥搞。
構(gòu)建計算圖
首先定義好一些超參數(shù)邮绿。
VOCAB_SIZE = 50000
BATCH_SIZE = 128
EMBED_SIZE = 128 # dimension of the word embedding vectors
SKIP_WINDOW = 1 # the context window
NUM_SAMPLED = 64 # Number of negative examples to sample.
LEARNING_RATE = 1.0
NUM_TRAIN_STEPS = 20000
SKIP_STEP = 2000 # how many steps to skip before reporting the loss
- 建立輸入和輸出的占位符(placeholder)
首先,我們將數(shù)據(jù)集中的所有語句按順序排在一起攀例,那么我們輸入的是其中一個詞語船逮,比如說是第300個,那么要預(yù)測的就是他周圍的詞粤铭,比如第301個詞挖胃,或者299個詞,當(dāng)然這個范圍并不一定是1,一般來講可以預(yù)測左邊3個詞和右邊3個詞中的任何一個酱鸭,所以輸入和輸出的占位符定義如下吗垮。
center_word = tf.placeholder(tf.int32, [BATCH_SIZE],
name='center_words')
y = tf.placeholder(tf.int32, [BATCH_SIZE, SKIP_WINDOW],
name='target_words')
這里SKIP_WINDOW表示預(yù)測周圍詞的數(shù)目,超參數(shù)里面取值為1凛辣。
- 定義詞向量矩陣
接下來需要定義詞向量抱既,使用下面的代碼。
embed_matrix = tf.get_variable(
"WordEmbedding", [VOCAB_SIZE, EMBED_SIZE],
tf.float32,
initializer=tf.random_uniform_initializer(-1.0, 1.0))
這里相當(dāng)于新建一個Variable扁誓,維數(shù)分別是總的詞數(shù)x詞向量的維度防泵。
- 構(gòu)建網(wǎng)絡(luò)模型
我們可以通過下面的操作取到詞向量矩陣中所需要的每一個詞的詞向量。
embed = tf.nn.embedding_lookup(embed_matrix, center_word, name='embed')
這里embed_matrix和center_word分別表示詞向量矩陣和需要提取詞向量的單詞蝗敢,我們都已經(jīng)定義過了捷泞。
- 定義loss函數(shù)
NCE已經(jīng)被集成進了tensorflow,所以我們可以非常方便地進行使用寿谴,下面就是具體的api锁右。
tf.nn.nce_loss(weights, biases, labels, inputs, num_sampled, num_classes, num_true=1, sampled_values=None, remove_accidental_hits=False, partition_strategy='mod', name='nce_loss')
labels和inputs分別是target和輸入的詞向量,前面有兩個參數(shù)分別時weights和biases讶泰,因為詞向量的維度一般不等于分類的維度咏瑟,需要將詞向量通過一個線性變換映射到分類下的維度。有了這個定義之后痪署,我們就能夠簡單地進行實現(xiàn)了码泞。
nce_weight = tf.get_variable(
'nce_weight', [VOCAB_SIZE, EMBED_SIZE],
initializer=tf.truncated_normal_initializer(
stddev=1.0 / (EMBED_SIZE**0.5)))
nce_bias = tf.get_variable(
'nce_bias', [VOCAB_SIZE], initializer=tf.zeros_initializer())
nce_loss = tf.nn.nce_loss(nce_weight, nce_bias, y, embed,
NUM_SAMPLED,
VOCAB_SIZE)
loss = tf.reduce_mean(nce_loss, 0)
- 定義優(yōu)化函數(shù)
接下來我們就可以定義優(yōu)化函數(shù)了,非常簡單狼犯,我們使用隨機梯度下降法余寥。
optimizer = tf.train.GradientDescentOptimizer(LEARNING_RATE).minimize(loss)
執(zhí)行計算圖
構(gòu)建完成計算圖之后,我們就開始執(zhí)行計算圖了悯森,下面就不分開講了宋舷,直接放上整段session里面的內(nèi)容。
with tf.Session() as sess:
sess.run(tf.global_variables_initializer())
total_loss = 0.0 # we use this to calculate the average loss in the last SKIP_STEP steps0
writer = tf.summary.FileWriter('./graphs/no_frills/', sess.graph)
for index in range(NUM_TRAIN_STEPS):
centers, targets = next(batch_gen)
train_dict = {center_word: centers, y: targets}
_, loss_batch = sess.run([optimizer, loss], feed_dict=train_dict)
total_loss += loss_batch
if (index + 1) % SKIP_STEP == 0:
print('Average loss at step {}: {:5.1f}'.format(
index, total_loss / SKIP_STEP))
total_loss = 0.0
writer.close()
通過閱讀代碼瓢姻,也能看到非常清晰的結(jié)構(gòu)祝蝠,一步一步去運行結(jié)果。
最后放上tensorboard中網(wǎng)絡(luò)結(jié)構(gòu)的示意圖幻碱。
可以發(fā)現(xiàn)整體的網(wǎng)絡(luò)結(jié)構(gòu)是非骋锵粒混亂的,所以我們需要結(jié)構(gòu)化我們的模型收班。
結(jié)構(gòu)化網(wǎng)絡(luò)
結(jié)構(gòu)化網(wǎng)絡(luò)非常簡單坟岔,只需要加入Name Scope,下面是一個簡單的事例摔桦。
with tf.name_scope(name_of_taht_scope):
# declare op_1
# declare op_2
# ...
舉一個例子社付,比如我們定義輸入輸出的占位符的時候承疲,可以如下方式定義
with tf.name_scope('data'):
center_word = tf.placeholder(
tf.int32, [BATCH_SIZE], name='center_words')
y = tf.placeholder(
tf.int32, [BATCH_SIZE, SKIP_WINDOW], name='target_words')
然后我們運行相同的代碼,就能夠在tensorboard里面得到下面的結(jié)果鸥咖。
是不是結(jié)構(gòu)非常的清楚燕鸽,所以我們平時需要結(jié)構(gòu)化我們的模型,以便于更好的可視化和debug啼辣。
詞向量可視化
最后在介紹一下詞向量的可視化啊研,現(xiàn)在tensorboraad也支持詞向量的可視化了,進行一系列復(fù)雜的操作鸥拧,就能夠在tensorboard中得到下面的結(jié)果党远。
輸入每個詞,都能夠在右邊看到與之詞性相近的詞語分別是什么富弦,特別方便沟娱,這個可視化的代碼在這個文件中。
本文的全部代碼都在github
歡迎訪問我的博客
歡迎查看我的知乎專欄腕柜,深度煉丹