一文搞懂word embeddding和keras中的embedding

寫這篇文章的初衷：

最近帶一個本科生做畢設(shè)夏醉，畢設(shè)內(nèi)容是用lstm做情感分析琼懊。文章思路其實就是一個文本三分類的問題（正、中肮帐、負）咖驮。

首先：

該文章用到了word embedding，可以使用gensim里面的word2vec工具訓(xùn)練word embedding训枢。訓(xùn)練出來的詞向量是一個固定維度的向量托修。而訓(xùn)練的過程是使用word2vec里面的兩個模型（CBOW或skip-gram）進行訓(xùn)練的。我們可以將這模型的原理是Huffman樹恒界。但是睦刃，今天我找到一個更加通俗、更加易于理解的解釋：

word embedding：http://blog.sina.com.cn/s/blog_1450ac3c60102x79x.html

訓(xùn)練好的詞向量模型被保存下來，該模型的本質(zhì)就是一個m*n的矩陣，m代表訓(xùn)練語料中詞的個數(shù)缀去，n代表訓(xùn)練時我們設(shè)定的詞向量維度旦袋。當(dāng)我們訓(xùn)練好模型后再次調(diào)用時锣杂，就可以從該模型中直接獲取到對應(yīng)詞的詞向量。這種表示方法相比one-hot編碼不知要好了多少倍，原因是one-hot編碼是一個基于統(tǒng)計的編碼方式，不觸及到文本的語義層面搓彻。

其次：

通過上面我們可以拿到每個詞的詞向量，但是我們?nèi)蝿?wù)處理時一般是對句子或文本進行操作（如文本分類嘱朽、情感分析等等）旭贬，那下一步該怎么辦呢？好搪泳，別著急稀轨，看下圖：https://github.com/Babyzpj/NLP/tree/master/SentimentAnalysis-master
通過該圖我們知道，當(dāng)我們拿到一個詞向量后岸军，那么一個句子或一個文本就可以用詞表示成矩陣（假設(shè)一個句子有5個詞奋刽，詞向量維度是64，那么該矩陣就是5*64）,然后可以用CNN或RNN（LSTM）模型將該矩陣編碼成一個一維向量凛膏，并保留大多數(shù)文本信息杨名。然后將該向量作為深度神經(jīng)網(wǎng)絡(luò)分類器的輸入脏榆，即可得到最終的結(jié)果:

image.png

這個過程是一個關(guān)鍵過程猖毫，這里給出兩個參考文獻，以方便理解：
https://yq.aliyun.com/articles/221681
http://blog.sina.com.cn/s/blog_1450ac3c60102x79x.html

最后：

下面給出使用keras將文本向量矩陣進行一維化的例子:

from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Flatten
from keras.layers.embeddings import Embedding

# define documents
docs = ['Well done!',
        'Good work',
        'Great effort',
        'nice work',
        'Excellent!',
        'Weak',
        'Poor effort!',
        'not good',
        'poor work',
        'Could have done better.']

# define class labels
labels = [1,1,1,1,1,0,0,0,0,0]

# integer encode the documents
vocab_size = 50
encoded_docs = [one_hot(d, vocab_size) for d in docs]
print(encoded_docs)

# pad documents to a max length of 4 words
max_length = 4
padded_docs = pad_sequences(encoded_docs, maxlen=max_length, padding='post')
print(padded_docs)

# define the model
model = Sequential()
model.add(Embedding(vocab_size, 8, input_length=max_length))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))

# compile the model
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])

# summarize the model
print(model.summary())

# fit the model
model.fit(padded_docs, labels, epochs=50, verbose=0)

# evaluate the model
loss, accuracy = model.evaluate(padded_docs, labels, verbose=0)
print('Accuracy: %f' % (accuracy*100))

以下為實驗結(jié)果：
[[33, 37], [18, 16], [31, 24], [33, 16], [5], [11], [34, 24], [11, 18], [34, 16], [48, 38, 37, 7]]

[[33 37  0  0]
 [18 16  0  0]
 [31 24  0  0]
 [33 16  0  0]
 [ 5  0  0  0]
 [11  0  0  0]
 [34 24  0  0]
 [11 18  0  0]
 [34 16  0  0]
 [48 38 37  7]]
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
embedding_1 (Embedding)      (None, 4, 8)              400       
_________________________________________________________________
flatten_1 (Flatten)          (None, 32)                0         
_________________________________________________________________
dense_1 (Dense)              (None, 1)                 33        
=================================================================
Total params: 433
Trainable params: 433
Non-trainable params: 0
_________________________________________________________________
None
Accuracy: 89.999998

Process finished with exit code 0

參考：
1须喂、http://blog.sina.com.cn/s/blog_1450ac3c60102x79x.html
2吁断、https://machinelearningmastery.com/use-word-embedding-layers-deep-learning-keras/
3趁蕊、http://keras-cn.readthedocs.io/en/latest/layers/embedding_layer/

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市仔役，隨后出現(xiàn)的幾起案子掷伙，更是在濱河造成了極大的恐慌，老刑警劉巖又兵，帶你破解...
沈念sama閱讀 212,222評論 6贊 493
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件任柜，死亡現(xiàn)場離奇詭異，居然都是意外死亡沛厨，警方通過查閱死者的電腦和手機宙地，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 90,455評論 3贊 385
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來逆皮，“玉大人宅粥，你說我怎么就攤上這事〉缫ィ” “怎么了秽梅？”我有些...
開封第一講書人閱讀 157,720評論 0贊 348
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長剿牺。經(jīng)常有香客問我企垦，道長，這世上最難降的妖魔是什么晒来？我笑而不...
開封第一講書人閱讀 56,568評論 1贊 284
?港島之戀（遺憾婚禮）
正文為了忘掉前任竹观，我火速辦了婚禮，結(jié)果婚禮上潜索，老公的妹妹穿的比我還像新娘臭增。我一直安慰自己，他們只是感情好竹习，可當(dāng)我...
茶點故事閱讀 65,696評論 6贊 386
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布誊抛。她就那樣靜靜地躺著，像睡著了一般整陌。火紅的嫁衣襯著肌膚如雪拗窃。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 49,879評論 1贊 290
城市分裂傳說
那天泌辫，我揣著相機與錄音随夸，去河邊找鬼。笑死震放，一個胖子當(dāng)著我的面吹牛宾毒，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播殿遂，決...
沈念sama閱讀 39,028評論 3贊 409
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼诈铛，長吁一口氣：“原來是場噩夢啊……” “哼乙各！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起幢竹，我...
開封第一講書人閱讀 37,773評論 0贊 268
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤耳峦，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后焕毫，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體蹲坷，經(jīng)...
沈念sama閱讀 44,220評論 1贊 303
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 36,550評論 2贊 327
?白月光啟示錄
正文我和宋清朗相戀三年邑飒，在試婚紗的時候發(fā)現(xiàn)自己被綠了冠句。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 38,697評論 1贊 341
活死人
序言：一個原本活蹦亂跳的男人離奇死亡幸乒，死狀恐怖懦底，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情罕扎，我是刑警寧澤聚唐，帶...
沈念sama閱讀 34,360評論 4贊 332
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站腔召，受9級特大地震影響杆查，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜臀蛛，卻給世界環(huán)境...
茶點故事閱讀 40,002評論 3贊 315
男人毒藥：我在死后第九天來索命
文/蒙蒙一亲桦、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧浊仆，春花似錦客峭、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,782評論 0贊 21
一樁弒父案舔琅，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至洲劣，卻和暖如春备蚓，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背囱稽。一陣腳步聲響...
開封第一講書人閱讀 32,010評論 1贊 266
情欲美人皮
我被黑心中介騙來泰國打工郊尝，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人战惊。一個月前我還...
沈念sama閱讀 46,433評論 2贊 360
代替公主和親
正文我出身青樓流昏，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子横缔，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 43,587評論 2贊 350

一文搞懂word embeddding和keras中的embedding

寫這篇文章的初衷：

首先：

其次：

最后：

推薦閱讀更多精彩內(nèi)容