keras文本分類:pretrain詞向量+1D卷積神經(jīng)網(wǎng)絡(luò)

基于keras 實現(xiàn)
利用之前訓(xùn)練好的詞向量资溃,基于keras使用1D卷積神經(jīng)網(wǎng)絡(luò)完成文本分類任務(wù)。
python gensim 訓(xùn)練詞向量

準(zhǔn)備工作

1、訓(xùn)練好的詞向量
2拼岳、用于訓(xùn)練的文本(已完成分詞,每篇文章且含有對應(yīng)label)

from __future__ import print_function
import os
import sys
import numpy as np
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.utils import to_categorical
from keras.layers import Dense, Input, Flatten
from keras.layers import Conv1D, MaxPooling1D, Embedding
from keras.models import Model
import gensim
import pandas as pd

MAX_SEQUENCE_LENGTH = 1000 # 每篇文章選取1000個詞
MAX_NB_WORDS = 10000 # 將字典設(shè)置為含有1萬個詞
EMBEDDING_DIM = 300 # 詞向量維度况芒,300維
VALIDATION_SPLIT = 0.2 # 測試集大小惜纸,全部數(shù)據(jù)的20%

step 1 選取詞頻最高的一部分詞

預(yù)訓(xùn)練好的詞向量200萬個詞每個300維,這個腳本的目的是實驗性的將流程跑通绝骚。模型訓(xùn)練過程沒問題后再增加詞的個數(shù)耐版。

# 目的是得到一份字典(embeddings_index)含有1萬個詞,每個詞對應(yīng)屬于自己的300維向量
embeddings_index = {}

print('Indexing word vectors.')
path = '../word2vec_model'
model = gensim.models.Word2Vec.load(path)
word_vectors = model.wv
for word, vocab_obj in model.wv.vocab.items():
    if int(vocab_obj.index) < MAX_NB_WORDS:
        embeddings_index[word] = word_vectors[word]
del model, word_vectors # 刪掉gensim模型釋放內(nèi)存
print('Found %s word vectors.' % len(embeddings_index))

# print out:
# Indexing word vectors.
# Found 10000 word vectors.

step 2 獲取訓(xùn)練文本和對應(yīng)的標(biāo)簽

我的訓(xùn)練數(shù)據(jù)保存成了csv文件压汪,有三列 content, channel_id, name粪牲,其中的name與channel_id是一一對應(yīng)的。content已經(jīng)提前分好詞止剖。

print('Processing text dataset')

texts = []  # list of text samples
labels = []  # list of label ids
labels_index = {}  # label與name的對應(yīng)關(guān)系

# 讀取數(shù)據(jù)
path = '../content.csv'
contents = pd.read_csv(path)
contents = contents.dropna()

# 提取文本內(nèi)容與label
texts = contents['content'].values.tolist()
labels = contents['channel_id'].map(int)
labels = labels.values.tolist()

# 獲得label與name的對應(yīng)關(guān)系
tem_labels_index = contents.groupby(['name', 'channel_id']).size().reset_index()
tem_labels_index = tem_labels_index[['channel_id', 'name']].values.tolist()
for idx, name in tem_labels_index:
    labels_index[name] = idx
del contents, tem_labels_index

print('Found %s texts.' % len(texts))

# print out
# Processing text dataset
# Found 57867 texts.

step 3

文本準(zhǔn)備腺阳,keras相關(guān)函數(shù)在keras 文檔 Text Preprocessing 部分 可以找到

tokenizer = Tokenizer(num_words=MAX_NB_WORDS) # 傳入我們詞向量的字典
tokenizer.fit_on_texts(texts) # 傳入我們的訓(xùn)練數(shù)據(jù)落君,得到訓(xùn)練數(shù)據(jù)中出現(xiàn)的詞的字典
sequences = tokenizer.texts_to_sequences(texts) # 根據(jù)訓(xùn)練數(shù)據(jù)中出現(xiàn)的詞的字典,將訓(xùn)練數(shù)據(jù)轉(zhuǎn)換為sequences

word_index = tokenizer.word_index
print('Found %s unique tokens.' % len(word_index))

data = pad_sequences(sequences, maxlen=MAX_SEQUENCE_LENGTH) # 限制每篇文章的長度

labels = to_categorical(np.asarray(labels)) # label one hot表示
print('Shape of data tensor:', data.shape)
print('Shape of label tensor:', labels.shape)

# print out
# Found 379653 unique tokens.
# Shape of data tensor: (57867, 1000)
# Shape of label tensor: (57867, 26) # 我的文本類別有26類

step 4 準(zhǔn)備訓(xùn)練集與測試集

# 打亂文章順序
indices = np.arange(data.shape[0])
np.random.shuffle(indices)
data = data[indices]
labels = labels[indices]
num_validation_samples = int(VALIDATION_SPLIT * data.shape[0])

# 切割數(shù)據(jù)
x_train = data[:-num_validation_samples]
y_train = labels[:-num_validation_samples]
x_val = data[-num_validation_samples:]
y_val = labels[-num_validation_samples:]

step 5 準(zhǔn)備embedding layer

num_words = min(MAX_NB_WORDS, len(word_index))  # 對比詞向量字典中包含詞的個數(shù)與文本數(shù)據(jù)所有詞的個數(shù)亭引,取小
embedding_matrix = np.zeros((num_words, EMBEDDING_DIM))
for word, i in word_index.items():
    if i >= MAX_NB_WORDS:
        continue
    embedding_vector = embeddings_index.get(word)
    if embedding_vector is not None:
        # 文本數(shù)據(jù)中的詞在詞向量字典中沒有绎速,向量為取0;如果有則取詞向量中該詞的向量
        embedding_matrix[i] = embedding_vector

# 將預(yù)訓(xùn)練好的詞向量加載如embedding layer
# 我們設(shè)置 trainable = False焙蚓,代表詞向量不作為參數(shù)進(jìn)行更新
embedding_layer = Embedding(num_words,
                            EMBEDDING_DIM,
                            weights=[embedding_matrix],
                            input_length=MAX_SEQUENCE_LENGTH,
                            trainable=False)

step 6 訓(xùn)練模型

做了那么多準(zhǔn)備朝氓,我們終于可以訓(xùn)練模型啦!
keras 文檔 pooling 部分
keras 文檔 convolutional 部分

# 訓(xùn)練  1D 卷積神經(jīng)網(wǎng)絡(luò) 使用 Maxpooling1D
sequence_input = Input(shape=(MAX_SEQUENCE_LENGTH,), dtype='int32')
embedded_sequences = embedding_layer(sequence_input)
x = Conv1D(filters=128, kernel_size=5, activation='relu')(embedded_sequences)
x = MaxPooling1D((pool_size=5)(x)
x = Conv1D(filters=128, kernel_size=5, activation='relu')(x)
x = MaxPooling1D((pool_size=5)(x)
x = Conv1D(filters=128, kernel_size=5,, activation='relu')(x)
x = MaxPooling1D((pool_size=35)(x)
x = Flatten()(x)
x = Dense(128, activation='relu')(x)
preds = Dense(len(labels_index), activation='softmax')(x)

model = Model(sequence_input, preds)
model.compile(loss='categorical_crossentropy',
              optimizer='adam',
              metrics=['acc'])

# 如果希望短一些時間可以主届,epochs調(diào)小
model.fit(x_train, y_train,
          batch_size=128,
          epochs=50,
          validation_data=(x_val, y_val))
準(zhǔn)確率變化

總結(jié)

訓(xùn)練集準(zhǔn)確率92.29%左右赵哲,測試集準(zhǔn)確率74.96%左右,說明模型可能過擬合了君丁。沒關(guān)系枫夺,我們已經(jīng)實現(xiàn)了目標(biāo)。整個流程跑通了绘闷。為了提高準(zhǔn)確率橡庞,可以嘗試:
1、增加文章數(shù)量印蔗,這次測試我用的文章不多
2扒最、文章類別均衡些,這次我用的文章類別嚴(yán)重有偏华嘹,某些類別文章特別多
3吧趣、嘗試dropout和Batch normalization控制過擬合
4、嘗試改變網(wǎng)絡(luò)結(jié)構(gòu)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末耙厚,一起剝皮案震驚了整個濱河市强挫,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌薛躬,老刑警劉巖俯渤,帶你破解...
    沈念sama閱讀 206,968評論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異型宝,居然都是意外死亡八匠,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評論 2 382
  • 文/潘曉璐 我一進(jìn)店門趴酣,熙熙樓的掌柜王于貴愁眉苦臉地迎上來梨树,“玉大人,你說我怎么就攤上這事价卤∪坝” “怎么了?”我有些...
    開封第一講書人閱讀 153,220評論 0 344
  • 文/不壞的土叔 我叫張陵慎璧,是天一觀的道長床嫌。 經(jīng)常有香客問我跨释,道長,這世上最難降的妖魔是什么厌处? 我笑而不...
    開封第一講書人閱讀 55,416評論 1 279
  • 正文 為了忘掉前任鳖谈,我火速辦了婚禮,結(jié)果婚禮上阔涉,老公的妹妹穿的比我還像新娘缆娃。我一直安慰自己,他們只是感情好瑰排,可當(dāng)我...
    茶點故事閱讀 64,425評論 5 374
  • 文/花漫 我一把揭開白布贯要。 她就那樣靜靜地躺著,像睡著了一般椭住。 火紅的嫁衣襯著肌膚如雪崇渗。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,144評論 1 285
  • 那天京郑,我揣著相機(jī)與錄音宅广,去河邊找鬼。 笑死些举,一個胖子當(dāng)著我的面吹牛跟狱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播户魏,決...
    沈念sama閱讀 38,432評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼驶臊,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了绪抛?” 一聲冷哼從身側(cè)響起资铡,我...
    開封第一講書人閱讀 37,088評論 0 261
  • 序言:老撾萬榮一對情侶失蹤电禀,失蹤者是張志新(化名)和其女友劉穎幢码,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體尖飞,經(jīng)...
    沈念sama閱讀 43,586評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡症副,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,028評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了政基。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片贞铣。...
    茶點故事閱讀 38,137評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖沮明,靈堂內(nèi)的尸體忽然破棺而出辕坝,到底是詐尸還是另有隱情,我是刑警寧澤荐健,帶...
    沈念sama閱讀 33,783評論 4 324
  • 正文 年R本政府宣布酱畅,位于F島的核電站琳袄,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏纺酸。R本人自食惡果不足惜窖逗,卻給世界環(huán)境...
    茶點故事閱讀 39,343評論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望餐蔬。 院中可真熱鬧碎紊,春花似錦、人聲如沸樊诺。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,333評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽词爬。三九已至痴鳄,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間缸夹,已是汗流浹背痪寻。 一陣腳步聲響...
    開封第一講書人閱讀 31,559評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留虽惭,地道東北人橡类。 一個月前我還...
    沈念sama閱讀 45,595評論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像芽唇,于是被迫代替她去往敵國和親顾画。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 42,901評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 目標(biāo) 從頭開始實踐中文短文本分類匆笤,記錄一下實驗流程與遇到的坑 運用多種機(jī)器學(xué)習(xí)(深度學(xué)習(xí) + 傳統(tǒng)機(jī)器學(xué)習(xí))方法比...
    王岳王院長閱讀 14,186評論 4 59
  • Deep Learning 算法已經(jīng)在圖像和音頻領(lǐng)域取得了驚人的成果研侣,但是在 NLP 領(lǐng)域中尚未見到如此激動人心的...
    MobotStone閱讀 2,951評論 1 12
  • 前面的文章主要從理論的角度介紹了自然語言人機(jī)對話系統(tǒng)所可能涉及到的多個領(lǐng)域的經(jīng)典模型和基礎(chǔ)知識。這篇文章炮捧,甚至之后...
    我偏笑_NSNirvana閱讀 13,868評論 2 64
  • #幸福是需要修出來的~每天進(jìn)步1%~幸福實修08班~015-董超-杭州 201708014(57/99) 【幸福三...
    julie123閱讀 219評論 0 1
  • 無序列表 什么是列表標(biāo)簽 列表標(biāo)簽的作用給一堆數(shù)據(jù)添加列表語義庶诡,也就是告訴搜索引擎告訴瀏覽器這一堆數(shù)據(jù)是一個整體 ...
    GodlinE閱讀 260評論 0 0