筆記:簡答的深度學(xué)習(xí)應(yīng)用于電影評論(IMDB)預(yù)測

關(guān)于IMDB

IMDB是一個Keras內(nèi)置的電影評論數(shù)據(jù)集缘挑。分為評論和評價兩部分蒜撮。評價簡單的分為正面(1)和負面(0)襟士。

from keras.datasets import imdb

(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)
print('train_data shape:{}, test_data shape:{}'.format(train_data.shape, test_data.shape))
print(train_data[0])

訓(xùn)練集和測試集各有25000條評論,評論以數(shù)字集合表示烈拒,每個數(shù)字有其代表的單詞圆裕,類似詞典。

[1, 14, 22, 16, 43, 530, 973, 1622...]

對IMDB的數(shù)據(jù)做解碼荆几,轉(zhuǎn)換為人可以閱讀的形式:

word_index = imdb.get_word_index()
re_word_index = dict([(value, key) for (key, value) in word_index.items()])
decode_review = ' '.join(re_word_index.get(i-3, '?') for i in train_data[0])
print(decode_review)

解碼后的結(jié)果:

"this film was just brilliant casting location scenery story direction everyone's really suited the part they played and you could just imagine being there robert..."

原始數(shù)據(jù)向量化

由于原始數(shù)據(jù)是列表格式吓妆,無法直接導(dǎo)入Keras模型中,需要先把數(shù)據(jù)向量化

import numpy as np
def process_data(sequences, dim): # data vectorize
    ret = np.zeros((len(sequences), dim)) # dim will be sat as 10000
    for i, it in enumerate(sequences):
        ret[i, it] = 1
    return ret

train_data = process_data(train_data, 10000)
test_data = process_data(test_data, 10000)

構(gòu)建網(wǎng)絡(luò)吨铸;

2層16個輸出的密集層網(wǎng)絡(luò)+1層1個輸出的密集層網(wǎng)絡(luò)行拢,最后輸出0~1之間的概率

from keras import models
from keras import layers
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000, )))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

編譯模型

from keras import optimizers
from keras import losses
from keras import metrics
model.compile(optimizer=optimizers.RMSprop(lr=0.001),
              loss=losses.binary_crossentropy,
              metrics=[metrics.binary_accuracy])

訓(xùn)練模型&測試;

因為事先做過測試诞吱,在訓(xùn)練4輪后開始過擬合舟奠,所以epochs直接設(shè)置為4

model.fit(train_data, train_labels, batch_size=512, epochs=4)
result = model.evaluate(test_data, test_labels)
print(result)
IMDB01.PNG

在沒有GPU的ThinkPad筆記本上,訓(xùn)練時長不到1分鐘狐胎;準確度達到了88%鸭栖。下一步研究用RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))對相同數(shù)據(jù)集進行訓(xùn)練。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末握巢,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子松却,更是在濱河造成了極大的恐慌暴浦,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,194評論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件晓锻,死亡現(xiàn)場離奇詭異歌焦,居然都是意外死亡,警方通過查閱死者的電腦和手機砚哆,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評論 2 385
  • 文/潘曉璐 我一進店門独撇,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事纷铣÷咽罚” “怎么了?”我有些...
    開封第一講書人閱讀 156,780評論 0 346
  • 文/不壞的土叔 我叫張陵搜立,是天一觀的道長以躯。 經(jīng)常有香客問我,道長啄踊,這世上最難降的妖魔是什么忧设? 我笑而不...
    開封第一講書人閱讀 56,388評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮颠通,結(jié)果婚禮上址晕,老公的妹妹穿的比我還像新娘。我一直安慰自己顿锰,他們只是感情好谨垃,可當(dāng)我...
    茶點故事閱讀 65,430評論 5 384
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著撵儿,像睡著了一般乘客。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上淀歇,一...
    開封第一講書人閱讀 49,764評論 1 290
  • 那天易核,我揣著相機與錄音,去河邊找鬼浪默。 笑死牡直,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的纳决。 我是一名探鬼主播碰逸,決...
    沈念sama閱讀 38,907評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼阔加!你這毒婦竟也來了饵史?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,679評論 0 266
  • 序言:老撾萬榮一對情侶失蹤胜榔,失蹤者是張志新(化名)和其女友劉穎胳喷,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體夭织,經(jīng)...
    沈念sama閱讀 44,122評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡吭露,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,459評論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了尊惰。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片讲竿。...
    茶點故事閱讀 38,605評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡泥兰,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出题禀,到底是詐尸還是另有隱情鞋诗,我是刑警寧澤,帶...
    沈念sama閱讀 34,270評論 4 329
  • 正文 年R本政府宣布投剥,位于F島的核電站师脂,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏江锨。R本人自食惡果不足惜吃警,卻給世界環(huán)境...
    茶點故事閱讀 39,867評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望啄育。 院中可真熱鬧酌心,春花似錦、人聲如沸挑豌。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,734評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽氓英。三九已至侯勉,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間铝阐,已是汗流浹背址貌。 一陣腳步聲響...
    開封第一講書人閱讀 31,961評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留徘键,地道東北人练对。 一個月前我還...
    沈念sama閱讀 46,297評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像吹害,于是被迫代替她去往敵國和親螟凭。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,472評論 2 348