Task1 數(shù)據(jù)集探索

IMDB數(shù)據(jù)集下載和探索

根據(jù)TensorFlow官方教程實現(xiàn)：

# -*- coding: utf-8 -*-

import tensorflow as tf
from tensorflow import keras

import numpy as np

# 查看tensorflow版本
print(tf.__version__)

# 下載imdb數(shù)據(jù)集
imdb = keras.datasets.imdb
# 參數(shù)num_words=10000保留訓(xùn)練數(shù)據(jù)中出現(xiàn)頻率最高的10,000個單詞
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

# 探索數(shù)據(jù)
print("Training entries: {}, labels: {}".format(len(train_data), len(train_labels)))
print(train_data[0])
# 每篇文本長度不同
print(len(train_data[0]), len(train_data[1]))

# 將arry從整數(shù)轉(zhuǎn)為單詞

word_index = imdb.get_word_index()

reverse_word_index = {value:key for key, value in word_index.items()}
content = []
for text in train_data:
    text_words = []
    content.append(' '.join([reverse_word_index[num] for num in text]))
    

# 將數(shù)據(jù)轉(zhuǎn)化成張量

train_data = keras.preprocessing.sequence.pad_sequences(train_data, 
                                                       padding='post',
                                                       maxlen=256)

test_data = keras.preprocessing.sequence.pad_sequences(test_data, 
                                                       padding='post',
                                                       maxlen=256)
print(train_data[0])

# 建立模型
vocab_size = 10000

model = keras.Sequential()
# Embedding層將正整數(shù)轉(zhuǎn)換為具有固定大小的向量
model.add(keras.layers.Embedding(vocab_size, 16))
# GlobalAveragePooling1D對序列維數(shù)進(jìn)行平均，輸出為一個1*1*D的張量紧索。
model.add(keras.layers.GlobalAveragePooling1D())
# 16個隱藏單元的全連接(密集)層
model.add(keras.layers.Dense(16, activation=tf.nn.relu))
model.add(keras.layers.Dense(1, activation=tf.nn.sigmoid))

model.summary()
# 二分類問題袁辈，選擇binary_crossentropy作為損失函數(shù)
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['acc'])

# 構(gòu)建數(shù)據(jù)集 取前10000條數(shù)據(jù)作為驗證集
x_val = train_data[:10000]
partial_x_train = train_data[10000:]

y_val = train_labels[:10000]
partial_y_train = train_labels[10000:]

history = model.fit(partial_x_train,
                    partial_y_train,
                    epochs=40,
                    batch_size=512,
                    validation_data=(x_val, y_val),
                    verbose=1)

# 評價模型
result = model.evaluate(test_data, test_labels)
print(result)

THUCNews數(shù)據(jù)集下載和探索

根據(jù)githut進(jìn)行復(fù)現(xiàn)

# -*- coding: utf-8 -*-
"""
Created on Sun May 12 16:07:05 2019

@author: pc
"""

import tensorflow as tf
from tensorflow import keras

import numpy as np
import pandas as pd
from collections import Counter

TRAIN_PATH = 'E:/task1/cnews.train.txt'
VAL_PATH = 'E:/task1/cnews.val.txt'
TEST_PATH = 'E:/task1/cnews.test.txt'
VOCAB_SIZE = 5000
MAX_LEN = 600
BATCH_SIZE = 64

def read_file(file_name):
    '''
        讀文件
    '''
    file_path = {'train': TRAIN_PATH, 'val': VAL_PATH, 'test': TEST_PATH}
    contents = []
    labels = []
    with open(file_path[file_name], 'r', encoding='utf-8') as f:
        for line in f:
            try:
                labels.append(line.strip().split('\t')[0])
                contents.append(line.strip().split('\t')[1])
            except:
                pass
    data = pd.DataFrame()
    data['text'] = contents
    data['label'] = labels
    return data


def build_vocab(data):
    '''
        構(gòu)建詞匯表，
        使用字符級的表示
    '''
    all_content = []
    for _, text in data.iterrows():
        all_content.extend(text['text'])
    counter = Counter(all_content)
    count_pairs = counter.most_common(VOCAB_SIZE - 1)
    words = [i[0] for i in count_pairs]
    words = ['<PAD>'] + list(words)
    
    return words
        

def read_vocab(words):
    words_id = dict(zip(words, range(len(words))))
    return words_id


def read_category(data):
    '''
       將分類目錄固定珠漂，轉(zhuǎn)換為{類別: id}表示 
    '''
    category = list(data['label'].drop_duplicates())
    return dict(zip(category, range(len(category))))
    
def to_words(content, words):
    return ' '.join(words[i] for i in content)

def preocess_file(data, words_id, category_id):
    """
        將文件轉(zhuǎn)換為id表示
    """
    content = data['text']
    labels = data['label']
    content_id = []
    label_id = []
    for text, label in zip(content, labels):
        content_id.append([words_id[i] for i in text if i in words_id])
        label_id.append(category_id[label])
    
    # 使用keras提供的pad_sequences來將文本pad為固定長度
    x_pad = keras.preprocessing.sequence.pad_sequences(content_id, MAX_LEN)
    y_pad = keras.utils.to_categorical(label_id, num_classes=len(category_id))
    return x_pad, y_pad
    

def batch_iter(x, y):
    '''
        為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練準(zhǔn)備經(jīng)過shuffle的批次的數(shù)據(jù)
    '''
    num_batch = int((len(x) - 1) / BATCH_SIZE) + 1
    indices = np.random.permutation(np.arange(len(x)))
    
    x_shuffle = x[indices]
    y_shuffle = y[indices]
    for i in range(num_batch):
        start_id = i * BATCH_SIZE
        end_id = min((i + 1) * BATCH_SIZE, len(x))
        yield x_shuffle[start_id:end_id], y_shuffle[start_id:end_id]   
    

train = read_file('train')
# 查看label類別
print(train['label'].drop_duplicates())
words = build_vocab(train)
words_id = read_vocab(words)
category_id = read_category(train)
x_pad, y_pad = preocess_file(train, words_id, category_id)
batch_iter(x_pad, y_pad)
test = read_file('test')
val = read_file('val')

對于函數(shù)batch_iter(x, y)的使用還存在疑惑晚缩，還有待學(xué)習(xí)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市甘磨，隨后出現(xiàn)的幾起案子橡羞，更是在濱河造成了極大的恐慌，老刑警劉巖济舆，帶你破解...
沈念sama閱讀 222,464評論 6贊 517
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件卿泽，死亡現(xiàn)場離奇詭異，居然都是意外死亡滋觉，警方通過查閱死者的電腦和手機签夭，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 95,033評論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來椎侠，“玉大人第租，你說我怎么就攤上這事∥壹停” “怎么了慎宾？”我有些...
開封第一講書人閱讀 169,078評論 0贊 362
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長浅悉。經(jīng)常有香客問我趟据，道長，這世上最難降的妖魔是什么术健？我笑而不...
開封第一講書人閱讀 59,979評論 1贊 299
?港島之戀（遺憾婚禮）
正文為了忘掉前任汹碱，我火速辦了婚禮，結(jié)果婚禮上荞估，老公的妹妹穿的比我還像新娘咳促。我一直安慰自己稚新，他們只是感情好，可當(dāng)我...
茶點故事閱讀 69,001評論 6贊 398
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布跪腹。她就那樣靜靜地躺著褂删，像睡著了一般。火紅的嫁衣襯著肌膚如雪尺迂。梳的紋絲不亂的頭發(fā)上笤妙，一...
開封第一講書人閱讀 52,584評論 1贊 312
城市分裂傳說
那天冒掌，我揣著相機與錄音噪裕，去河邊找鬼。笑死股毫，一個胖子當(dāng)著我的面吹牛膳音，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播铃诬，決...
沈念sama閱讀 41,085評論 3贊 422
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼祭陷，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了趣席？” 一聲冷哼從身側(cè)響起兵志，我...
開封第一講書人閱讀 40,023評論 0贊 277
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎宣肚，沒想到半個月后想罕，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,555評論 1贊 319
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡霉涨，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,626評論 3贊 342
?白月光啟示錄
正文我和宋清朗相戀三年按价，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片笙瑟。...
茶點故事閱讀 40,769評論 1贊 353
活死人
序言：一個原本活蹦亂跳的男人離奇死亡楼镐，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出往枷，到底是詐尸還是另有隱情框产，我是刑警寧澤，帶...
沈念sama閱讀 36,439評論 5贊 351
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布错洁，位于F島的核電站秉宿，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏墓臭。R本人自食惡果不足惜蘸鲸，卻給世界環(huán)境...
茶點故事閱讀 42,115評論 3贊 335
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望窿锉。院中可真熱鬧酌摇，春花似錦膝舅、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,601評論 0贊 25
一樁弒父案仍稀，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至埂息，卻和暖如春技潘，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背千康。一陣腳步聲響...
開封第一講書人閱讀 33,702評論 1贊 274
情欲美人皮
我被黑心中介騙來泰國打工享幽，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人拾弃。一個月前我還...
沈念sama閱讀 49,191評論 3贊 378
代替公主和親
正文我出身青樓值桩，卻偏偏與公主長得像，于是被迫代替她去往敵國和親豪椿。傳聞我的和親對象是個殘疾皇子奔坟，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,781評論 2贊 361

Task1 數(shù)據(jù)集探索

IMDB數(shù)據(jù)集下載和探索

THUCNews數(shù)據(jù)集下載和探索

推薦閱讀更多精彩內(nèi)容