torchtext處理IMDB數(shù)據(jù)

感謝這個博客司训，之前一直在想旱捧，torchtext能不能對這個數(shù)據(jù)進行操作独郎，嘗試了一下不行踩麦，昨天搜索之后發(fā)現(xiàn)了這個教程，真的很有用氓癌。
我們先看一下之前做的時候預(yù)處理的流程谓谦。

image.png

在前面已經(jīng)訓(xùn)練好了word2vec，這里不再處理贪婉。

import pandas as pd
import numpy as np
import spacy

# Read data from files 
train_data = pd.read_csv( "./drive/My Drive/NLPdata/train.tsv", header=0, delimiter="\t", quoting=3,encoding='latin-1' )
test_data = pd.read_csv( "./drive/My Drive/NLPdata/test.tsv", header=0, delimiter="\t", quoting=3,encoding='latin-1')
# unlabeled_train = pd.read_csv( "./train01.tsv", header=0, delimiter="\t", quoting=3,encoding='latin-1' )

# Verify the number of reviews that were read (100,000 in total)
print("Read %d labeled train reviews, %d labeled test reviews, "% (train_data["Phrase"].size, test_data["Phrase"].size ))

導(dǎo)入之前生成的word2vec

import logging
import gensim
from gensim.models import word2vec
model=gensim.models.KeyedVectors.load_word2vec_format("./drive/My Drive/NLPdata/word2Vec03.bin",binary=True)

index2word=model.index2word
print(len(index2word))
index2word_set=set(model.index2word)
print(len(index2word_set))
print(model)

對語料庫數(shù)據(jù)進行處理

包括分句反粥、分詞、單詞小寫等

# text是輸入的已經(jīng)分好詞的語料庫文本
# model是之前生成的word2vec模型
# num_features是word2vec模型中每個詞維度大小疲迂，這里是200
def word2vec(text,model,num_features):
    featureVec = np.zeros((200,),dtype="float32")
    nwords=0
    for word in text:
        if word in index2word_set:
            nwords+=1
            featureVec=np.add(featureVec,model[word])
    featureVec = np.divide(featureVec,nwords)
    return featureVec
# print(word2vec(token))
def getAvgFeatureVecs(phrases,model,num_features):
    counter=0
    phraseFeatureVecs = np.zeros((len(phrases),num_features),dtype="float32")
    for phrase in phrases:
        if counter % 2000==0:
            print("Phrase %d of %d" % (counter, len(phrases)))
        phraseFeatureVecs[counter]=word2vec(phrase, model, num_features)
        counter = counter+1
    return phraseFeatureVecs

from nltk.corpus import stopwords
import re
def phrase_to_wordlist(phrase, remove_stopwords=False):
    phrase_text = re.sub("[^a-zA-Z]"," ", phrase)
    words = phrase_text.lower().split()
#     if remove_stopwords:
#         stops = set(stopwords.words("english"))
#         words = [w for w in words if not w in stops]
    return(words)

處理訓(xùn)練集和測試集數(shù)據(jù)

clean_train_phrases = []
for phrase in train_data["Phrase"]:
    clean_train_phrases.append( phrase_to_wordlist( phrase, remove_stopwords=True ))
    
num_features=200
trainDataVecs = getAvgFeatureVecs( clean_train_phrases, model, num_features )

clean_test_phrases = []
for phrase in test_data["Phrase"]:
    clean_test_phrases.append( phrase_to_wordlist( phrase, remove_stopwords=True ))
    
num_features=200
testDataVecs = getAvgFeatureVecs( clean_test_phrases, model, num_features )

# np.isnan(trainDataVecs).any()
nullFeatureVec = np.zeros((200,),dtype="float32")
# print(trainDataVecs[4])
trainDataVecs[np.isnan(trainDataVecs)] = 0
print(trainDataVecs[3])

對向量化的數(shù)據(jù)中空值進行賦值

# np.isnan(trainDataVecs).any()
nullFeatureVec = np.zeros((200,),dtype="float32")
# print(trainDataVecs[4])
trainDataVecs[np.isnan(trainDataVecs)] = 0
print(trainDataVecs[3])

接下來看一下使用torchtext怎么處理數(shù)據(jù)才顿，對比之后，我感覺鬼譬，確實優(yōu)雅了很多

讀取數(shù)據(jù)

import pandas as pd
data=pd.read_csv(r'C:\Users\jwc19\Desktop\sentiment-analysis-on-movie-reviews\train.tsv',sep='\t')
test=pd.read_csv(r'C:\Users\jwc19\Desktop\sentiment-analysis-on-movie-reviews\test.tsv',sep='\t')
data.head()

使用sklearn對數(shù)據(jù)集進行分割

將訓(xùn)練集數(shù)據(jù)按照8:2的比例分割為訓(xùn)練集和驗證集

from sklearn.model_selection import train_test_split
train,val=train_test_split(data,test_size=0.2)
train.to_csv("train.csv",index=False)
val.to_csv('val.csv',index=False)

構(gòu)建分詞器娜膘，定義Field

Torchtext采用了一種聲明式的方法來加載數(shù)據(jù)：你來告訴Torchtext你希望的數(shù)據(jù)是什么樣子的，剩下的由torchtext來處理优质。
實現(xiàn)這種聲明的是Field竣贪，F(xiàn)ield確定了一種你想要怎么去處理數(shù)據(jù)。

field在默認(rèn)的情況下都期望一個輸入是一組單詞的序列巩螃，并且將單詞映射成整數(shù)演怎。
這個映射被稱為vocab。如果一個field已經(jīng)被數(shù)字化了并且不需要被序列化避乏，
可以將參數(shù)設(shè)置為use_vocab=False以及sequential=False爷耀。

import spacy
import torch
from torchtext import data, datasets
from torchtext.vocab import Vectors
from torch.nn import init

device=torch.device("cuda")
spacy_en=spacy.load("en")
def tokenize_en(text):
    return [tok.text for tok in spacy_en.tokenizer(text)]

label=data.Field(sequential=False, use_vocab=False)
text=data.Field(sequential=True, tokenize=tokenize_en,lower=True)

定義Dataset

The fields知道當(dāng)給定原始數(shù)據(jù)的時候要做什么。現(xiàn)在拍皮，我們需要告訴fields它需要處理什么樣的數(shù)據(jù)歹叮。這個功能利用Datasets來實現(xiàn)。

Torchtext有大量內(nèi)置的Datasets去處理各種數(shù)據(jù)格式铆帽。

TabularDataset官網(wǎng)介紹: Defines a Dataset of columns stored in CSV, TSV, or JSON format.

對于csv/tsv類型的文件咆耿，TabularDataset很容易進行處理，故我們選它來生成Dataset

train, val=data.TabularDataset.splits(
    path=r'C:\Users\jwc19\Desktop\2001_2018jszyfz\code',
    train='train.csv',
    validation='val.csv',
    format='csv',
    skip_header=True,
    fields=[
        ('PhraseId',None),
        ('SentenceId',None),
        ('Phrase',text),
        ('Sentiment',label)
    ]
)

test=data.TabularDataset.splits(
    path=r'C:\Users\jwc19\Desktop\sentiment-analysis-on-movie-reviews',
    test='test.tsv',
    format='tsv',
    skip_header=True,
    fields=[
        ('PhraseId',None),
        ('SentenceId',None),
        ('Phrase',text),
    ]
)

建立vocab

Torchtext可以將詞轉(zhuǎn)化為數(shù)字爹橱，但是它需要被告知需要被處理的全部范圍的詞萨螺，在這里使用的是glove，庫會幫你下載好

text.build_vocab(train,vectors='glove.6B.100d')
text.vocab.vectors.unk_init = init.xavier_uniform

print(text.vocab.itos[1510])
print(text.vocab.stoi['bore'])
# 詞向量矩陣: TEXT.vocab.vectors
print(text.vocab.vectors.shape)
word_vec = text.vocab.vectors[text.vocab.stoi['bore']]
print(word_vec.shape)
print(word_vec)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末愧驱，一起剝皮案震驚了整個濱河市慰技，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌组砚，老刑警劉巖吻商，帶你破解...
沈念sama閱讀 221,198評論 6贊 514
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異糟红，居然都是意外死亡手报，警方通過查閱死者的電腦和手機蚯舱，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,334評論 3贊 398
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來掩蛤，“玉大人，你說我怎么就攤上這事陈肛∽崮瘢” “怎么了？”我有些...
開封第一講書人閱讀 167,643評論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵句旱，是天一觀的道長阳藻。經(jīng)常有香客問我，道長谈撒，這世上最難降的妖魔是什么腥泥？我笑而不...
開封第一講書人閱讀 59,495評論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮啃匿，結(jié)果婚禮上蛔外，老公的妹妹穿的比我還像新娘。我一直安慰自己溯乒，他們只是感情好夹厌，可當(dāng)我...
茶點故事閱讀 68,502評論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著裆悄，像睡著了一般矛纹。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上光稼，一...
開封第一講書人閱讀 52,156評論 1贊 308
城市分裂傳說
那天或南，我揣著相機與錄音，去河邊找鬼艾君。笑死采够，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的腻贰。我是一名探鬼主播吁恍，決...
沈念sama閱讀 40,743評論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼播演！你這毒婦竟也來了冀瓦？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,659評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤写烤，失蹤者是張志新（化名）和其女友劉穎翼闽，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體洲炊，經(jīng)...
沈念sama閱讀 46,200評論 1贊 319
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡感局，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 38,282評論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年尼啡，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片询微。...
茶點故事閱讀 40,424評論 1贊 352
活死人
序言：一個原本活蹦亂跳的男人離奇死亡崖瞭，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出撑毛，到底是詐尸還是另有隱情书聚，我是刑警寧澤，帶...
沈念sama閱讀 36,107評論 5贊 349
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布藻雌，位于F島的核電站雌续，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏胯杭。R本人自食惡果不足惜驯杜，卻給世界環(huán)境...
茶點故事閱讀 41,789評論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望做个。院中可真熱鬧鸽心，春花似錦、人聲如沸叁温。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,264評論 0贊 23
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽膝但。三九已至冲九，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間跟束，已是汗流浹背莺奸。一陣腳步聲響...
開封第一講書人閱讀 33,390評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留冀宴，地道東北人灭贷。一個月前我還...
沈念sama閱讀 48,798評論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像略贮，于是被迫代替她去往敵國和親甚疟。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,435評論 2贊 359