#!/usr/bin/env python
# -*- coding: utf-8 -*-
# 從詞向量模型中提取文本特征向量
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim') # 忽略警告
import numpy as np
import pandas as pd
from gensim.models import word2vec
# 返回特征詞向量
def getWordVecs(wordList, model):
vecs = []
for word in wordList:
word = word.replace('\n', '')
# print word
try:
vecs.append(model[word])
except KeyError:
continue
return np.array(vecs, dtype='float') # 返回一個二維numpy數(shù)組
# 構(gòu)建文檔詞向量
def buildVecs(filename, model):
fileVecs = []
contents = pd.read_table(filename, header=None, index_col=None)
for line in contents[0]:
wordList = line.split(' ')
vecs = getWordVecs(wordList, model)
if len(vecs) > 0:
vecsArray = sum(np.array(vecs)) / len(vecs) # mean 等價于np.average(vecs)
fileVecs.append(vecsArray)
return fileVecs
if __name__ == '__main__':
#加載word2vec模型
model = word2vec.Word2Vec.load(r'F:\t\test\wiki_corpus.model')
posInput = buildVecs(r'F:\t\test\pos_jieba.csv', model)
negInput = buildVecs(r'F:\t\test\neg_jieba.csv', model)
# use 1 for positive sentiment流妻, 0 for negative
Y = np.concatenate((np.ones(len(posInput)), np.zeros(len(negInput))))
X = posInput[:]
for neg in negInput:
X.append(neg)
X = np.array(X)
# write in file
df_x = pd.DataFrame(X)
df_y = pd.DataFrame(Y)
data = pd.concat([df_y, df_x], axis=1)
# print data
data.to_csv(r'F:\t\test\2000_data.csv')
word2vec提取特征向量
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
- 文/潘曉璐 我一進(jìn)店門署惯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人茴厉,你說我怎么就攤上這事泽台。” “怎么了矾缓?”我有些...
- 文/不壞的土叔 我叫張陵怀酷,是天一觀的道長。 經(jīng)常有香客問我嗜闻,道長蜕依,這世上最難降的妖魔是什么? 我笑而不...
- 正文 為了忘掉前任琉雳,我火速辦了婚禮样眠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘翠肘。我一直安慰自己檐束,他們只是感情好,可當(dāng)我...
- 文/花漫 我一把揭開白布束倍。 她就那樣靜靜地躺著被丧,像睡著了一般盟戏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上甥桂,一...
- 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼民镜!你這毒婦竟也來了蜂嗽?” 一聲冷哼從身側(cè)響起,我...
- 正文 年R本政府宣布宽档,位于F島的核電站,受9級特大地震影響庵朝,放射性物質(zhì)發(fā)生泄漏吗冤。R本人自食惡果不足惜,卻給世界環(huán)境...
- 文/蒙蒙 一九府、第九天 我趴在偏房一處隱蔽的房頂上張望椎瘟。 院中可真熱鬧,春花似錦侄旬、人聲如沸肺蔚。這莊子的主人今日做“春日...
- 文/蒼蘭香墨 我抬頭看了看天上的太陽宣羊。三九已至声旺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間段只,已是汗流浹背。 一陣腳步聲響...
推薦閱讀更多精彩內(nèi)容
- Spark MLlib 提供三種文本特征提取方法依沮,分別為TF-IDF涯贞、Word2Vec以及CountVectori...
- Spark MLlib機(jī)器學(xué)習(xí)開發(fā)指南(5)--特征提取,轉(zhuǎn)換危喉,選擇--Word2Vec 翻譯自Word2Vec,...
- TF-IDF TF-IDF:是一種加權(quán)技術(shù)宋渔。采用一種統(tǒng)計方法,根據(jù)字詞在文本中出現(xiàn)的次數(shù)和在整個語料中出現(xiàn)的文檔頻...
- 我們都知道辜限,轉(zhuǎn)發(fā)這條錦鯉皇拣,好運就會來到 可那只是心里安慰,明知道浪費時間的活動 為何還要在朋友圈大肆的轉(zhuǎn)發(fā)呢薄嫡?群眾...