word2vec提取特征向量

#!/usr/bin/env python
# -*- coding: utf-8  -*-
# 從詞向量模型中提取文本特征向量
import warnings
warnings.filterwarnings(action='ignore', category=UserWarning, module='gensim')  # 忽略警告
import numpy as np
import pandas as pd
from gensim.models import word2vec

# 返回特征詞向量
def getWordVecs(wordList, model):
    vecs = []
    for word in wordList:
        word = word.replace('\n', '')
        # print word
        try:
            vecs.append(model[word])
        except KeyError:
            continue
    return np.array(vecs, dtype='float')  # 返回一個二維numpy數(shù)組

# 構(gòu)建文檔詞向量
def buildVecs(filename, model):
    fileVecs = []
    contents = pd.read_table(filename, header=None, index_col=None)
    for line in contents[0]:
        wordList = line.split(' ')
        vecs = getWordVecs(wordList, model)
        if len(vecs) > 0:
            vecsArray = sum(np.array(vecs)) / len(vecs)  # mean    等價于np.average(vecs)
            fileVecs.append(vecsArray)
    return fileVecs

if __name__ == '__main__':
    #加載word2vec模型
    model = word2vec.Word2Vec.load(r'F:\t\test\wiki_corpus.model')

    posInput = buildVecs(r'F:\t\test\pos_jieba.csv', model)
    negInput = buildVecs(r'F:\t\test\neg_jieba.csv', model)

    # use 1 for positive sentiment流妻, 0 for negative
    Y = np.concatenate((np.ones(len(posInput)), np.zeros(len(negInput))))

    X = posInput[:]
    for neg in negInput:
        X.append(neg)
    X = np.array(X)

    # write in file
    df_x = pd.DataFrame(X)
    df_y = pd.DataFrame(Y)
    data = pd.concat([df_y, df_x], axis=1)
    # print data
    data.to_csv(r'F:\t\test\2000_data.csv')
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市咬像,隨后出現(xiàn)的幾起案子冤留,更是在濱河造成了極大的恐慌慎王,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,561評論 6 492
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異张抄,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)洼怔,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,218評論 3 385
  • 文/潘曉璐 我一進(jìn)店門署惯,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人茴厉,你說我怎么就攤上這事泽台。” “怎么了矾缓?”我有些...
    開封第一講書人閱讀 157,162評論 0 348
  • 文/不壞的土叔 我叫張陵怀酷,是天一觀的道長。 經(jīng)常有香客問我嗜闻,道長蜕依,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,470評論 1 283
  • 正文 為了忘掉前任琉雳,我火速辦了婚禮样眠,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘翠肘。我一直安慰自己檐束,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 65,550評論 6 385
  • 文/花漫 我一把揭開白布束倍。 她就那樣靜靜地躺著被丧,像睡著了一般盟戏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上甥桂,一...
    開封第一講書人閱讀 49,806評論 1 290
  • 那天柿究,我揣著相機(jī)與錄音,去河邊找鬼黄选。 笑死蝇摸,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的办陷。 我是一名探鬼主播貌夕,決...
    沈念sama閱讀 38,951評論 3 407
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼民镜!你這毒婦竟也來了蜂嗽?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 37,712評論 0 266
  • 序言:老撾萬榮一對情侶失蹤殃恒,失蹤者是張志新(化名)和其女友劉穎植旧,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體离唐,經(jīng)...
    沈念sama閱讀 44,166評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡病附,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,510評論 2 327
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了亥鬓。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片完沪。...
    茶點故事閱讀 38,643評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖嵌戈,靈堂內(nèi)的尸體忽然破棺而出覆积,到底是詐尸還是另有隱情,我是刑警寧澤熟呛,帶...
    沈念sama閱讀 34,306評論 4 330
  • 正文 年R本政府宣布宽档,位于F島的核電站,受9級特大地震影響庵朝,放射性物質(zhì)發(fā)生泄漏吗冤。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,930評論 3 313
  • 文/蒙蒙 一九府、第九天 我趴在偏房一處隱蔽的房頂上張望椎瘟。 院中可真熱鬧,春花似錦侄旬、人聲如沸肺蔚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,745評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽宣羊。三九已至声旺,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間段只,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,983評論 1 266
  • 我被黑心中介騙來泰國打工鉴扫, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留赞枕,地道東北人。 一個月前我還...
    沈念sama閱讀 46,351評論 2 360
  • 正文 我出身青樓坪创,卻偏偏與公主長得像炕婶,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子莱预,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 43,509評論 2 348

推薦閱讀更多精彩內(nèi)容