Pyspark Word2Vec + jieba 訓(xùn)練詞向量流程

摘要:用商品描述為語(yǔ)料庫(kù)訓(xùn)練商品詞向量為例,分享一下用pyspark自帶word2vec+jieba分詞訓(xùn)練詞向量的流程.

工具:python,pyspark,jieba,pandas,numpy

數(shù)據(jù)格式:自定義詞典,語(yǔ)料庫(kù)均為pyspark dataframe,停用辭典不大,直接使用txt.

1 create spark

我的pyspark參數(shù)設(shè)置如下:

def create_spark():

? ? sparkconf = SparkConf('jianwangzhilai') \

? ? ? ? .setAppName("jianwangzhilai") \

? ? ? ? .set("spark.sql.catalogImplementation","hive") \

? ? ? ? .set("spark.dynamicAllocation.enabled", "false") \

? ? ? ? .set("spark.shuffle.service.enabled", "false") \

? ? ? ? .setExecutorEnv("JAVA_HOME", os.environ["JAVA_HOME"]) \

? ? ? ? .setExecutorEnv("HADOOP_HDFS_HOME", os.environ["HADOOP_HOME"]) \

? ? ? ? .setExecutorEnv("LD_LIBRARY_PATH", os.environ["LD_LIBRARY_PATH"] ) \

? ? ? ? .setExecutorEnv("CLASSPATH", os.environ["CLASSPATH"])

? ? sparkconf.set("spark.executor.instances", '64')) \

? ? ? .set("spark.executor.cores", '8' \

? ? ? .set("spark.cores.max",'512') \

? ? ? .set("spark.executor.memory",'10g') \

? ? ? .set("spark.driver.maxResultSize", "4g")

? ? spark=SparkSession.builder.enableHiveSupport()\

? ? ? ? ? ? .config(conf=sparkconf).getOrCreate()

? ? spark.sparkContext.setLogLevel('WARN')

? ? print('spark created...')

? ? return spark

設(shè)置有點(diǎn)瑣碎,但大同小異,唯一需要注意的是,spark.driver.maxResultSize這個(gè)參數(shù)最好設(shè)置大于1g.

2 自定義詞典,udf

此處自定義詞典直接通過(guò)spark讀取,格式為spark的dataframe,只有一列'word'字段,將其直接轉(zhuǎn)化為pandas數(shù)據(jù)框后,使用jieba.add_word逐條加載.

user_dic=spark.sql("select * from user_dict")

dic=user_dic.toPandas()

for i in np.arange(dic.shape[0]):

????jieba.add_word(dic['word'][i].strip())

從pyspark中import如下部分:

from pyspark.sql.types import StringType,ArrayType

from pyspark.sql.functions import udf

定義udf,把jieba分詞包裝起來(lái),返回一個(gè)pyspark可識(shí)別的arraytype,array中的基元素是stringtype的:

def seg(x):

? ? jieba_seg_generator=jieba.cut(x, cut_all=False)

? ? words = []

? ? for word in jieba_seg_generator:

? ? ? ? if? len(word)>1:

? ? ? ? ? ? words.append(word)

? ? return words

seg_udf = udf(seg, ArrayType(StringType()))

3 語(yǔ)料庫(kù)分詞

商品的語(yǔ)料同樣通過(guò)spark.sql讀取

corpus_goods = spark.sql("select * from corpus_goods_description ").cache()

同樣,格式為spark dataframe,包含一個(gè)主鍵商品id和一個(gè)商品描述description.

利用之前打包的udf,對(duì)商品描述進(jìn)行分詞,生成一個(gè)新列seg:

corpus_goods = corpus_goods.withColumn('seg',seg_udf(corpus_goods['description']))

4 停用詞

停用詞因?yàn)檩^少,這里直接保存成了txt格式,讀取成list:

stop_words=open('./stopwords.txt', 'r', encoding='utf_8').readlines()

stop_words = [line.strip() for line in stop_words]

停用詞去除可以自己寫好,一起打包到之前的udf中,只要在seg函數(shù)中稍作改變:

? ? ? ? if? len(word)>1 and word not in stop_words:

? ? ? ? ? ? words.append(word)

也可以通過(guò)pyspark自帶模塊進(jìn)行去除:

from pyspark.ml.feature import StopWordsRemover

remover = StopWordsRemover(inputCol="seg", outputCol="words", stopWords=stop_words)? ? ? ? ? ? ?

corpus_goods = remover.transform(corpus_goods)

這里推薦后一種方法.去除停用詞后,基本可以進(jìn)行訓(xùn)練了,此時(shí)語(yǔ)料庫(kù)是這個(gè)樣:

5 詞向量訓(xùn)練

語(yǔ)料分詞后,直接進(jìn)行如下訓(xùn)練:

from pyspark.ml.feature import Word2Vec

w2v = Word2Vec(vectorSize=100, minCount=3,seed=123, numPartitions=64,inputCol="words", outputCol="result")

model = w2v.fit(corpus_goods)

model.getVectors().head(2)

model.getVectors().count()

##save

path = "./models/word2vec"

model.write().overwrite().save(path)

訓(xùn)練很簡(jiǎn)單,注意numPartitions參數(shù),這個(gè)參數(shù)默認(rèn)是1,如果使用默認(rèn)參數(shù),等于只有一個(gè)job進(jìn)行fit,如果數(shù)據(jù)很大,這個(gè)過(guò)程將會(huì)非常漫長(zhǎng),這里我設(shè)置成和instances相同的大小,也可以設(shè)置成其他合適的大小,具體看機(jī)器配置.

minCount參數(shù)控制了詞頻,詞頻低于這個(gè)字段的將會(huì)被舍棄.vectorSize控制了向量的大小,一般超過(guò)50.

詞向量訓(xùn)練完成后,得到了每個(gè)詞的向量表示,此時(shí)需要把整個(gè)商品的描述也表示成向量,如果自己實(shí)現(xiàn)也可,但是pyspark直接一行搞定,速度飛快:

corpus_goods = model.transform(corpus_goods)

此時(shí),corpus_goods數(shù)據(jù)框中,result字段就是商品描述的文本向量形式了,大工告成.之后可以進(jìn)行相似度計(jì)算或者作為特征進(jìn)入其他模型.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末佣赖,一起剝皮案震驚了整個(gè)濱河市雀监,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌压恒,老刑警劉巖逗旁,帶你破解...
    沈念sama閱讀 217,907評(píng)論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件蒙具,死亡現(xiàn)場(chǎng)離奇詭異千绪,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門裁着,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)繁涂,“玉大人丰介,你說(shuō)我怎么就攤上這事昧港。” “怎么了宇立?”我有些...
    開封第一講書人閱讀 164,298評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵诸蚕,是天一觀的道長(zhǎng)步势。 經(jīng)常有香客問(wèn)我,道長(zhǎng)背犯,這世上最難降的妖魔是什么坏瘩? 我笑而不...
    開封第一講書人閱讀 58,586評(píng)論 1 293
  • 正文 為了忘掉前任,我火速辦了婚禮漠魏,結(jié)果婚禮上倔矾,老公的妹妹穿的比我還像新娘。我一直安慰自己柱锹,他們只是感情好哪自,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,633評(píng)論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著禁熏,像睡著了一般壤巷。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上瞧毙,一...
    開封第一講書人閱讀 51,488評(píng)論 1 302
  • 那天胧华,我揣著相機(jī)與錄音,去河邊找鬼宙彪。 笑死矩动,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的释漆。 我是一名探鬼主播悲没,決...
    沈念sama閱讀 40,275評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼男图!你這毒婦竟也來(lái)了示姿?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 39,176評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤逊笆,失蹤者是張志新(化名)和其女友劉穎峻凫,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體览露,經(jīng)...
    沈念sama閱讀 45,619評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,819評(píng)論 3 336
  • 正文 我和宋清朗相戀三年譬胎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了差牛。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片命锄。...
    茶點(diǎn)故事閱讀 39,932評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖偏化,靈堂內(nèi)的尸體忽然破棺而出脐恩,到底是詐尸還是另有隱情,我是刑警寧澤侦讨,帶...
    沈念sama閱讀 35,655評(píng)論 5 346
  • 正文 年R本政府宣布驶冒,位于F島的核電站韵卤,受9級(jí)特大地震影響骗污,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜沈条,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,265評(píng)論 3 329
  • 文/蒙蒙 一需忿、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蜡歹,春花似錦屋厘、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至父款,卻和暖如春溢谤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背铛漓。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工溯香, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人浓恶。 一個(gè)月前我還...
    沈念sama閱讀 48,095評(píng)論 3 370
  • 正文 我出身青樓玫坛,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親包晰。 傳聞我的和親對(duì)象是個(gè)殘疾皇子湿镀,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,884評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • pyspark.sql模塊 模塊上下文 Spark SQL和DataFrames的重要類: pyspark.sql...
    mpro閱讀 9,453評(píng)論 0 13
  • jieba分詞,學(xué)習(xí)伐憾,為了全面了解該模塊勉痴,,預(yù)設(shè)學(xué)習(xí)路線:官方文檔——優(yōu)秀博客文章——實(shí)踐學(xué)習(xí) 官方文檔部分 (文...
    竹林徒兒閱讀 4,118評(píng)論 1 12
  • 計(jì)算機(jī)只能識(shí)別和計(jì)算數(shù)字树肃,我們?cè)谔幚碚Z(yǔ)言文本時(shí)(不僅語(yǔ)言文本蒸矛,要傳入模型計(jì)算的數(shù)據(jù)都是數(shù)字或者向量),首要的工作是...
    Zimix閱讀 11,969評(píng)論 0 9
  • 目錄 方法概述 分詞——Jieba 詞頻分析與詞云 方法概述 1、使用歌曲《山僧》的歌詞片段為素材雏掠,進(jìn)行分析斩祭。 經(jīng)...
    Hana_5f9b閱讀 1,477評(píng)論 0 1
  • 注:參考文檔 一、在線詞云圖工具# (1)乡话、使用### 在正式使用jieba分詞之前摧玫,首先嘗試用在線分詞工具來(lái)將自...
    DearIreneLi閱讀 6,043評(píng)論 1 8