Pyspark Word2Vec + jieba 訓(xùn)練詞向量流程

摘要:用商品描述為語(yǔ)料庫(kù)訓(xùn)練商品詞向量為例,分享一下用pyspark自帶word2vec+jieba分詞訓(xùn)練詞向量的流程.

工具:python,pyspark,jieba,pandas,numpy

數(shù)據(jù)格式:自定義詞典,語(yǔ)料庫(kù)均為pyspark dataframe,停用辭典不大,直接使用txt.

1 create spark

我的pyspark參數(shù)設(shè)置如下:

def create_spark():

? ? sparkconf = SparkConf('jianwangzhilai') \

? ? ? ? .setAppName("jianwangzhilai") \

? ? ? ? .set("spark.sql.catalogImplementation","hive") \

? ? ? ? .set("spark.dynamicAllocation.enabled", "false") \

? ? ? ? .set("spark.shuffle.service.enabled", "false") \

? ? ? ? .setExecutorEnv("JAVA_HOME", os.environ["JAVA_HOME"]) \

? ? ? ? .setExecutorEnv("HADOOP_HDFS_HOME", os.environ["HADOOP_HOME"]) \

? ? ? ? .setExecutorEnv("LD_LIBRARY_PATH", os.environ["LD_LIBRARY_PATH"] ) \

? ? ? ? .setExecutorEnv("CLASSPATH", os.environ["CLASSPATH"])

? ? sparkconf.set("spark.executor.instances", '64')) \

? ? ? .set("spark.executor.cores", '8' \

? ? ? .set("spark.cores.max",'512') \

? ? ? .set("spark.executor.memory",'10g') \

? ? ? .set("spark.driver.maxResultSize", "4g")

? ? spark=SparkSession.builder.enableHiveSupport()\

? ? ? ? ? ? .config(conf=sparkconf).getOrCreate()

? ? spark.sparkContext.setLogLevel('WARN')

? ? print('spark created...')

? ? return spark

設(shè)置有點(diǎn)瑣碎,但大同小異,唯一需要注意的是,spark.driver.maxResultSize這個(gè)參數(shù)最好設(shè)置大于1g.

2 自定義詞典,udf

此處自定義詞典直接通過(guò)spark讀取,格式為spark的dataframe,只有一列'word'字段,將其直接轉(zhuǎn)化為pandas數(shù)據(jù)框后,使用jieba.add_word逐條加載.

user_dic=spark.sql("select * from user_dict")

dic=user_dic.toPandas()

for i in np.arange(dic.shape[0]):

????jieba.add_word(dic['word'][i].strip())

從pyspark中import如下部分:

from pyspark.sql.types import StringType,ArrayType

from pyspark.sql.functions import udf

定義udf,把jieba分詞包裝起來(lái),返回一個(gè)pyspark可識(shí)別的arraytype,array中的基元素是stringtype的:

def seg(x):

? ? jieba_seg_generator=jieba.cut(x, cut_all=False)

? ? words = []

? ? for word in jieba_seg_generator:

? ? ? ? if? len(word)>1:

? ? ? ? ? ? words.append(word)

? ? return words

seg_udf = udf(seg, ArrayType(StringType()))

3 語(yǔ)料庫(kù)分詞

商品的語(yǔ)料同樣通過(guò)spark.sql讀取

corpus_goods = spark.sql("select * from corpus_goods_description ").cache()

同樣,格式為spark dataframe,包含一個(gè)主鍵商品id和一個(gè)商品描述description.

利用之前打包的udf,對(duì)商品描述進(jìn)行分詞,生成一個(gè)新列seg:

corpus_goods = corpus_goods.withColumn('seg',seg_udf(corpus_goods['description']))

4 停用詞

停用詞因?yàn)檩^少,這里直接保存成了txt格式,讀取成list:

stop_words=open('./stopwords.txt', 'r', encoding='utf_8').readlines()

stop_words = [line.strip() for line in stop_words]

停用詞去除可以自己寫好,一起打包到之前的udf中,只要在seg函數(shù)中稍作改變:

? ? ? ? if? len(word)>1 and word not in stop_words:

? ? ? ? ? ? words.append(word)

也可以通過(guò)pyspark自帶模塊進(jìn)行去除:

from pyspark.ml.feature import StopWordsRemover

remover = StopWordsRemover(inputCol="seg", outputCol="words", stopWords=stop_words)? ? ? ? ? ? ?

corpus_goods = remover.transform(corpus_goods)

這里推薦后一種方法.去除停用詞后,基本可以進(jìn)行訓(xùn)練了,此時(shí)語(yǔ)料庫(kù)是這個(gè)樣:

5 詞向量訓(xùn)練

語(yǔ)料分詞后,直接進(jìn)行如下訓(xùn)練:

from pyspark.ml.feature import Word2Vec

w2v = Word2Vec(vectorSize=100, minCount=3,seed=123, numPartitions=64,inputCol="words", outputCol="result")

model = w2v.fit(corpus_goods)

model.getVectors().head(2)

model.getVectors().count()

##save

path = "./models/word2vec"

model.write().overwrite().save(path)

訓(xùn)練很簡(jiǎn)單,注意numPartitions參數(shù),這個(gè)參數(shù)默認(rèn)是1,如果使用默認(rèn)參數(shù),等于只有一個(gè)job進(jìn)行fit,如果數(shù)據(jù)很大,這個(gè)過(guò)程將會(huì)非常漫長(zhǎng),這里我設(shè)置成和instances相同的大小,也可以設(shè)置成其他合適的大小,具體看機(jī)器配置.

minCount參數(shù)控制了詞頻,詞頻低于這個(gè)字段的將會(huì)被舍棄.vectorSize控制了向量的大小,一般超過(guò)50.

詞向量訓(xùn)練完成后,得到了每個(gè)詞的向量表示,此時(shí)需要把整個(gè)商品的描述也表示成向量,如果自己實(shí)現(xiàn)也可,但是pyspark直接一行搞定,速度飛快:

corpus_goods = model.transform(corpus_goods)

此時(shí),corpus_goods數(shù)據(jù)框中,result字段就是商品描述的文本向量形式了,大工告成.之后可以進(jìn)行相似度計(jì)算或者作為特征進(jìn)入其他模型.

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末佣赖，一起剝皮案震驚了整個(gè)濱河市雀监，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌压恒，老刑警劉巖逗旁，帶你破解...
沈念sama閱讀 217,907評(píng)論 6贊 506
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件蒙具，死亡現(xiàn)場(chǎng)離奇詭異千绪，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,987評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門裁着，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)繁涂，“玉大人丰介，你說(shuō)我怎么就攤上這事昧港。” “怎么了宇立？”我有些...
開封第一講書人閱讀 164,298評(píng)論 0贊 354
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵诸蚕，是天一觀的道長(zhǎng)步势。經(jīng)常有香客問(wèn)我，道長(zhǎng)背犯，這世上最難降的妖魔是什么坏瘩？我笑而不...
開封第一講書人閱讀 58,586評(píng)論 1贊 293
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮漠魏，結(jié)果婚禮上倔矾，老公的妹妹穿的比我還像新娘。我一直安慰自己柱锹，他們只是感情好哪自，可當(dāng)我...
茶點(diǎn)故事閱讀 67,633評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開白布。她就那樣靜靜地躺著禁熏，像睡著了一般壤巷。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上瞧毙，一...
開封第一講書人閱讀 51,488評(píng)論 1贊 302
城市分裂傳說(shuō)
那天胧华，我揣著相機(jī)與錄音，去河邊找鬼宙彪。笑死矩动，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的释漆。我是一名探鬼主播悲没，決...
沈念sama閱讀 40,275評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼男图！你這毒婦竟也來(lái)了示姿？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 39,176評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤逊笆，失蹤者是張志新（化名）和其女友劉穎峻凫，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體览露，經(jīng)...
沈念sama閱讀 45,619評(píng)論 1贊 314
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,819評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年譬胎，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了差牛。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片命锄。...
茶點(diǎn)故事閱讀 39,932評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖偏化，靈堂內(nèi)的尸體忽然破棺而出脐恩，到底是詐尸還是另有隱情，我是刑警寧澤侦讨，帶...
沈念sama閱讀 35,655評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布驶冒，位于F島的核電站韵卤，受9級(jí)特大地震影響骗污，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜沈条，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,265評(píng)論 3贊 329
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一需忿、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧蜡歹，春花似錦屋厘、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,871評(píng)論 0贊 22
一樁弒父案汗洒，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至父款，卻和暖如春溢谤，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背铛漓。一陣腳步聲響...
開封第一講書人閱讀 32,994評(píng)論 1贊 269
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工溯香，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人浓恶。一個(gè)月前我還...
沈念sama閱讀 48,095評(píng)論 3贊 370
代替公主和親
正文我出身青樓玫坛，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親包晰。傳聞我的和親對(duì)象是個(gè)殘疾皇子湿镀，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,884評(píng)論 2贊 354