最近對(duì)數(shù)據(jù)產(chǎn)品經(jīng)理這個(gè)崗位比較感興趣,想分析一下當(dāng)前這個(gè)方向的就業(yè)條件和職責(zé)苛萎,簡(jiǎn)單使用R的jiebaR包對(duì)搜集來(lái)的崗位描述和要求描述進(jìn)行詞頻的分析和詞云的生成羽历。
程序
首先,準(zhǔn)備好數(shù)據(jù)文件jds.txt沮翔。此文件內(nèi)容是從拉勾網(wǎng)搜索“數(shù)據(jù)產(chǎn)品經(jīng)理”的結(jié)果中具有代表性的職位描述中提取,總共包含大約40份崗位信息曲秉。
這里我們使用結(jié)巴分詞(jiebaR)采蚀,這是一款高效的R語(yǔ)言中文分詞包,感謝國(guó)人作者的貢獻(xiàn)承二。代碼片段如下:
library(jiebaR)
library(wordcloud)
#讀入數(shù)據(jù)分隔符是‘\n’榆鼠,字符編碼是‘UTF-8’
jd_file <- scan('D:/jds.txt',sep='\n',what='',encoding="UTF-8")
seg<-qseg[jd_file] #使用qseg類型分詞
seg<-seg[nchar(seg)>1] #去除字符長(zhǎng)度小于1的詞
seg<-table(seg)
seg<-seg[!grepl('[0-9]+',names(seg))]#過(guò)濾數(shù)字
seg
seg <- sort(seg, decreasing = TRUE)[1:50]
#獲得詞頻數(shù)前50的詞
seg
#制作詞云
bmp("jds.bmp", width = 800, height = 800)
wordcloud(names(seg), seg, colors = rainbow(100), random.order=F)
dev.off()
分析
詞頻統(tǒng)計(jì)
如上圖所示,詞頻分析結(jié)果亥鸠,默認(rèn)的順序英文分詞排序在前妆够,很遺憾這里沒(méi)有做大小寫(xiě)敏感處理。這些詞對(duì)應(yīng)的更多是數(shù)據(jù)產(chǎn)品經(jīng)理所需要掌握的技能负蚊,比如:axure神妹、excel、hadoop家妆、MySQL鸵荠、SQL等。大概可以將其分為三類:
- 產(chǎn)品原型設(shè)計(jì):如Axure揩徊、Photoshop腰鬼、Sketch等
- 數(shù)據(jù)挖掘/分析工具:如Excel、Python塑荒、SQL熄赡、Hive、SPSS等
- 常用辦公軟件:如PPT齿税、Word等
除此以外彼硫,一些更偏向技術(shù)開(kāi)發(fā)的工具,如Linux凌箕、Java也位列其中拧篮,想必這個(gè)崗位跟技術(shù)有著密切的聯(lián)系。
Top50詞頻
分析Top50的詞頻牵舱,可以幫助我們發(fā)現(xiàn)公司對(duì)這個(gè)崗位更全面職責(zé)和軟硬實(shí)力要求串绩,從這些詞匯中我們可以發(fā)現(xiàn)如下三條:
- 此工作對(duì)工作經(jīng)驗(yàn)要求比較高,對(duì)于技術(shù)能力方面的要求也不容忽視芜壁,有數(shù)據(jù)產(chǎn)品相關(guān)領(lǐng)域的豐厚經(jīng)驗(yàn)的人士?jī)?yōu)先考慮
- 在日常的工作中礁凡,良好的理解高氮、溝通和邏輯思維能力是必備的(跟各個(gè)部門(mén)協(xié)(si)調(diào)(bi)能不需要這些能力嗎?要不然被拍死在沙灘上)
- 要求熟悉互聯(lián)網(wǎng)顷牌,理解并踐行以用戶為核心的互聯(lián)網(wǎng)產(chǎn)品觀
Top50詞云
Future
- 嘗試使用Python寫(xiě)爬蟲(chóng)程序到招聘網(wǎng)站上自動(dòng)獲取職位信息剪芍,以構(gòu)建更大的數(shù)據(jù)源文件
- 使用停用詞過(guò)濾
- 大小寫(xiě)不敏感