python數(shù)據(jù)分析項(xiàng)目——拉勾網(wǎng)數(shù)據(jù)分析職位(一)

????????????????本項(xiàng)目的數(shù)據(jù)來(lái)源是2019年拉勾網(wǎng)——上海的數(shù)據(jù)分析崗位的信息


首先第一步:爬取數(shù)據(jù)

爬取的代碼就不貼上來(lái)了,有很多種脓斩,本人的爬蟲(chóng)水平僅限于BeautifulSoup庫(kù)和requests庫(kù),更深入的scrapy等并沒(méi)掌握碍岔;注意用requests爬取的話畏线,請(qǐng)求方式是post,get是無(wú)法得到頁(yè)碼的

貼上最后爬取到的2019上海拉勾網(wǎng)數(shù)據(jù)分析崗位的csv文件鏈接:鏈接:https://pan.baidu.com/s/1jqYAs1HsBtHVM1BiRiHHqQ椭坚;提取碼:nfoh

第二步:數(shù)據(jù)的清洗和重構(gòu)

先正常導(dǎo)入數(shù)據(jù)分析需要的庫(kù)予跌,設(shè)置畫圖可顯示中文和負(fù)號(hào)以及seaborn的主題

讀取文件,爬取后的源數(shù)據(jù)是這樣的

然后是去重善茎,inplace=True直接將去重后的結(jié)果保存下來(lái)券册。

df.drop_duplicates(subset=['公司全稱','職位名稱','技能標(biāo)簽'], keep='first', inplace=True)

接下來(lái)要判斷是否有缺失值,有的話需要處理缺失值

從上圖可以看到還是有不少公司地址是帶缺失的垂涯,我們這里可以填補(bǔ)成“未知”烁焙,再用布爾值索引方法看是否處理成功

df[df.fillna('未知').isna().values == True]

看數(shù)據(jù)發(fā)現(xiàn),我們需要再添加一列薪資列耕赘,取薪資范圍的中間值骄蝇,方便之后做數(shù)據(jù)分析

tmp = df['薪資范圍'].str.split('-', expand=True)

def drop_k(x):?

? ?? return re.search('\d+', x).group()

tmp = tmp.applymap(drop_k)

tmp = tmp.apply(pd.to_numeric)

def average_s(x):

????return (x[0] + x[1]) / 2

tmp['平均薪資'] = tmp.apply(average_s, axis=1)

tmp

上述處理過(guò)后,可以發(fā)現(xiàn)操骡,平均薪資已經(jīng)出來(lái)了九火,就是薪資范圍下限和薪資范圍上限的均值

把列的名字改一下赚窃,可讀性更強(qiáng)

tmp = tmp.rename({0:'最低薪資 單位:k',1:'最高薪資 單位:k','平均薪資':'平均薪資 單位:k'}, axis=1)

然后我們把做好的平均薪資表和原表合并一下

df = df.join(tmp)

現(xiàn)在,我們基本的數(shù)據(jù)清洗和重構(gòu)已經(jīng)完成了吃既,后續(xù)就是根據(jù)具體要分析的內(nèi)容來(lái)做可視化了

第三步:數(shù)據(jù)分析

我們先來(lái)分析下不同工作經(jīng)驗(yàn)的崗位數(shù)量情況考榨,并用直方圖和餅圖來(lái)可視化

首先去除“不限”這個(gè)不確定因素,然后將目前的“所需資歷”按照從少到多來(lái)排序鹦倚,增加可讀性

tmp = df[df['所需資歷'] != '不限']

result = tmp.groupby('所需資歷')?

tmp2 = result.size()?

list_custom = ['應(yīng)屆畢業(yè)生', '1年以下', '1-3年', '3-5年', '5-10年', '10年以上']

下面自定義兩個(gè)函數(shù)河质,一個(gè)專門進(jìn)行排序,一個(gè)專門獲取索引值和列值震叙,后續(xù)也會(huì)用到

先用seaborn來(lái)畫Bar狀圖

可以直觀看到掀鹅,工作經(jīng)驗(yàn)要求3-5年的最多,1-3年其次媒楼,剛畢業(yè)或1年以下的經(jīng)驗(yàn)是比較少的乐尊,我們換個(gè)餅圖來(lái)看一下:

from pyecharts import Pie

pie = Pie('上海拉勾網(wǎng)數(shù)據(jù)分析 工作經(jīng)驗(yàn)統(tǒng)計(jì)')

pie.add('', xindex, vals, is_label_show=True, legend_top='bottom',

? ??????????????radius=[20,75], rosetype='area')

pie

未完待續(xù),后續(xù)繼續(xù)分析教育背景和薪資間的關(guān)系划址,工作經(jīng)驗(yàn)和薪資之間的關(guān)系扔嵌,公司行業(yè)的分布情況,工作標(biāo)簽分布情況等等

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末夺颤,一起剝皮案震驚了整個(gè)濱河市痢缎,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌世澜,老刑警劉巖独旷,帶你破解...
    沈念sama閱讀 211,194評(píng)論 6 490
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異寥裂,居然都是意外死亡嵌洼,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,058評(píng)論 2 385
  • 文/潘曉璐 我一進(jìn)店門封恰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)麻养,“玉大人,你說(shuō)我怎么就攤上這事诺舔”畈” “怎么了?”我有些...
    開(kāi)封第一講書人閱讀 156,780評(píng)論 0 346
  • 文/不壞的土叔 我叫張陵混萝,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我萍恕,道長(zhǎng)逸嘀,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書人閱讀 56,388評(píng)論 1 283
  • 正文 為了忘掉前任允粤,我火速辦了婚禮崭倘,結(jié)果婚禮上翼岁,老公的妹妹穿的比我還像新娘。我一直安慰自己司光,他們只是感情好琅坡,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,430評(píng)論 5 384
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著残家,像睡著了一般榆俺。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上坞淮,一...
    開(kāi)封第一講書人閱讀 49,764評(píng)論 1 290
  • 那天茴晋,我揣著相機(jī)與錄音,去河邊找鬼回窘。 笑死诺擅,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的啡直。 我是一名探鬼主播烁涌,決...
    沈念sama閱讀 38,907評(píng)論 3 406
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼酒觅!你這毒婦竟也來(lái)了撮执?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書人閱讀 37,679評(píng)論 0 266
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤阐滩,失蹤者是張志新(化名)和其女友劉穎二打,沒(méi)想到半個(gè)月后,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體掂榔,經(jīng)...
    沈念sama閱讀 44,122評(píng)論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡继效,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,459評(píng)論 2 325
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了装获。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片瑞信。...
    茶點(diǎn)故事閱讀 38,605評(píng)論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖穴豫,靈堂內(nèi)的尸體忽然破棺而出凡简,到底是詐尸還是另有隱情,我是刑警寧澤精肃,帶...
    沈念sama閱讀 34,270評(píng)論 4 329
  • 正文 年R本政府宣布秤涩,位于F島的核電站,受9級(jí)特大地震影響司抱,放射性物質(zhì)發(fā)生泄漏筐眷。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,867評(píng)論 3 312
  • 文/蒙蒙 一习柠、第九天 我趴在偏房一處隱蔽的房頂上張望匀谣。 院中可真熱鬧照棋,春花似錦、人聲如沸武翎。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 30,734評(píng)論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)宝恶。三九已至符隙,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間卑惜,已是汗流浹背膏执。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 31,961評(píng)論 1 265
  • 我被黑心中介騙來(lái)泰國(guó)打工, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留露久,地道東北人更米。 一個(gè)月前我還...
    沈念sama閱讀 46,297評(píng)論 2 360
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像毫痕,于是被迫代替她去往敵國(guó)和親征峦。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,472評(píng)論 2 348

推薦閱讀更多精彩內(nèi)容