智聯(lián)招聘爬蟲demo分享

之前做過一陣子數(shù)據(jù)爬取的相關(guān)工作坟募,現(xiàn)有一個基于Scrapy的智聯(lián)招聘爬蟲demo分享,以供初學(xué)者學(xué)習(xí)之用。

demo鏈接:https://github.com/xander-ye/recruit_data

項目目錄結(jié)構(gòu)

下面簡單的介紹下

這里有三個主要的文件夾纹因,分別是:

  • Database(數(shù)據(jù)庫文件)
  • RecruitSpider(爬蟲程序)
  • Datamining(數(shù)據(jù)分析統(tǒng)計)

其實爬蟲分兩種盔腔,一種是通用爬蟲程序杠茬,就像搜索引擎一樣月褥,什么都爬,爬取的網(wǎng)站也沒有固定格式瓢喉,基本上也不限制域名宁赤;另外一種就是針對特定的網(wǎng)站,比如這里的智聯(lián)招聘栓票,它的數(shù)據(jù)具有規(guī)范的格式决左。

關(guān)于數(shù)據(jù)庫

爬取特定網(wǎng)站的程序,我一般的流程是先打開要爬取的網(wǎng)站走贪,收集需要爬取的內(nèi)容佛猛,關(guān)鍵字,據(jù)此建立數(shù)據(jù)庫坠狡。
這里我使用的mysqlWorkbench來生成數(shù)據(jù)庫文件
mysqlWorkbench下載
具體步驟:
打開mysqlWorkbench : File>New Model > Add Diagram
點擊新table按鈕新建一個表继找,如下圖:
雙擊表便可在下方添加字段。


創(chuàng)建好之后長這樣:

導(dǎo)出數(shù)據(jù)庫文件:
image.png

然后就是用這個文件去刷一下mysql就好了逃沿。
數(shù)據(jù)庫環(huán)節(jié)完成婴渡。

爬蟲程序

網(wǎng)上Scrapy也比較多,中英文的都有凯亮,這里貼一個中文的:http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

簡潔的梳理下爬取的流程:
在RecruitSpider>spiders>zhilian.py中start_requests方法開始缩搅,到parse_job_detail,此時數(shù)據(jù)item拋給了pipelines.py,在拋給pipelines.py 之前呢触幼,item自身有個對數(shù)據(jù)處理的過程硼瓣,這個過程便是在items.py中完成。
在pipelines.py中完成最終數(shù)據(jù)插入數(shù)據(jù)庫操作置谦。
涉及到的去重參見具體代碼吧堂鲤。

補充:
  • 爬蟲部署可采用scrapyd
  • 與scrapyd配套的有scrapyd-client,封裝了scrapyd的API媒峡,使得提交爬蟲瘟栖,調(diào)度爬蟲,停止爬蟲方便了許多
  • Gerapy是一個管理爬蟲的web界面谅阿,也是基于scrapyd

數(shù)據(jù)分析環(huán)節(jié)

去年年終的時候猛然間發(fā)現(xiàn)很多公眾號發(fā)布了各種領(lǐng)域半哟,各個方面的很多統(tǒng)計報告。這就是一個數(shù)據(jù)分析的結(jié)果∏┎停現(xiàn)在我們數(shù)據(jù)庫里面有了幾十上百萬的招聘數(shù)據(jù)寓涨,我們就可以從各個方面來進(jìn)行分析,比如各個城市平均薪資氯檐,各個城市薪資標(biāo)準(zhǔn)差戒良,各行業(yè)招聘數(shù)量,工資與學(xué)歷關(guān)系冠摄,與工作年限關(guān)系糯崎,以及具體到某行業(yè)不同崗位薪資區(qū)別几缭,等等。這些數(shù)據(jù)能夠幫助我們了解一個行業(yè)是否興旺發(fā)達(dá)沃呢,你當(dāng)前的工資水平在整個同行業(yè)同崗位來看處于一個什么樣的水平年栓,當(dāng)前最火熱的崗位技術(shù)是那些;這些信息了解的越多對于找工作的同學(xué)越有利薄霜,對于準(zhǔn)備換行的同學(xué)也是有一個極大的參考價值某抓。

具體分析用到了pandas,可視化使用的是matplotlib黄锤,它們具體的教程各位也自行去搜索吧搪缨。

推薦下 jupyter notebook,這個工具在數(shù)據(jù)分析的時候超級方便鸵熟。

這里象征性的分析了兩三個數(shù)據(jù)副编,貼在下面:


各行業(yè)招聘人數(shù)排名
工資與學(xué)歷關(guān)系
各行業(yè)平均薪資

微信公眾號
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市流强,隨后出現(xiàn)的幾起案子痹届,更是在濱河造成了極大的恐慌,老刑警劉巖打月,帶你破解...
    沈念sama閱讀 218,682評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件队腐,死亡現(xiàn)場離奇詭異,居然都是意外死亡奏篙,警方通過查閱死者的電腦和手機柴淘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,277評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來秘通,“玉大人为严,你說我怎么就攤上這事》蜗。” “怎么了第股?”我有些...
    開封第一講書人閱讀 165,083評論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀的道長话原。 經(jīng)常有香客問我夕吻,道長,這世上最難降的妖魔是什么繁仁? 我笑而不...
    開封第一講書人閱讀 58,763評論 1 295
  • 正文 為了忘掉前任涉馅,我火速辦了婚禮,結(jié)果婚禮上改备,老公的妹妹穿的比我還像新娘控漠。我一直安慰自己,他們只是感情好悬钳,可當(dāng)我...
    茶點故事閱讀 67,785評論 6 392
  • 文/花漫 我一把揭開白布盐捷。 她就那樣靜靜地躺著,像睡著了一般默勾。 火紅的嫁衣襯著肌膚如雪碉渡。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,624評論 1 305
  • 那天母剥,我揣著相機與錄音滞诺,去河邊找鬼。 笑死环疼,一個胖子當(dāng)著我的面吹牛习霹,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播炫隶,決...
    沈念sama閱讀 40,358評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼淋叶,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了伪阶?” 一聲冷哼從身側(cè)響起煞檩,我...
    開封第一講書人閱讀 39,261評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎栅贴,沒想到半個月后斟湃,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,722評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡檐薯,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,900評論 3 336
  • 正文 我和宋清朗相戀三年凝赛,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片坛缕。...
    茶點故事閱讀 40,030評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡墓猎,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出祷膳,到底是詐尸還是另有隱情陶衅,我是刑警寧澤,帶...
    沈念sama閱讀 35,737評論 5 346
  • 正文 年R本政府宣布直晨,位于F島的核電站搀军,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏勇皇。R本人自食惡果不足惜罩句,卻給世界環(huán)境...
    茶點故事閱讀 41,360評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望敛摘。 院中可真熱鬧门烂,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,941評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至慨丐,卻和暖如春坡脐,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背房揭。 一陣腳步聲響...
    開封第一講書人閱讀 33,057評論 1 270
  • 我被黑心中介騙來泰國打工备闲, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人捅暴。 一個月前我還...
    沈念sama閱讀 48,237評論 3 371
  • 正文 我出身青樓恬砂,卻偏偏與公主長得像,于是被迫代替她去往敵國和親蓬痒。 傳聞我的和親對象是個殘疾皇子泻骤,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,976評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 爬蟲文章 in 簡書程序員專題: like:128-Python 爬取落網(wǎng)音樂 like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,755評論 4 411
  • 1 前言 作為一名合格的數(shù)據(jù)分析師,其完整的技術(shù)知識體系必須貫穿數(shù)據(jù)獲取乳幸、數(shù)據(jù)存儲瞪讼、數(shù)據(jù)提取、數(shù)據(jù)分析粹断、數(shù)據(jù)挖掘符欠、...
    whenif閱讀 18,074評論 45 523
  • Python開發(fā)簡單爬蟲(Python2.X版本,Eclipse工具) 一瓶埋、爬蟲介紹 爬蟲調(diào)度端:啟動希柿、停止爬蟲,...
    凜0_0閱讀 2,135評論 2 10
  • 歲月如同一把尖刀 鋒利無比 把你我容顏改變 當(dāng)青澀懵懂時 一句問候就能融化了寒冰 夢里都是熱情的輕撫 后來漸成陌路...
    此城此警閱讀 371評論 0 1
  • 在高中時挤悉,最喜歡的解壓方式,就是每天晚上鉆在被窩里巫湘。偷偷打開手機收音機装悲,聽一個叫星光慢搖吧的電臺節(jié)目。那時候很喜歡...
    A千樹姑娘閱讀 164評論 0 1