爬取拉勾網(wǎng)數(shù)據(jù)分析師崗位

本次筆記主要記錄了本人利用python編寫(xiě)爬蟲(chóng)對(duì)拉勾網(wǎng)的數(shù)據(jù)分析師崗進(jìn)行爬取,因?yàn)榇蛩銖氖聰?shù)據(jù)分析師這個(gè)職業(yè),所以想對(duì)這個(gè)職業(yè)進(jìn)行一個(gè)數(shù)據(jù)分析酥艳。

首先進(jìn)行數(shù)據(jù)分析第一步是要獲取數(shù)據(jù)景殷,我選擇了從拉勾網(wǎng)進(jìn)行數(shù)據(jù)爬取。本次運(yùn)用到的知識(shí)主要是python, html, json垦藏。

先進(jìn)入拉勾網(wǎng)并用Chrome瀏覽器的開(kāi)發(fā)者工具對(duì)頁(yè)面進(jìn)行觀察。

紅色區(qū)域即是當(dāng)前元素所處位置

觀察發(fā)現(xiàn)其實(shí)標(biāo)簽內(nèi)部數(shù)據(jù)并不是特別完整伞访,很多數(shù)據(jù)都被藏在了元素內(nèi)部掂骏,這樣想通過(guò)Xpath提取會(huì)變得非常麻煩和困難,因此嘗試其他方法厚掷,拉勾網(wǎng)具有反爬技術(shù)弟灼,為了防止盜鏈,采用了json頁(yè)面?zhèn)鬏敂?shù)據(jù)冒黑,因此我選擇去采集json數(shù)據(jù)田绑。

再進(jìn)行一次搜索


利用開(kāi)發(fā)者工具找到j(luò)son頁(yè)面
檢查json數(shù)據(jù)

發(fā)現(xiàn)有完整json數(shù)據(jù),因此開(kāi)始編寫(xiě)爬蟲(chóng)代碼對(duì)數(shù)據(jù)進(jìn)行爬取抡爹。

首先要設(shè)置要訪(fǎng)問(wèn)的url網(wǎng)址和請(qǐng)求頭文件掩驱。url網(wǎng)址是要爬取的頁(yè)面域名,請(qǐng)求頭文件則是訪(fǎng)問(wèn)網(wǎng)站時(shí)訪(fǎng)問(wèn)者的一些信息冬竟,例如用戶(hù)名欧穴,所用瀏覽器,訪(fǎng)問(wèn)源頭等泵殴,如果不設(shè)置頭文件涮帘,則很大程度會(huì)因?yàn)樵L(fǎng)問(wèn)頻度過(guò)高被當(dāng)作機(jī)器人而封殺ip。

先通過(guò)開(kāi)發(fā)者工具獲取url地址笑诅。

隨后再通過(guò)開(kāi)發(fā)者工具獲取請(qǐng)求頭文件Request Headers调缨。其中主要是獲取User-Agent, Referer 和Cookie疮鲫。

將以上內(nèi)容分別寫(xiě)入代碼中。

設(shè)置url和請(qǐng)求頭文件

在發(fā)送請(qǐng)求的時(shí)候有兩種發(fā)送參數(shù)方式弦叶,一種是get俊犯,另一種是post。post會(huì)以表格發(fā)送的方式發(fā)送給響應(yīng)端湾蔓,無(wú)法直接在鏈接中賦值瘫析,因此需要設(shè)置一個(gè)字典來(lái)作為表格數(shù)據(jù)發(fā)送給響應(yīng)端。從開(kāi)發(fā)者工具中可以看到表格內(nèi)部的結(jié)構(gòu)和信息默责。


因此構(gòu)建一個(gè)字典用來(lái)存儲(chǔ)參數(shù)數(shù)據(jù)贬循。

這里使用request包來(lái)發(fā)送請(qǐng)求。

發(fā)送請(qǐng)求后會(huì)得到一個(gè)response桃序,同時(shí)為了避免編碼錯(cuò)誤要先將response的編碼設(shè)置為utf-8杖虾。然后利用json包用的json.loads()方法將取得的response轉(zhuǎn)化為字典格式。根據(jù)先前對(duì)json結(jié)構(gòu)分析媒熊,要進(jìn)入到嵌套字典的最內(nèi)部才能取得一個(gè)result的list奇适。


在取出list以后將值返給函數(shù)并進(jìn)入數(shù)據(jù)提取階段。

設(shè)置一個(gè)字典用以存儲(chǔ)所要保存的值芦鳍。

隨后開(kāi)始批量提取并存儲(chǔ)數(shù)據(jù)嚷往。


在主函數(shù)中對(duì)每一頁(yè)進(jìn)行上述操作的循環(huán)。

通過(guò)改變data中pn的值來(lái)進(jìn)行翻頁(yè)柠衅,同時(shí)在循環(huán)結(jié)束后皮仁,先將字典轉(zhuǎn)為DataFrame格式,再用DataFrame中的內(nèi)置方法進(jìn)行處理并導(dǎo)出為csv格式文件菲宴。最終獲取的文件可以用excel打開(kāi)后效果如下贷祈。

由于編碼為utf-8因此Excel無(wú)法直接讀取,在此將文件格式轉(zhuǎn)為ansi以后喝峦,再次打開(kāi)如下势誊。

本章結(jié)束,下一章將講解如何用Excel進(jìn)行數(shù)據(jù)清洗和數(shù)據(jù)分析谣蠢。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末粟耻,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子眉踱,更是在濱河造成了極大的恐慌勋颖,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,968評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件勋锤,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡侥祭,警方通過(guò)查閱死者的電腦和手機(jī)叁执,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,601評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén)茄厘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人谈宛,你說(shuō)我怎么就攤上這事次哈。” “怎么了吆录?”我有些...
    開(kāi)封第一講書(shū)人閱讀 153,220評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵窑滞,是天一觀的道長(zhǎng)。 經(jīng)常有香客問(wèn)我恢筝,道長(zhǎng)哀卫,這世上最難降的妖魔是什么? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,416評(píng)論 1 279
  • 正文 為了忘掉前任撬槽,我火速辦了婚禮此改,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘侄柔。我一直安慰自己共啃,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,425評(píng)論 5 374
  • 文/花漫 我一把揭開(kāi)白布暂题。 她就那樣靜靜地躺著移剪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪薪者。 梳的紋絲不亂的頭發(fā)上纵苛,一...
    開(kāi)封第一講書(shū)人閱讀 49,144評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音啸胧,去河邊找鬼赶站。 笑死,一個(gè)胖子當(dāng)著我的面吹牛纺念,可吹牛的內(nèi)容都是我干的贝椿。 我是一名探鬼主播,決...
    沈念sama閱讀 38,432評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼陷谱,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼烙博!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起烟逊,我...
    開(kāi)封第一講書(shū)人閱讀 37,088評(píng)論 0 261
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤渣窜,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后宪躯,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體乔宿,經(jīng)...
    沈念sama閱讀 43,586評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,028評(píng)論 2 325
  • 正文 我和宋清朗相戀三年访雪,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了详瑞。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片掂林。...
    茶點(diǎn)故事閱讀 38,137評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖坝橡,靈堂內(nèi)的尸體忽然破棺而出泻帮,到底是詐尸還是另有隱情,我是刑警寧澤计寇,帶...
    沈念sama閱讀 33,783評(píng)論 4 324
  • 正文 年R本政府宣布锣杂,位于F島的核電站,受9級(jí)特大地震影響番宁,放射性物質(zhì)發(fā)生泄漏元莫。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,343評(píng)論 3 307
  • 文/蒙蒙 一贝淤、第九天 我趴在偏房一處隱蔽的房頂上張望柒竞。 院中可真熱鬧,春花似錦播聪、人聲如沸朽基。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,333評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)稼虎。三九已至,卻和暖如春招刨,著一層夾襖步出監(jiān)牢的瞬間霎俩,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,559評(píng)論 1 262
  • 我被黑心中介騙來(lái)泰國(guó)打工沉眶, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留打却,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 45,595評(píng)論 2 355
  • 正文 我出身青樓谎倔,卻偏偏與公主長(zhǎng)得像柳击,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子片习,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,901評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容