嘗試一下爬取網(wǎng)站的網(wǎng)頁數(shù)據(jù)

一、環(huán)境:
python3.+
在IDLE中(pycharm也可)

二喇聊、目標(biāo):
爬取拉勾網(wǎng)的python相關(guān)職位信息芜飘。

三务豺、思路:
當(dāng)準(zhǔn)備爬取某網(wǎng)站數(shù)據(jù)時,應(yīng)明確一下思路嗦明,爬蟲是使用程序模擬人的瀏覽器操作獲取數(shù)據(jù)的過程笼沥。所有的操作都是圍繞著請求與響應(yīng)。

四娶牌、步驟:
1奔浅、打開拉勾網(wǎng),在搜索框中輸入python诗良,如圖:


image.png

紅框中的每一行就是一個個的項(xiàng)目信息汹桦,我們就是要爬取這些信息。

2鉴裹、打開命令行舞骆,輸入 pip install requests 安裝requests庫钥弯,用于網(wǎng)絡(luò)請求


image.png

在進(jìn)入網(wǎng)頁的時候,有人會使用Get方式請求督禽,并將當(dāng)前的網(wǎng)頁直接作為目標(biāo)url脆霎,會直接被服務(wù)器給pass掉,因?yàn)檎鎸?shí)的瀏覽器在訪問時一定會帶有一些參數(shù)的狈惫,故而在請求方式與參數(shù)都不正確的情況下睛蛛,服務(wù)器自然判定為爬蟲,不會返回正確的數(shù)據(jù)胧谈。

3忆肾、此時,可按F12查看當(dāng)前網(wǎng)頁中的NetWork項(xiàng)菱肖,一般的前端在請求數(shù)據(jù)的過程客冈,都是先請求個大的網(wǎng)頁框架,然后在容器中進(jìn)一步發(fā)送請求蔑滓,才能獲得容器內(nèi)部的數(shù)據(jù)郊酒,一般會采用Ajax請求,所以可以點(diǎn)擊XHR键袱,找到其中的positionAjax查看真實(shí)的url、headers以及formData此三項(xiàng)摹闽。
如圖:


image.png

那么如何爬取呢蹄咖?

打開python的IDLE:
按下Ctil + N進(jìn)入編輯模式

注意:
使用IDEL需要先保存,再按F5運(yùn)行付鹿。
為了更好的模仿瀏覽器去請求數(shù)據(jù)澜汤,在請求一次網(wǎng)頁之后,我們給爬蟲隨機(jī)休眠一段時間舵匾。
我們所需要的數(shù)據(jù)就在上圖中的Preview(Headers右邊)中俊抵,如下圖。


雖然不是很清晰坐梯,但應(yīng)該不影響閱讀

所寫爬蟲代碼如下:

#coding:gbk
import requests #導(dǎo)入網(wǎng)絡(luò)請求庫
import random #導(dǎo)入隨機(jī)數(shù)庫

#這才是真實(shí)的url
url = 'https://www.lagou.com/jobs/positionAjax.json?city=%E5%8C%97%E4%BA%AC&needAddtionalResult=false'

#請求頭中的這些參數(shù)一般被用來做反爬的判斷依據(jù)徽诲,每個人的User-Agent是不一樣的
the_headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36',
    'Referer':'https://www.lagou.com/jobs/list_python?labelWords=&fromSearch=true&suginput=',
    'Host':'www.lagou.com',
    'X-Anit-Forge-Code':'0',
    'X-Anit-Forge-Token':None,
    'X-Requested-With':'XMLHttpRequest'
}

#循環(huán)爬取30頁的數(shù)據(jù)
for pages in range(1,31):
    #post請求中要帶上一些參數(shù)
    the_data = {
        'first':'true',
        'pn':pages,
        'kd':'python'
        }

    #向服務(wù)器請求數(shù)據(jù)
    result = requests.post(url, headers = the_headers, data = the_data)

    jsonResult = result.json()

    #我們想要的數(shù)據(jù)內(nèi)容就從下面的關(guān)鍵字中一個層級一個層級的向下找
    json_result = jsonResult['content']['positionResult']['result']

    print(json_result)

    #為了模擬真實(shí)的瀏覽器操作,需要不定時休眠
    random.randint(20,36)

print('所有頁面爬取成功')

結(jié)果:

image.png

如上圖所示吵血,已經(jīng)爬取了很多頁了谎替,但是后面幾頁還是出了問題,問題在于休眠的時間設(shè)置的不夠長蹋辅,還是被服務(wù)器判別出了爬蟲钱贯,因此不進(jìn)行響應(yīng),只需要在休眠時間上放的更久即可侦另,本程序中使用的休眠時間是20秒到36秒秩命,可以嘗試40秒到60.

結(jié)束尉共。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市弃锐,隨后出現(xiàn)的幾起案子爸邢,更是在濱河造成了極大的恐慌,老刑警劉巖拿愧,帶你破解...
    沈念sama閱讀 206,378評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件杠河,死亡現(xiàn)場離奇詭異,居然都是意外死亡浇辜,警方通過查閱死者的電腦和手機(jī)券敌,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,356評論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來柳洋,“玉大人待诅,你說我怎么就攤上這事⌒芰停” “怎么了卑雁?”我有些...
    開封第一講書人閱讀 152,702評論 0 342
  • 文/不壞的土叔 我叫張陵,是天一觀的道長绪囱。 經(jīng)常有香客問我测蹲,道長,這世上最難降的妖魔是什么鬼吵? 我笑而不...
    開封第一講書人閱讀 55,259評論 1 279
  • 正文 為了忘掉前任扣甲,我火速辦了婚禮,結(jié)果婚禮上齿椅,老公的妹妹穿的比我還像新娘琉挖。我一直安慰自己,他們只是感情好涣脚,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,263評論 5 371
  • 文/花漫 我一把揭開白布示辈。 她就那樣靜靜地躺著,像睡著了一般遣蚀。 火紅的嫁衣襯著肌膚如雪矾麻。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,036評論 1 285
  • 那天妙同,我揣著相機(jī)與錄音射富,去河邊找鬼。 笑死粥帚,一個胖子當(dāng)著我的面吹牛胰耗,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播芒涡,決...
    沈念sama閱讀 38,349評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼柴灯,長吁一口氣:“原來是場噩夢啊……” “哼卖漫!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起赠群,我...
    開封第一講書人閱讀 36,979評論 0 259
  • 序言:老撾萬榮一對情侶失蹤羊始,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后查描,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體突委,經(jīng)...
    沈念sama閱讀 43,469評論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,938評論 2 323
  • 正文 我和宋清朗相戀三年冬三,在試婚紗的時候發(fā)現(xiàn)自己被綠了匀油。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,059評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡勾笆,死狀恐怖敌蚜,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情窝爪,我是刑警寧澤弛车,帶...
    沈念sama閱讀 33,703評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站蒲每,受9級特大地震影響纷跛,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜啃勉,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,257評論 3 307
  • 文/蒙蒙 一忽舟、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧淮阐,春花似錦、人聲如沸刁品。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,262評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽挑随。三九已至状您,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間兜挨,已是汗流浹背膏孟。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評論 1 262
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留拌汇,地道東北人柒桑。 一個月前我還...
    沈念sama閱讀 45,501評論 2 354
  • 正文 我出身青樓,卻偏偏與公主長得像噪舀,于是被迫代替她去往敵國和親魁淳。 傳聞我的和親對象是個殘疾皇子飘诗,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,792評論 2 345

推薦閱讀更多精彩內(nèi)容

  • 爬蟲文章 in 簡書程序員專題: like:128-Python 爬取落網(wǎng)音樂 like:127-【圖文詳解】py...
    喜歡吃栗子閱讀 21,737評論 4 412
  • 聲明:本文講解的實(shí)戰(zhàn)內(nèi)容,均僅用于學(xué)習(xí)交流界逛,請勿用于任何商業(yè)用途昆稿! 一、前言 強(qiáng)烈建議:請?jiān)陔娔X的陪同下息拜,閱讀本文...
    Bruce_Szh閱讀 12,679評論 6 28
  • 作者:Python學(xué)習(xí) 鏈接:http://www.reibang.com/p/c2473f3ebf75 環(huán)境...
    步_塵閱讀 6,897評論 1 40
  • 青春本是一張黑白相片溉潭,歲月便是濾鏡,為它涂抹上色彩少欺。 自然下的青春充滿生命的活力喳瓣,傍晚在操場上慢跑的身影,左右晃動...
    要不要洗碗閱讀 235評論 5 3
  • 2017.09.10【黃~茶之醇&白~茶之甘】 上午狈茉,茶修第四課~~黃茶夫椭,白茶 今天教師節(jié),祝福所有為我?guī)熣吖?jié)日快...
    慧盈I閱讀 304評論 0 2