8586231_192932724000_2.jpg
我們爬取網(wǎng)頁(yè),重要的是前期的分析工作驾凶,比著教程寫出來(lái)的爬蟲(chóng)與自己能獨(dú)立寫出來(lái)有著不小的距離牙甫,所以我們學(xué)習(xí)爬蟲(chóng),更重要的是學(xué)習(xí)教程的構(gòu)思過(guò)程调违,當(dāng)然窟哺,代碼本身要通過(guò)大量的實(shí)踐來(lái)熟悉爬蟲(chóng)的過(guò)程。
-
比如這樣的瀏覽器開(kāi)發(fā)者工具技肩,當(dāng)我按下F12彈出這樣的界面時(shí)候且轨,直接蒙圈了,甚至它沒(méi)有任何反爬蟲(chóng),我也找不到要爬的內(nèi)容旋奢。所以在學(xué)習(xí)的過(guò)程中泳挥,要始終保持謙虛的心態(tài),知道只是冰山一角黄绩。
image.png
代碼與解析過(guò)程:
__author__ = 'Administrator'
#爬取糗事百科段子
#目標(biāo)網(wǎng)址:https://www.qiushibaike.com/
#第二頁(yè):https://www.qiushibaike.com/8hr/page/2/
#第三頁(yè):https://www.qiushibaike.com/8hr/page/3/
#第一步:通過(guò)構(gòu)造url爬取前三頁(yè)的頁(yè)面
import requests
from lxml import etree
headers={'User-Agent':'Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'}
#循環(huán)構(gòu)造url
for i in range(1,4):
url='https://www.qiushibaike.com/8hr/page/'+str(i)+'/'
response=requests.get(url,headers=headers).text
# print(response)
html=etree.HTML(response)
#xpath解析出段子的鏈接
result1=html.xpath('//div[@class="recommend-article"]//li/a/@href')
print(result1)
#https://www.qiushibaike.com/article/121207893
#通過(guò)構(gòu)造拼接具體段子的鏈接并爬取
for site in result1:
url2='https://www.qiushibaike.com'+site
response2=requests.get(url2,headers=headers).text
html2=etree.HTML(response2)
result2=html2.xpath('//div[@class="content"]')
print(result2[0].text)
返回結(jié)果:
弟也叫雷雷羡洁,你姓什么?”回“杜”然后爽丹,就沒(méi)有然后了筑煮。。粤蝎。
千萬(wàn)別讓農(nóng)夫山泉知道了真仲,他們是大自然的搬運(yùn)工
這是親爸!
2018紅牛墜山賽初澎,第一視角秸应。
聽(tīng)說(shuō)燕窩大補(bǔ),今天刮大風(fēng)破天荒的碰巧撿了一個(gè)碑宴,不知道怎么吃软啼,各位大神求告知
昨晚終于把夢(mèng)寐已久的女神辦了,心里美的我睡覺(jué)都咧著嘴延柠。第二天祸挪,女神就對(duì)我翻白眼說(shuō):這么多人,美成這樣的你還是第一個(gè)贞间!
唉~只能畫(huà)畫(huà)表情包了贿条!哈哈哈~
看了好幾遍…………
如果讓男人看娃… 你永遠(yuǎn)都不知道他們能作出什么妖…