本文的文字及圖片來(lái)源于網(wǎng)絡(luò),僅供學(xué)習(xí)、交流使用,不具有任何商業(yè)用途,版權(quán)歸原作者所有,如有問(wèn)題請(qǐng)及時(shí)聯(lián)系我們以作處理
本文章來(lái)自騰訊云 作者:Python進(jìn)階者
博海拾貝是一支互聯(lián)網(wǎng)從業(yè)者在線教育的團(tuán)隊(duì)珊搀,扎根于中國(guó)教育行業(yè)以及互聯(lián)網(wǎng)行業(yè)的創(chuàng)新和眼球中蕊温,打造專業(yè)體系化的互聯(lián)網(wǎng)人在線教育平臺(tái)扒磁。精心創(chuàng)作許多精彩的文章庆揪,提供了很多有趣的圖片。
今天來(lái)教大家如何使用Python來(lái)爬取博海拾貝的圖片妨托,分類保存缸榛,寫(xiě)入文檔吝羞。
【二、項(xiàng)目目標(biāo)】
創(chuàng)建一個(gè)文件夾内颗, 分類保存所有文章圖片钧排。下載成功,結(jié)果顯示控制臺(tái)起暮。
【三卖氨、項(xiàng)目分析】
1会烙、如何找到真正訪問(wèn)的地址负懦,多網(wǎng)頁(yè)請(qǐng)求?
滑動(dòng)鼠標(biāo),觀察網(wǎng)站柏腻,右鍵F12 纸厉。鼠標(biāo)滾輪滑動(dòng)加載新內(nèi)容。如圖:
點(diǎn)開(kāi)隨機(jī)網(wǎng)頁(yè) , 點(diǎn)開(kāi)Request URL 五嫂,觀察網(wǎng)址的規(guī)律颗品。
https://bh.sb/page/1/
https://bh.sb/page/2/
https://bh.sb/page/3/
https://bh.sb/page/4/
觀察到,每增加一頁(yè)page/{}/自增加1沃缘,用{}代替變換的變量躯枢,再用for循環(huán)遍歷這網(wǎng)址,實(shí)現(xiàn)多個(gè)網(wǎng)址請(qǐng)求槐臀。
1锄蹂、 反爬處理
1)獲取正常的 http請(qǐng)求頭,并在requests請(qǐng)求時(shí)水慨,設(shè)置這些常規(guī)的http請(qǐng)求頭得糜。
2)使用 fake_useragent ,產(chǎn)生隨機(jī)的UserAgent進(jìn)行訪問(wèn)晰洒。
【四朝抖、涉及的庫(kù)和網(wǎng)站】
1、網(wǎng)址如下:
https://www.doutula.com/photo/list/?page={}
2谍珊、涉及的庫(kù):requests治宣、lxml、fake_useragent砌滞、time侮邀、os
3、軟件:PyCharm
【五布持、項(xiàng)目實(shí)施】
1豌拙、我們定義一個(gè)class類繼承object,然后定義init方法繼承self题暖,再定義一個(gè)主函數(shù)main繼承self按傅。導(dǎo)入需要的庫(kù)和網(wǎng)址捉超,創(chuàng)建保存文件夾。
import requests, os
from lxml import etree
from fake_useragent import UserAgent
import timeclass bnotiank(object): def __init__(self):
os.mkdir("圖片") # 在創(chuàng)建文件夾 記住只有第一次運(yùn)行加上唯绍,如果多次運(yùn)行請(qǐng)注釋掉本行拼岳。
def main(self):
pass
if __name__ == '__main__':
Siper=bnotiank()
Siper.main()
2、隨機(jī)UserAgent 况芒,構(gòu)造請(qǐng)求頭惜纸,防止反爬。
ua = UserAgent(verify_ssl=False)
for i in range(1, 50):
self.headers = { 'User-Agent': ua.random
}
3绝骚、發(fā)送請(qǐng)求 耐版,獲取響應(yīng),頁(yè)面回調(diào)压汪,方便下次請(qǐng)求粪牲。
'''發(fā)送請(qǐng)求 獲取響應(yīng)'''
def get_page(self, url):
res = requests.get(url=url, headers=self.headers) html = res.content.decode("utf-8")
return html
4、定義parse_page函數(shù)止剖,獲取二級(jí)頁(yè)面地址腺阳,for遍歷獲取需要的字段。
def parse_page(self, html):
parse_html = etree.HTML(html) image_src_list = parse_html.xpath('//p/a/@href')
# print(image_src_list)
5穿香、對(duì)二級(jí)頁(yè)面發(fā)生請(qǐng)求亭引,xpath解析數(shù)據(jù),獲取大圖片鏈接皮获。
reo = parse_html1.xpath('//div//div[@class="content"]') #父結(jié)點(diǎn)
for j in reo:
d = j.xpath('.//article[@class="article-content"]//p/img/@src')[0]
text = parse_html1.xpath('//h1[@class ="article-title"] //a/text()')[0].strip()
6焙蚓、請(qǐng)求圖片地址,寫(xiě)入文檔魔市。
html2 = requests.get(url=d, headers=self.headers).content
dirname = "./d/" + text + ".jpg" #定義圖命名
with open(dirname, 'wb') as f:
f.write(html2) print("%s 【下載成功V鹘臁!4隆君丁!】" % text)
7、調(diào)用方法将宪,實(shí)現(xiàn)功能绘闷。
url = self.url.format(page)
print(url)
html = self.get_page(url)
self.parse_page(html)
8、設(shè)置延時(shí)较坛。(防止ip被封)印蔗。
time.sleep(1) """時(shí)間延時(shí)"""
【六、效果展示】
1丑勤、點(diǎn)擊綠色小三角運(yùn)行輸入起始頁(yè)华嘹,終止頁(yè)。
2法竞、將下載成功信息顯示在控制臺(tái)耙厚。
3强挫、text 作為圖片命名,展示效果如下所示薛躬。
【七俯渤、總結(jié)】
1、不建議抓取太多數(shù)據(jù)型宝,容易對(duì)服務(wù)器造成負(fù)載八匠,淺嘗輒止即可。
2趴酣、本文基于Python網(wǎng)絡(luò)爬蟲(chóng)梨树,講述了反爬技巧,利用爬蟲(chóng)庫(kù)价卤,實(shí)現(xiàn)了分類圖片的獲取寄雀,存入文檔夕冲。
3堤如、希望通過(guò)這個(gè)項(xiàng)目宫补,能夠幫助了解xpath祈惶,字符串是如何拼接官地,format函數(shù)如何運(yùn)用挫掏。
4瘦陈、實(shí)現(xiàn)的時(shí)候鳖谈,總會(huì)有各種各樣的問(wèn)題岁疼,切勿眼高手低,勤動(dòng)手缆娃,才可以理解的更加深刻捷绒。