在看了一些HTTP協(xié)議和Python基礎(chǔ)語(yǔ)法之后,發(fā)現(xiàn)爬取數(shù)據(jù)并沒(méi)有之前想象中那么難。
千里之行始于足下伏伐,我先定個(gè)小目標(biāo),比如爬取百度首頁(yè)的Logo晕拆。
# 比如我要把百度的logo圖片爬取下來(lái)藐翎,并把圖片存儲(chǔ)到本地
import requests
response = requests.get('https://ss0.bdstatic.com/5aV1bjqh_Q23odCf/static/superman/img/logo/bd_logo1_31bdc765.png')
content = response.content
with open('E:/爬取的數(shù)據(jù)/1.png', 'wb') as f:
f.write(content)
f.close()
首先要倒入requests庫(kù),里面包含了對(duì)網(wǎng)頁(yè)的一些請(qǐng)求操作实幕。具體我現(xiàn)在也不清楚吝镣,不過(guò)以后會(huì)知道的。
1昆庇、首先要知道這個(gè)圖片的URL
打開(kāi)百度首頁(yè)末贾,按F12審查頁(yè)面元素。如下圖
image.png
再選中2號(hào)紅框中的百度圖片時(shí)整吆,會(huì)發(fā)現(xiàn)下面<img>標(biāo)簽被選中了拱撵,這是瀏覽器告訴你就是這條HTML代碼來(lái)渲染的這個(gè)圖片。
src屬性告訴我們這個(gè)圖片的URL是多少表蝙。
2拴测、把這個(gè)URL傳給requests.get()函數(shù),得到的就是請(qǐng)求返回的response府蛇。
3集索、通過(guò)content屬性來(lái)獲取response的內(nèi)容
4、利用open()和write()函數(shù)寫入本地指定路徑的文件中汇跨。
存儲(chǔ)圖片時(shí)有一點(diǎn)很有趣务荆,URL中指定圖片時(shí)png格式的,但是我測(cè)試保存成jpg格式也是可以打開(kāi)的扰法。