春天到了,春光明媚生逸,鳥語花香牢屋,各地都回溫了!公園里面的花都開了槽袄,這幾天都沒有心情工作烙无,準(zhǔn)備周末出去游山玩水,踏踏青遍尺!先用Python爬取一波妹子圖截酷,摸摸魚吧。
導(dǎo)入模塊
首先把用到的模塊貼進(jìn)來乾戏。
import requests
from bs4 import Beautiful Soup
import time
import random
抓取
煎蛋網(wǎng)的抓取流程:從第 101 頁開始抓取迂苛,提取頁面上的女裝圖片 url,請(qǐng)求 url 后保存圖片鼓择,點(diǎn)擊下一頁三幻,重復(fù)循環(huán)...。
當(dāng)訪問煎蛋網(wǎng)的http://jandan.net/girl頁面的時(shí)候呐能,它是顯示的最后一頁念搬。通過上面的分頁控件獲取下一頁的 url。
headers?=?{
'User-Agent':'Mozilla/5.0?(Windows?NT?10.0;?Win64;?x64)?AppleWebKit/537.36?(KHTML,?like?Gecko)?Chrome/97.0.4692.99?Safari/537.36'
}
defget_html(url):
resp?=?requests.get(url?=?url,?headers?=?headers)
soup?=?BeautifulSoup(resp.text)
returnsoup
defget_next_page(soup):
next_page?=?soup.find(class_='previous-comment-page')
next_page_href?=?next_page.get('href')
returnf'http:{next_page_href}'
可以看到每個(gè)圖片上都有[查看原圖]的超鏈接催跪,提取這個(gè) href 就是可以下載圖片了。
defget_img_url(soup):
a_list?=?soup.find_all(class_?='view_img_link')
urls?=?[]
foraina_list:
href?='http:'+?a.get('href')
urls.append(href)
returnurls
保存圖片就更簡(jiǎn)單了夷野,request 請(qǐng)求后直接寫入文件懊蒸。
defsave_image(urls):
foriteminurls:
name?=?item.split('/')[-1]
resp?=?requests.get(url=item,?headers?=?headers)
withopen('D:/xxoo/'+?name,'wb')asf:
f.write(resp.content)
time.sleep(random.randint(2,5))
最后來看一下抓取結(jié)果吧。
總結(jié)
這篇 request 爬蟲適合剛?cè)?python 和沒學(xué)過 soup 模塊的小伙伴悯搔。有興趣的小伙伴骑丸,可以動(dòng)手敲一下代碼。看百遍通危,讀千邊铸豁,不如動(dòng)手敲一邊。學(xué)習(xí)Python一定要?jiǎng)邮植僮骶盏瑢?shí)戰(zhàn)才行节芥。