本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖闺属,方便離線觀看。爬蟲用的是Python3.3開發(fā)的周霉,主要用到了urllib掂器、request和BeautifulSoup模塊。
提供了從萬維網(wǎng)中獲取數(shù)據(jù)的高層接口俱箱,當(dāng)我們用urlopen()打開一個URL時国瓮,就相當(dāng)于我們用Python內(nèi)建的open()打開一個文件。但不同的是狞谱,前者接收一個URL作為參數(shù)乃摹,并且沒有辦法對打開的文件流進行seek操作(從底層的角度看,因為實際上操作的是socket芋簿,所以理所當(dāng)然的沒辦法進行seek操作)峡懈,而后者接收的是一個本地文件名。
二.Python的BeautifulSoup模塊(可以幫助你實現(xiàn)HTML和XML的解析与斤。)
先說一下肪康,一般寫網(wǎng)頁爬蟲,即抓取網(wǎng)頁的html源碼等內(nèi)容撩穿,然后分析磷支,提取相對應(yīng)的內(nèi)容。
這種分析html內(nèi)容的工作食寡,如果只是普通的正則表達式re模塊去一點點匹配的話雾狈,對于內(nèi)容簡單點的網(wǎng)頁分析,還是基本夠用抵皱。
但是對于工作量很大善榛,要解析內(nèi)容很繁雜的html,那么用re模塊呻畸,就會發(fā)現(xiàn)無法實現(xiàn)移盆,或很難實現(xiàn)。
而用beautifulsoup模塊去幫你實現(xiàn)分析html源碼的工作的話伤为,你就會發(fā)現(xiàn)咒循,事情變得如此簡單,極大地提高了分析html源碼的效率。
注:BeautifulSoup是第三方庫叙甸,我使用的是bs4颖医。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下裆蒸。
Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.
爬蟲源碼如下:
# -*- coding: utf-8 -*-
import urllib.request
import bs4,os
page_sum = 1 #設(shè)置下載頁數(shù)
path = os.getcwd()
path = os.path.join(path,'暴走GIF')
if not os.path.exists(path):
os.mkdir(path) #創(chuàng)建文件夾
url = "http://baozoumanhua.com/gif/year" #url地址
headers = { #偽裝瀏覽器
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'
' Chrome/32.0.1700.76 Safari/537.36'
}
for count in range(page_sum):
req = urllib.request.Request(
url = url+str(count+1),
headers = headers
)
print(req.full_url)
content = urllib.request.urlopen(req).read()
soup = bs4.BeautifulSoup(content) # BeautifulSoup
img_content = soup.findAll('img',attrs={'style':'width:460px'})
url_list = [img['src'] for img in img_content] #列表推導(dǎo) url
title_list = [img['alt'] for img in img_content] #圖片名稱
for i in range(url_list.__len__()) :
imgurl = url_list[i]
filename = path + os.sep +title_list[i] + ".gif"
print(filename+":"+imgurl) #打印下載信息
urllib.request.urlretrieve(imgurl,filename) #下載圖片
想要學(xué)習(xí)Python的同學(xué)看過來熔萧,超多Python學(xué)習(xí)資源大合集,多到看不完的那種僚祷!今天免費分享哪痰!部分內(nèi)容如下:
1.入門讀物 2.進階讀物 3.Web框架 4.爬蟲開發(fā) 5.圖形圖像 6.數(shù)據(jù)分析 7.機器學(xué)習(xí) 8.Python環(huán)境以及破解版編譯器 9.爬蟲實戰(zhàn)教學(xué)視頻
獲取方式:Python/java技術(shù)學(xué)習(xí)交流群: (1036–6335–91)添加即可免費獲取久妆!