自從我學(xué)了Python爬蟲之后熙暴,群里斗圖就沒輸過

本文要介紹的爬蟲是抓取暴走漫畫上的GIF趣圖闺属,方便離線觀看。爬蟲用的是Python3.3開發(fā)的周霉,主要用到了urllib掂器、request和BeautifulSoup模塊。

一.urllib模塊

提供了從萬維網(wǎng)中獲取數(shù)據(jù)的高層接口俱箱,當(dāng)我們用urlopen()打開一個URL時国瓮,就相當(dāng)于我們用Python內(nèi)建的open()打開一個文件。但不同的是狞谱,前者接收一個URL作為參數(shù)乃摹,并且沒有辦法對打開的文件流進行seek操作(從底層的角度看,因為實際上操作的是socket芋簿,所以理所當(dāng)然的沒辦法進行seek操作)峡懈,而后者接收的是一個本地文件名。

二.Python的BeautifulSoup模塊(可以幫助你實現(xiàn)HTML和XML的解析与斤。)

先說一下肪康,一般寫網(wǎng)頁爬蟲,即抓取網(wǎng)頁的html源碼等內(nèi)容撩穿,然后分析磷支,提取相對應(yīng)的內(nèi)容。

這種分析html內(nèi)容的工作食寡,如果只是普通的正則表達式re模塊去一點點匹配的話雾狈,對于內(nèi)容簡單點的網(wǎng)頁分析,還是基本夠用抵皱。

但是對于工作量很大善榛,要解析內(nèi)容很繁雜的html,那么用re模塊呻畸,就會發(fā)現(xiàn)無法實現(xiàn)移盆,或很難實現(xiàn)。

而用beautifulsoup模塊去幫你實現(xiàn)分析html源碼的工作的話伤为,你就會發(fā)現(xiàn)咒循,事情變得如此簡單,極大地提高了分析html源碼的效率。

注:BeautifulSoup是第三方庫叙甸,我使用的是bs4颖医。urllib2在python3中被分配到了urllib.request中,文檔中的原文如下裆蒸。

Note:The urllib2 module has been split across several modules in Python 3 named urllib.requestand urllib.error.

爬蟲源碼如下:

# -*- coding: utf-8 -*-

import urllib.request

import bs4,os

page_sum = 1 #設(shè)置下載頁數(shù)

path = os.getcwd()

path = os.path.join(path,'暴走GIF')

if not os.path.exists(path):

os.mkdir(path) #創(chuàng)建文件夾

url = "http://baozoumanhua.com/gif/year" #url地址

headers = { #偽裝瀏覽器

'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)'

' Chrome/32.0.1700.76 Safari/537.36'

}

for count in range(page_sum):

req = urllib.request.Request(

url = url+str(count+1),

headers = headers

)

print(req.full_url)

content = urllib.request.urlopen(req).read()

soup = bs4.BeautifulSoup(content) # BeautifulSoup

img_content = soup.findAll('img',attrs={'style':'width:460px'})

url_list = [img['src'] for img in img_content] #列表推導(dǎo) url

title_list = [img['alt'] for img in img_content] #圖片名稱

for i in range(url_list.__len__()) :

imgurl = url_list[i]

filename = path + os.sep +title_list[i] + ".gif"

print(filename+":"+imgurl) #打印下載信息

urllib.request.urlretrieve(imgurl,filename) #下載圖片

福利來咯

想要學(xué)習(xí)Python的同學(xué)看過來熔萧,超多Python學(xué)習(xí)資源大合集,多到看不完的那種僚祷!今天免費分享哪痰!部分內(nèi)容如下:

1.入門讀物 2.進階讀物 3.Web框架 4.爬蟲開發(fā) 5.圖形圖像 6.數(shù)據(jù)分析 7.機器學(xué)習(xí) 8.Python環(huán)境以及破解版編譯器 9.爬蟲實戰(zhàn)教學(xué)視頻

獲取方式:Python/java技術(shù)學(xué)習(xí)交流群: (1036–6335–91)添加即可免費獲取久妆!

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市跷睦,隨后出現(xiàn)的幾起案子筷弦,更是在濱河造成了極大的恐慌,老刑警劉巖抑诸,帶你破解...
    沈念sama閱讀 222,807評論 6 518
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件烂琴,死亡現(xiàn)場離奇詭異,居然都是意外死亡蜕乡,警方通過查閱死者的電腦和手機奸绷,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,284評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來层玲,“玉大人号醉,你說我怎么就攤上這事⌒量椋” “怎么了畔派?”我有些...
    開封第一講書人閱讀 169,589評論 0 363
  • 文/不壞的土叔 我叫張陵,是天一觀的道長润绵。 經(jīng)常有香客問我线椰,道長,這世上最難降的妖魔是什么尘盼? 我笑而不...
    開封第一講書人閱讀 60,188評論 1 300
  • 正文 為了忘掉前任憨愉,我火速辦了婚禮,結(jié)果婚禮上卿捎,老公的妹妹穿的比我還像新娘配紫。我一直安慰自己,他們只是感情好娇澎,可當(dāng)我...
    茶點故事閱讀 69,185評論 6 398
  • 文/花漫 我一把揭開白布笨蚁。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪括细。 梳的紋絲不亂的頭發(fā)上伪很,一...
    開封第一講書人閱讀 52,785評論 1 314
  • 那天,我揣著相機與錄音奋单,去河邊找鬼锉试。 笑死,一個胖子當(dāng)著我的面吹牛览濒,可吹牛的內(nèi)容都是我干的呆盖。 我是一名探鬼主播,決...
    沈念sama閱讀 41,220評論 3 423
  • 文/蒼蘭香墨 我猛地睜開眼贷笛,長吁一口氣:“原來是場噩夢啊……” “哼应又!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起乏苦,我...
    開封第一講書人閱讀 40,167評論 0 277
  • 序言:老撾萬榮一對情侶失蹤株扛,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后汇荐,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體洞就,經(jīng)...
    沈念sama閱讀 46,698評論 1 320
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,767評論 3 343
  • 正文 我和宋清朗相戀三年掀淘,在試婚紗的時候發(fā)現(xiàn)自己被綠了旬蟋。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 40,912評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡革娄,死狀恐怖倾贰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情拦惋,我是刑警寧澤躁染,帶...
    沈念sama閱讀 36,572評論 5 351
  • 正文 年R本政府宣布,位于F島的核電站架忌,受9級特大地震影響吞彤,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜叹放,卻給世界環(huán)境...
    茶點故事閱讀 42,254評論 3 336
  • 文/蒙蒙 一饰恕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧井仰,春花似錦埋嵌、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,746評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽范舀。三九已至,卻和暖如春了罪,著一層夾襖步出監(jiān)牢的瞬間锭环,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,859評論 1 274
  • 我被黑心中介騙來泰國打工泊藕, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留辅辩,地道東北人。 一個月前我還...
    沈念sama閱讀 49,359評論 3 379
  • 正文 我出身青樓娃圆,卻偏偏與公主長得像玫锋,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子讼呢,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,922評論 2 361

推薦閱讀更多精彩內(nèi)容