爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片

爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片

制作爬蟲的步驟

制作一個爬蟲一般分以下幾個步驟:

  • 分析需求
  • 分析網(wǎng)頁源代碼,配合開發(fā)者工具
  • 編寫正則表達式或者XPath表達式
  • 正式編寫 python 爬蟲代碼

效果預(yù)覽

運行效果如下:

爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片

存放圖片的文件夾:

爬蟲|用Python百度圖片并實現(xiàn)自動下載拓颓,分分種幾千張圖片

需求分析

我們的爬蟲至少要實現(xiàn)兩個功能:

  1. 是搜索圖片
  2. 是自動下載

搜索圖片:最容易想到的是爬百度圖片的結(jié)果,我們就上百度圖片看看:

爬蟲|用Python百度圖片并實現(xiàn)自動下載描孟,分分種幾千張圖片

隨便搜索幾個關(guān)鍵字驶睦,可以看到已經(jīng)搜索出來很多張圖片:

爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片

分析網(wǎng)頁

我們點擊右鍵匿醒,查看源代碼:

爬蟲|用Python百度圖片并實現(xiàn)自動下載场航,分分種幾千張圖片

打開源代碼之后,發(fā)現(xiàn)一堆源代碼比較難找出我們想要的資源廉羔。

這個時候溉痢,就要用開發(fā)者工具!我們回到上一頁面,調(diào)出開發(fā)者工具孩饼,我們需要用的是左上角那個東西:(鼠標(biāo)跟隨)髓削。

爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片

然后選擇你想看源代碼的地方镀娶,就可以發(fā)現(xiàn)立膛,下面的代碼區(qū)自動定位到了相應(yīng)的位置。如下圖:

爬蟲|用Python百度圖片并實現(xiàn)自動下載梯码,分分種幾千張圖片
爬蟲|用Python百度圖片并實現(xiàn)自動下載宝泵,分分種幾千張圖片

我們復(fù)制這個地址,然后到剛才的一堆源代碼里搜索一下忍些,發(fā)現(xiàn)了它的位置鲁猩,但是這里我們又疑惑了,這個圖片有這么多地址罢坝,到底用哪個呢?我們可以看到有thumbURL搅窿,middleURL嘁酿,hoverURL,objURL

爬蟲|用Python百度圖片并實現(xiàn)自動下載男应,分分種幾千張圖片

通過分析可以知道闹司,前面兩個是縮小的版本,hoverURL 是鼠標(biāo)移動過后顯示的版本沐飘,objURL 應(yīng)該是我們需要的游桩,可以分別打開這幾個網(wǎng)址看看,發(fā)現(xiàn) objURL 的那個最大最清晰耐朴。

找到了圖片地址借卧,接下來我們分析源代碼∩盖停看看是不是所有的 objURL 都是圖片铐刘。

爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片

發(fā)現(xiàn)都是以.jpg格式結(jié)尾的圖片影晓。

編寫正則表達式

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

編寫爬蟲代碼

這里我們用了2個包镰吵,一個是正則,一個是 requests 包

#-*- coding:utf-8 -*-
import re
import requests

復(fù)制百度圖片搜索的鏈接挂签,傳入 requests 疤祭,然后把正則表達式寫好

爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片
url = 'https://image.baidu.com/search/index?tn=baiduimage&ie=utf-8&word=%E6%A0%97%E5%B1%B1%E6%9C%AA%E6%9D%A5%E5%A4%B4%E5%83%8F&ct=201326592&ic=0&lm=-1&width=&height=&v=index'
html = requests.get(url).text
pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

因為有很多張圖片饵婆,所以要循環(huán)勺馆,我們打印出結(jié)果來看看,然后用 requests 獲取網(wǎng)址,由于有些圖片可能存在網(wǎng)址打不開的情況谓传,所以加了10秒超時控制蜈项。

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
i = 1
for each in pic_url:
 print each
 try:
 pic= requests.get(each, timeout=10)
 except requests.exceptions.ConnectionError:
 print('【錯誤】當(dāng)前圖片無法下載')
 continue

接著就是把圖片保存下來,我們事先建立好一個 images 目錄续挟,把圖片都放進去紧卒,命名的時候,以數(shù)字命名诗祸。

 dir = '../images/' + keyword + '_' + str(i) + '.jpg'
 fp = open(dir, 'wb')
 fp.write(pic.content)
 fp.close()
 i += 1

完整的代碼

爬蟲|用Python百度圖片并實現(xiàn)自動下載跑芳,分分種幾千張圖片
爬蟲|用Python百度圖片并實現(xiàn)自動下載,分分種幾千張圖片
爬蟲|用Python百度圖片并實現(xiàn)自動下載直颅,分分種幾千張圖片

我們看到有的圖片沒顯示出來博个,打開網(wǎng)址看,發(fā)現(xiàn)確實沒了功偿。

爬蟲|用Python百度圖片并實現(xiàn)自動下載盆佣,分分種幾千張圖片

因為百度有些圖片它緩存到百度的服務(wù)器上,所以我們在百度上還能看見它械荷,但它的實際鏈接已經(jīng)失效了共耍。

總結(jié)

enjoy 我們的第一個圖片下載爬蟲吧!當(dāng)然它不僅能下載百度的圖片吨瞎,依葫蘆畫瓢痹兜,你現(xiàn)在應(yīng)該能做很多事情了,比如爬取頭像颤诀,爬淘寶展示圖等等字旭。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市崖叫,隨后出現(xiàn)的幾起案子遗淳,更是在濱河造成了極大的恐慌,老刑警劉巖归露,帶你破解...
    沈念sama閱讀 218,858評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件洲脂,死亡現(xiàn)場離奇詭異,居然都是意外死亡剧包,警方通過查閱死者的電腦和手機恐锦,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,372評論 3 395
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來疆液,“玉大人一铅,你說我怎么就攤上這事《橛停” “怎么了潘飘?”我有些...
    開封第一講書人閱讀 165,282評論 0 356
  • 文/不壞的土叔 我叫張陵肮之,是天一觀的道長。 經(jīng)常有香客問我卜录,道長戈擒,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,842評論 1 295
  • 正文 為了忘掉前任艰毒,我火速辦了婚禮筐高,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘丑瞧。我一直安慰自己柑土,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,857評論 6 392
  • 文/花漫 我一把揭開白布绊汹。 她就那樣靜靜地躺著稽屏,像睡著了一般。 火紅的嫁衣襯著肌膚如雪西乖。 梳的紋絲不亂的頭發(fā)上狐榔,一...
    開封第一講書人閱讀 51,679評論 1 305
  • 那天,我揣著相機與錄音获雕,去河邊找鬼荒叼。 笑死,一個胖子當(dāng)著我的面吹牛典鸡,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播坏晦,決...
    沈念sama閱讀 40,406評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼萝玷,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了昆婿?” 一聲冷哼從身側(cè)響起球碉,我...
    開封第一講書人閱讀 39,311評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎仓蛆,沒想到半個月后睁冬,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,767評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡看疙,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,945評論 3 336
  • 正文 我和宋清朗相戀三年豆拨,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片能庆。...
    茶點故事閱讀 40,090評論 1 350
  • 序言:一個原本活蹦亂跳的男人離奇死亡施禾,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出搁胆,到底是詐尸還是另有隱情弥搞,我是刑警寧澤邮绿,帶...
    沈念sama閱讀 35,785評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站攀例,受9級特大地震影響船逮,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜粤铭,卻給世界環(huán)境...
    茶點故事閱讀 41,420評論 3 331
  • 文/蒙蒙 一挖胃、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧承耿,春花似錦冠骄、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,988評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至职烧,卻和暖如春扁誓,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背蚀之。 一陣腳步聲響...
    開封第一講書人閱讀 33,101評論 1 271
  • 我被黑心中介騙來泰國打工蝗敢, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人足删。 一個月前我還...
    沈念sama閱讀 48,298評論 3 372
  • 正文 我出身青樓寿谴,卻偏偏與公主長得像,于是被迫代替她去往敵國和親失受。 傳聞我的和親對象是個殘疾皇子讶泰,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 45,033評論 2 355

推薦閱讀更多精彩內(nèi)容