爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

制作爬蟲的步驟

制作一個爬蟲一般分以下幾個步驟：

分析需求
分析網(wǎng)頁源代碼，配合開發(fā)者工具
編寫正則表達式或者XPath表達式
正式編寫 python 爬蟲代碼

效果預(yù)覽

運行效果如下：

爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

存放圖片的文件夾：

爬蟲｜用Python百度圖片并實現(xiàn)自動下載拓颓，分分種幾千張圖片

需求分析

我們的爬蟲至少要實現(xiàn)兩個功能：

是搜索圖片
是自動下載

搜索圖片：最容易想到的是爬百度圖片的結(jié)果，我們就上百度圖片看看：

爬蟲｜用Python百度圖片并實現(xiàn)自動下載描孟，分分種幾千張圖片

隨便搜索幾個關(guān)鍵字驶睦，可以看到已經(jīng)搜索出來很多張圖片：

爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

分析網(wǎng)頁

我們點擊右鍵匿醒，查看源代碼：

爬蟲｜用Python百度圖片并實現(xiàn)自動下載场航，分分種幾千張圖片

打開源代碼之后，發(fā)現(xiàn)一堆源代碼比較難找出我們想要的資源廉羔。

這個時候溉痢，就要用開發(fā)者工具！我們回到上一頁面，調(diào)出開發(fā)者工具孩饼，我們需要用的是左上角那個東西：(鼠標(biāo)跟隨)髓削。

爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

然后選擇你想看源代碼的地方镀娶，就可以發(fā)現(xiàn)立膛，下面的代碼區(qū)自動定位到了相應(yīng)的位置。如下圖：

爬蟲｜用Python百度圖片并實現(xiàn)自動下載梯码，分分種幾千張圖片

爬蟲｜用Python百度圖片并實現(xiàn)自動下載宝泵，分分種幾千張圖片

我們復(fù)制這個地址，然后到剛才的一堆源代碼里搜索一下忍些，發(fā)現(xiàn)了它的位置鲁猩，但是這里我們又疑惑了，這個圖片有這么多地址罢坝，到底用哪個呢？我們可以看到有thumbURL搅窿，middleURL嘁酿，hoverURL，objURL

爬蟲｜用Python百度圖片并實現(xiàn)自動下載男应，分分種幾千張圖片

通過分析可以知道闹司，前面兩個是縮小的版本，hoverURL 是鼠標(biāo)移動過后顯示的版本沐飘，objURL 應(yīng)該是我們需要的游桩，可以分別打開這幾個網(wǎng)址看看，發(fā)現(xiàn) objURL 的那個最大最清晰耐朴。

找到了圖片地址借卧，接下來我們分析源代碼∩盖停看看是不是所有的 objURL 都是圖片铐刘。

爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

發(fā)現(xiàn)都是以.jpg格式結(jié)尾的圖片影晓。

編寫正則表達式

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

編寫爬蟲代碼

這里我們用了2個包镰吵，一個是正則，一個是 requests 包

#-*- coding:utf-8 -*-
import re
import requests

復(fù)制百度圖片搜索的鏈接挂签，傳入 requests 疤祭，然后把正則表達式寫好

爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

url = 'https://image.baidu.com/search/index?tn=baiduimage&ie=utf-8&word=%E6%A0%97%E5%B1%B1%E6%9C%AA%E6%9D%A5%E5%A4%B4%E5%83%8F&ct=201326592&ic=0&lm=-1&width=&height=&v=index'
html = requests.get(url).text
pic_url = re.findall('"objURL":"(.*?)",',html,re.S)

因為有很多張圖片饵婆，所以要循環(huán)勺馆，我們打印出結(jié)果來看看，然后用 requests 獲取網(wǎng)址，由于有些圖片可能存在網(wǎng)址打不開的情況谓传，所以加了10秒超時控制蜈项。

pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
i = 1
for each in pic_url:
 print each
 try:
 pic= requests.get(each, timeout=10)
 except requests.exceptions.ConnectionError:
 print('【錯誤】當(dāng)前圖片無法下載')
 continue

接著就是把圖片保存下來，我們事先建立好一個 images 目錄续挟，把圖片都放進去紧卒，命名的時候，以數(shù)字命名诗祸。

 dir = '../images/' + keyword + '_' + str(i) + '.jpg'
 fp = open(dir, 'wb')
 fp.write(pic.content)
 fp.close()
 i += 1

完整的代碼

爬蟲｜用Python百度圖片并實現(xiàn)自動下載跑芳，分分種幾千張圖片

爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

爬蟲｜用Python百度圖片并實現(xiàn)自動下載直颅，分分種幾千張圖片

我們看到有的圖片沒顯示出來博个，打開網(wǎng)址看，發(fā)現(xiàn)確實沒了功偿。

爬蟲｜用Python百度圖片并實現(xiàn)自動下載盆佣，分分種幾千張圖片

因為百度有些圖片它緩存到百度的服務(wù)器上，所以我們在百度上還能看見它械荷，但它的實際鏈接已經(jīng)失效了共耍。

總結(jié)

enjoy 我們的第一個圖片下載爬蟲吧！當(dāng)然它不僅能下載百度的圖片吨瞎，依葫蘆畫瓢痹兜，你現(xiàn)在應(yīng)該能做很多事情了，比如爬取頭像颤诀，爬淘寶展示圖等等字旭。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市崖叫，隨后出現(xiàn)的幾起案子遗淳，更是在濱河造成了極大的恐慌，老刑警劉巖归露，帶你破解...
沈念sama閱讀 218,858評論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件洲脂，死亡現(xiàn)場離奇詭異，居然都是意外死亡剧包，警方通過查閱死者的電腦和手機恐锦，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來疆液，“玉大人一铅，你說我怎么就攤上這事《橛停” “怎么了潘飘？”我有些...
開封第一講書人閱讀 165,282評論 0贊 356
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵肮之，是天一觀的道長。經(jīng)常有香客問我卜录，道長戈擒，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 58,842評論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任艰毒，我火速辦了婚禮筐高，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘丑瞧。我一直安慰自己柑土，他們只是感情好，可當(dāng)我...
茶點故事閱讀 67,857評論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布绊汹。她就那樣靜靜地躺著稽屏，像睡著了一般。火紅的嫁衣襯著肌膚如雪西乖。梳的紋絲不亂的頭發(fā)上狐榔，一...
開封第一講書人閱讀 51,679評論 1贊 305
城市分裂傳說
那天，我揣著相機與錄音获雕，去河邊找鬼荒叼。笑死，一個胖子當(dāng)著我的面吹牛典鸡，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播坏晦，決...
沈念sama閱讀 40,406評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼萝玷，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了昆婿？” 一聲冷哼從身側(cè)響起球碉，我...
開封第一講書人閱讀 39,311評論 0贊 276
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎仓蛆，沒想到半個月后睁冬，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,767評論 1贊 315
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡看疙，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,945評論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年豆拨，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片能庆。...
茶點故事閱讀 40,090評論 1贊 350
活死人
序言：一個原本活蹦亂跳的男人離奇死亡施禾，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出搁胆，到底是詐尸還是另有隱情弥搞，我是刑警寧澤邮绿，帶...
沈念sama閱讀 35,785評論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站攀例，受9級特大地震影響船逮，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜粤铭，卻給世界環(huán)境...
茶點故事閱讀 41,420評論 3贊 331
男人毒藥：我在死后第九天來索命
文/蒙蒙一挖胃、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧承耿，春花似錦冠骄、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,988評論 0贊 22
一樁弒父案凛辣，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至职烧，卻和暖如春扁誓，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背蚀之。一陣腳步聲響...
開封第一講書人閱讀 33,101評論 1贊 271
情欲美人皮
我被黑心中介騙來泰國打工蝗敢，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人足删。一個月前我還...
沈念sama閱讀 48,298評論 3贊 372
代替公主和親
正文我出身青樓寿谴，卻偏偏與公主長得像，于是被迫代替她去往敵國和親失受。傳聞我的和親對象是個殘疾皇子讶泰，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 45,033評論 2贊 355

爬蟲｜用Python百度圖片并實現(xiàn)自動下載顽决，分分種幾千張圖片

爬蟲｜用Python百度圖片并實現(xiàn)自動下載，分分種幾千張圖片

制作爬蟲的步驟

效果預(yù)覽

需求分析

分析網(wǎng)頁

編寫正則表達式

編寫爬蟲代碼

完整的代碼

總結(jié)

推薦閱讀更多精彩內(nèi)容