python 之 第一個(gè)爬蟲(chóng)(百度圖片)

開(kāi)發(fā)環(huán)境

IDE: pyCharm

python環(huán)境: 3.7

爬取百度圖片的基本步驟

一. 抓取百度網(wǎng)站內(nèi)容
def read_html(urlStr):
    result = request.urlopen(urlStr)
    webResult = result.read()
    with codecs.open('/Users/liliqiang/Desktop/imageFile/webResult.txt', 'w', 'utf-8') as file:
        file.write(webResult.decode('utf-8'))
    # 保存數(shù)據(jù)
    return webResult
二. 提取圖片內(nèi)容
def read_image(webResult):
    re_img = re.compile(b'"thumbURL":"(.*?.jpg)",')
    # re_img = re.compile(b'src="(.*?.jpg)" ')
    imgs = re_img.findall(webResult)
    imgsData = []
    for img in imgs:
        imgsData.append(img.decode('utf-8'))
    with open('/Users/liliqiang/Desktop/imageFile/images.txt', 'w') as file:
        json.dump(imgsData, file)
    return imgsData
三. 下載圖片
def save_image(imgs):
    count = 0
    for img in imgs:
        tail = img[-3:]
        filename = '/Users/liliqiang/Desktop/imageFile/%s.%s'%(count, tail)
        opener = urllib.request.build_opener()
        opener.addheaders = [('User-Agent', 'ozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Mobile Safari/537.36')]
        urllib.request.install_opener(opener)
        urllib.request.urlretrieve(img, filename)
        count += 1

后記: 遇到的問(wèn)題

I. [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed

解決方法: 關(guān)閉ssl驗(yàn)證

ssl._create_default_https_context = ssl._create_unverified_context
II.urlretrieve HTTP Error 403: Forbidden 很多網(wǎng)站禁止爬蟲(chóng). 我們可以模擬瀏覽器的進(jìn)行圖片抓取, 模擬網(wǎng)站需要設(shè)置請(qǐng)求頭的User-Agent, 假如示例中的代碼不可用, 可以查看自己瀏覽器的請(qǐng)求頭, 然后替換為自己的.就可以正常使用了
 opener = urllib.request.build_opener()
        opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0')]
        urllib.request.install_opener(opener)
        urllib.request.urlretrieve(img, filename)
III. UnicodeEncodeError: 'ascii' codec can't encode characters in position 65-69: ordinal not in range(128)由于請(qǐng)求文件中含有特殊符號(hào)??導(dǎo)致urlopen函數(shù)無(wú)法正常識(shí)別, 需要ASCII符號(hào)編碼. 使用函數(shù) urllib.parse.quote 可以經(jīng)ASCII碼轉(zhuǎn)化為utf8

解決方法:

urlStr = 'http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&fr=ala&ala=1&alatpl=others&pos=0&&word='
urlStr =  urlStr + urllib.parse.quote('??')

最后附錄整個(gè)文件內(nèi)容:

#!/usr/bin/python/
# -*- coding: UTF-8 -*-

from urllib import request
import urllib
import re
import ssl
import json
import sys


# 關(guān)閉ssl驗(yàn)證
ssl._create_default_https_context = ssl._create_unverified_context

def read_html(urlStr):
    result = request.urlopen(urlStr)
    webResult = result.read()
    with open('/Users/<#你自己的用戶(hù)名#>/Desktop/imageFile/webResult.txt', 'w') as file:
        file.write(webResult.decode('utf-8'))
    # 保存數(shù)據(jù)
    return webResult

def read_image(webResult):
    re_img = re.compile(b'"thumbURL":"(.*?.jpg)",')
    # re_img = re.compile(b'src="(.*?.jpg)" ')
    imgs = re_img.findall(webResult)
    imgsData = []
    for img in imgs:
        imgsData.append(img.decode('utf-8'))
    with open('/Users/你自己的用戶(hù)名/Desktop/imageFile/images.txt', 'w') as file:
        json.dump(imgsData, file)
    return imgsData

def save_image(imgs):
    count = 0
    for img in imgs:
        tail = img[-3:]
        filename = '/Users/<#你自己的用戶(hù)名#>/Desktop/imageFile/%s.%s'%(count, tail)
        opener = urllib.request.build_opener()
        opener.addheaders = [('User-Agent', 'Mozilla/5.0 (Windows NT 6.3; WOW64; rv:28.0) Gecko/20100101 Firefox/28.0')]
        urllib.request.install_opener(opener)
        urllib.request.urlretrieve(img, filename)
        count += 1


urlStr = 'http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gb18030&fr=ala&ala=1&alatpl=others&pos=0&&word='
urlStr =  urlStr + urllib.parse.quote('??')
print('讀取網(wǎng)絡(luò)數(shù)據(jù)中...')
webRes = read_html(urlStr)
print('讀取圖片資源...')
imgs = read_image(webRes)
print('下載圖片資源中...')
save_image(imgs)
print('下載圖片資源完成!!')
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市息罗,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌蹂匹,老刑警劉巖施敢,帶你破解...
    沈念sama閱讀 206,214評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件驹溃,死亡現(xiàn)場(chǎng)離奇詭異垄分,居然都是意外死亡付呕,警方通過(guò)查閱死者的電腦和手機(jī)计福,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門(mén),熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)徽职,“玉大人棒搜,你說(shuō)我怎么就攤上這事』罨” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 152,543評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)育韩。 經(jīng)常有香客問(wèn)我克蚂,道長(zhǎng),這世上最難降的妖魔是什么筋讨? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 55,221評(píng)論 1 279
  • 正文 為了忘掉前任埃叭,我火速辦了婚禮,結(jié)果婚禮上悉罕,老公的妹妹穿的比我還像新娘赤屋。我一直安慰自己,他們只是感情好壁袄,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,224評(píng)論 5 371
  • 文/花漫 我一把揭開(kāi)白布类早。 她就那樣靜靜地躺著,像睡著了一般嗜逻。 火紅的嫁衣襯著肌膚如雪涩僻。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書(shū)人閱讀 49,007評(píng)論 1 284
  • 那天栈顷,我揣著相機(jī)與錄音逆日,去河邊找鬼。 笑死萄凤,一個(gè)胖子當(dāng)著我的面吹牛室抽,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播靡努,決...
    沈念sama閱讀 38,313評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼坪圾,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來(lái)了颤难?” 一聲冷哼從身側(cè)響起神年,我...
    開(kāi)封第一講書(shū)人閱讀 36,956評(píng)論 0 259
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎行嗤,沒(méi)想到半個(gè)月后已日,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,441評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡栅屏,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,925評(píng)論 2 323
  • 正文 我和宋清朗相戀三年飘千,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片栈雳。...
    茶點(diǎn)故事閱讀 38,018評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡护奈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出哥纫,到底是詐尸還是另有隱情霉旗,我是刑警寧澤,帶...
    沈念sama閱讀 33,685評(píng)論 4 322
  • 正文 年R本政府宣布,位于F島的核電站厌秒,受9級(jí)特大地震影響读拆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鸵闪,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,234評(píng)論 3 307
  • 文/蒙蒙 一檐晕、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧蚌讼,春花似錦辟灰、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 30,240評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至夏志,卻和暖如春乃坤,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背沟蔑。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 31,464評(píng)論 1 261
  • 我被黑心中介騙來(lái)泰國(guó)打工湿诊, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人瘦材。 一個(gè)月前我還...
    沈念sama閱讀 45,467評(píng)論 2 352
  • 正文 我出身青樓厅须,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親食棕。 傳聞我的和親對(duì)象是個(gè)殘疾皇子朗和,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,762評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容