用Besoup爬蟲爬取某個百度貼吧所有頁碼的圖片

參考

可以參考:http://www.reibang.com/p/45e13334a71f
我的是Soup版 爬取貼吧 某個帖子下面所有的圖片鏈接

優(yōu)點

  1. 不用輸入頁面 自動匹配到總共幾頁藕甩。
  2. 自動爬取該貼吧下的所有頁的圖片資源
  3. 自動重命名文件粒氧。通過命名可以看到是第幾頁的圖片

效果圖如下:

tiebapachong.png
# -*- coding:utf-8 -*-
# **********************************
# ** http://weibo.com/lixiaodaoaaa #
# ****** by:lixiaodaoaaa ***********


# -*- coding: UTF-8 -*-
import urllib
import re
import sys
import json
import requests
from bs4 import BeautifulSoup, Tag
from datetime import datetime
import random
import time


def convertUrlToBeautifulSoup(url):
    getStr = requests.get(url)
    getStr.encoding = "utf-8"
    return BeautifulSoup(getStr.text, "html.parser")


def download_img(beSoup, page):
    for myImg in mySoup.select(".BDE_Image"):
        imgUrl = myImg.get("src")
        myTempStr = imgUrl.split("sign=")
        strPage = "page_%d_fileName=" % page
        strTime = "%s.jpg" % time.time()
        fileName = strPage + strTime
        print(fileName)
        urllib.request.urlretrieve(imgUrl, fileName)


def getTotalNumber(beSoup):
    page = beSoup.select(".l_reply_num")[0].select(".red")[1].text
    return int(page)


def getParaUrl(sourUrl, page):
    para = "?pn=%d" % page
    hasParaUrl = startUrl + para
    return hasParaUrl


if __name__ == '__main__':
    startUrl = input('輸入網(wǎng)址,把pn=后面的數(shù)字去掉')
    mySoup = convertUrlToBeautifulSoup(startUrl)
    totalPage = getTotalNumber(mySoup)
    startPage = 2
    download_img(mySoup, 1)
    while startPage <= totalPage:
        tempSoup = convertUrlToBeautifulSoup(getParaUrl(startUrl, startPage))
        download_img(tempSoup, startPage)
        startPage += 1
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末顶掉,一起剝皮案震驚了整個濱河市孔轴,隨后出現(xiàn)的幾起案子筋现,更是在濱河造成了極大的恐慌矾睦,老刑警劉巖掉奄,帶你破解...
    沈念sama閱讀 217,907評論 6 506
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件规个,死亡現(xiàn)場離奇詭異,居然都是意外死亡姓建,警方通過查閱死者的電腦和手機(jī)诞仓,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,987評論 3 395
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來速兔,“玉大人墅拭,你說我怎么就攤上這事』凉罚” “怎么了谍婉?”我有些...
    開封第一講書人閱讀 164,298評論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長屑柔。 經(jīng)常有香客問我屡萤,道長,這世上最難降的妖魔是什么掸宛? 我笑而不...
    開封第一講書人閱讀 58,586評論 1 293
  • 正文 為了忘掉前任死陆,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘措译。我一直安慰自己别凤,他們只是感情好,可當(dāng)我...
    茶點故事閱讀 67,633評論 6 392
  • 文/花漫 我一把揭開白布领虹。 她就那樣靜靜地躺著规哪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪塌衰。 梳的紋絲不亂的頭發(fā)上诉稍,一...
    開封第一講書人閱讀 51,488評論 1 302
  • 那天,我揣著相機(jī)與錄音最疆,去河邊找鬼杯巨。 笑死,一個胖子當(dāng)著我的面吹牛努酸,可吹牛的內(nèi)容都是我干的服爷。 我是一名探鬼主播,決...
    沈念sama閱讀 40,275評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼获诈,長吁一口氣:“原來是場噩夢啊……” “哼仍源!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起舔涎,我...
    開封第一講書人閱讀 39,176評論 0 276
  • 序言:老撾萬榮一對情侶失蹤笼踩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后终抽,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體戳表,經(jīng)...
    沈念sama閱讀 45,619評論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,819評論 3 336
  • 正文 我和宋清朗相戀三年昼伴,在試婚紗的時候發(fā)現(xiàn)自己被綠了匾旭。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 39,932評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡圃郊,死狀恐怖价涝,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情持舆,我是刑警寧澤色瘩,帶...
    沈念sama閱讀 35,655評論 5 346
  • 正文 年R本政府宣布,位于F島的核電站逸寓,受9級特大地震影響居兆,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜竹伸,卻給世界環(huán)境...
    茶點故事閱讀 41,265評論 3 329
  • 文/蒙蒙 一泥栖、第九天 我趴在偏房一處隱蔽的房頂上張望簇宽。 院中可真熱鬧,春花似錦吧享、人聲如沸魏割。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,871評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽钞它。三九已至,卻和暖如春殊鞭,著一層夾襖步出監(jiān)牢的瞬間遭垛,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,994評論 1 269
  • 我被黑心中介騙來泰國打工操灿, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留耻卡,地道東北人。 一個月前我還...
    沈念sama閱讀 48,095評論 3 370
  • 正文 我出身青樓牲尺,卻偏偏與公主長得像,于是被迫代替她去往敵國和親幌蚊。 傳聞我的和親對象是個殘疾皇子谤碳,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,884評論 2 354

推薦閱讀更多精彩內(nèi)容

  • 在之前一篇抓取漫畫圖片的文章里,通過實現(xiàn)一個簡單的Python程序溢豆,遍歷所有漫畫的url蜒简,對請求所返回的html源...
    msq3閱讀 12,793評論 14 88
  • 概述 近來花了一些時間簡單學(xué)習(xí)了一下python,簡而言之:拋棄運(yùn)行效率因素不說漩仙,從編碼的角度搓茬,其優(yōu)雅、簡潔的語法...
    nmnethaha閱讀 906評論 6 4
  • 第三章 前言:珂玥和蕓汐队他,跟著那個男生回到了他家卷仑,會發(fā)生什么奇...
    Dr萌光閱讀 350評論 0 0
  • 每天晚上寫東西已經(jīng)成為一種習(xí)慣了垢啼。哪天要是沒寫就會渾身難受總覺得少了點什么窜锯。 看我之前的文章可能中間隔了幾天才寫,...
    筿筿閱讀 459評論 18 12
  • (張子選) 在無人地帶你面前的石頭是棕色皮膚的孩子它們不會說話也不會像花朵像你期待的那樣突然盛開可你還是有些期待你...
    紫章閱讀 329評論 0 3