爬取今日頭條街拍圖

運(yùn)行環(huán)境: python : 3.5.2 requests:2.11.1 pymongo:3.5.1 MongoDB:3.4.7

項(xiàng)目目的:爬取今日頭條中關(guān)于“街拍”圖集中的圖片恼布,并保存相關(guān)數(shù)據(jù)到數(shù)據(jù)庫

項(xiàng)目中需要用到的包

import re
from hashlib import md5
import pymongo
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import requests
from config import *
from multiprocessing import Pool

下面來一個(gè)一個(gè)解釋:

  1. json:本次爬取的數(shù)據(jù)多為 json 格式棚唆,所以需要將數(shù)據(jù)轉(zhuǎn)換為 json 再進(jìn)行下一步處理氯窍。
  2. md5:下載圖片給圖片命名時(shí)茫打,有可能有些圖片會(huì)重復(fù),為了避免重復(fù)下載淘正,使用 hashlib 模塊的 md5 方法根據(jù)圖片的內(nèi)容給圖片命名绣硝。(需要了解 hashlib 可點(diǎn)擊這里
  3. pymongo:python 連接 mongodb 的包
  4. RequestException:在進(jìn)行網(wǎng)頁請(qǐng)求時(shí)矩动,可能會(huì)發(fā)生一些錯(cuò)誤,在這里直接拋出
  5. requests:請(qǐng)求庫
  6. config:代碼中的一些配置信息
  7. Pool:多線程提高代碼運(yùn)行效率

網(wǎng)站分析

  1. 網(wǎng)站圖集中不是采用翻頁爸吮,而是隨鼠標(biāo)的下滑自動(dòng)加載芬膝,其中只有請(qǐng)求參數(shù) “offset” 改變(0、20形娇、40遞增)
  2. 每個(gè)圖片集的 url 在 data 當(dāng)中锰霜,如圖
  1. 每張圖片的 url 在網(wǎng)頁文檔的 gallery 中,可以采用正則獲取 url

代碼詳情

一桐早、請(qǐng)求索引頁并解析

請(qǐng)求索引頁

def get_page_index(offset, keyword):
    '''返回請(qǐng)求索引頁的代碼詳情'''

    #請(qǐng)求參數(shù)設(shè)置
    data = {
        'offset': offset,
        'format': 'json',
        'keyword': keyword,
        'autoload': 'true',
        'count': 20,
        'cur_tab': 3
    }
    url = 'http://www.toutiao.com/search_content/?' + urlencode(data)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print("請(qǐng)求索引頁出錯(cuò)")
        return None

解析索引頁

def parse_page_index(html):
'''解析索引頁癣缅,獲取頁面url'''

    # 將 html 轉(zhuǎn)換為 json 格式的數(shù)據(jù)
    data = json.loads(html)
    if data and 'data' in data.keys():
        for item in data.get('data'):
            yield item.get('article_url')

二、請(qǐng)求詳情頁并解析

請(qǐng)求詳情頁

def get_page_detail(url):
'''獲取詳情頁的代碼'''

    try:
        response = requests.get(url)
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('請(qǐng)求詳情頁出錯(cuò)', url)
        return None

解析頁面哄酝,獲取圖集名稱和每張圖片 url

def parse_page_detail(html, url):
'''解析詳情頁的代碼友存,獲取每張圖片的 url '''

soup = BeautifulSoup(html, 'lxml')
title = soup.title.text
# 或者 title = soup.select('title')[0].get_text()
# print(title)
images_pattern = re.compile('gallery:(.*?)\ssiblingList:', re.S)
result = re.search(images_pattern, html)
if result:
    # print(result.group(1)[:-5])
    # 把結(jié)果轉(zhuǎn)換為課處理的 json 格式
    data = json.loads(result.group(1)[:-5])
    if data and 'sub_images' in data.keys():
        images = [item.get('url') for item in data.get('sub_images')]
        for image in images:
            download_imgae(image)
        return {
            'title': title,
            'url': url,
            'images': images
        }

三、將數(shù)據(jù)保存到數(shù)據(jù)庫

數(shù)據(jù)庫配置信息

MONGO_URL = 'localhost'   #數(shù)據(jù)庫地址
MONGO_DB = 'toutiao'      #數(shù)據(jù)庫名稱
MONGO_TABLE = 'toutiao'   #表名稱

連接數(shù)據(jù)庫

client = pymongo.MongoClient(MONGO_URL, connect=False)
db = client[MONGO_DB]

將數(shù)據(jù)保存到數(shù)據(jù)庫

def save_to_mongo(resutl):
'''把結(jié)果存儲(chǔ)到 mongodb 數(shù)據(jù)庫中'''
    
    if db[MONGO_TABLE].insert(resutl):
        print('存儲(chǔ)到MongoDB成功', resutl)
        return True
    return False

下載圖片并保存圖片

下載圖片

def download_imgae(url):
'''解析圖片url'''

    print('正在下載:', url)
    try:
        response = requests.get(url)
        if response.status_code == 200:
            save_image(response.content)
        return None
    except RequestException:
        print('請(qǐng)求圖片出錯(cuò)', url)
        return None

保存圖片到當(dāng)前目錄

def save_image(content):
'''保存文件'''

    file_path = '{0}\{1}.{2}'.format(os.getcwd(), md5(content).hexdigest(), 'jpg')
    if not os.path.exists(file_path):
        with open(file_path, 'wb') as f:
            f.write(content)

四陶衅、主函數(shù)

主函數(shù)

def main(offset):
'''主函數(shù)'''

html = get_page_index(offset, KEYWORD)
# print(html)
for url in parse_page_index(html):
    html = get_page_detail(url)
    if html:
        result = parse_page_detail(html, url)
        # print(result)
        if result:
            save_to_mongo(result)

程序入口

if __name__ == '__main__':
    groups = [x * 20 for x in range(GROUP_START, GROUP_END)]
    pool = Pool()
    pool.map(main, groups)

參數(shù)說明

#需要爬取的頁數(shù)配置參數(shù)
GROUP_START = 1
GROUP_END = 20

#爬取關(guān)鍵詞
KEYWORD = '街拍'

巨坑之處

  1. 正則獲取 gallery 內(nèi)容時(shí)屡立, gallery 是以 結(jié)束搀军,我當(dāng)時(shí)匹配時(shí)無法用逗號(hào)作為匹配結(jié)束膨俐,只能再加上下一行的 siblingList: 勇皇,但是這樣的話就有空白符需要匹配,所以需要加上空白匹配符 \s 焚刺。此時(shí)獲得的數(shù)據(jù)最后為逗號(hào)敛摘,還不能直接轉(zhuǎn)換為 json 格式的數(shù)據(jù)。這是本想著直接使用切片([:-1])即可去除逗號(hào),然而事情并不是如此的簡單檩坚,怎么都沒想多逗號(hào)后面竟然還有四個(gè)空格(此處請(qǐng)容許我說句MMP)∽帕茫現(xiàn)在在去分析,空白匹配符 \s 沒有匹配到換行符匾委,難道 siblingList: 前面還有空格M闲稹!赂乐!
  2. 啟用多線程時(shí)薯鳍,連接數(shù)據(jù)庫會(huì)發(fā)生一個(gè)錯(cuò)誤,此時(shí)就需要在連接數(shù)據(jù)庫時(shí)添加參數(shù)connect=False
  3. 在解析頁面時(shí)挨措,有些頁面不是我們需要的挖滤,無法解析到我們想要的結(jié)果。因此在執(zhí)行下一步時(shí)就需要判斷解析頁面的結(jié)果浅役。

結(jié)果展示

在短短的幾分鐘就下載了將近六百張圖片斩松,效率還是可以的

下載圖片部分截圖
數(shù)據(jù)庫內(nèi)容部分截圖

溫馨提示:啟動(dòng)程序前記得啟動(dòng)數(shù)據(jù)庫

完整代碼和輸出文件請(qǐng)?jiān)L問:[https://github.com/xieys/python_spyder/tree/master/jiepai) 歡迎Follow和star

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市觉既,隨后出現(xiàn)的幾起案子惧盹,更是在濱河造成了極大的恐慌,老刑警劉巖瞪讼,帶你破解...
    沈念sama閱讀 206,839評(píng)論 6 482
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件钧椰,死亡現(xiàn)場離奇詭異,居然都是意外死亡符欠,警方通過查閱死者的電腦和手機(jī)嫡霞,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,543評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來希柿,“玉大人诊沪,你說我怎么就攤上這事≡罚” “怎么了娄徊?”我有些...
    開封第一講書人閱讀 153,116評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長盾戴。 經(jīng)常有香客問我寄锐,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,371評(píng)論 1 279
  • 正文 為了忘掉前任橄仆,我火速辦了婚禮剩膘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘盆顾。我一直安慰自己怠褐,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,384評(píng)論 5 374
  • 文/花漫 我一把揭開白布您宪。 她就那樣靜靜地躺著奈懒,像睡著了一般。 火紅的嫁衣襯著肌膚如雪宪巨。 梳的紋絲不亂的頭發(fā)上磷杏,一...
    開封第一講書人閱讀 49,111評(píng)論 1 285
  • 那天,我揣著相機(jī)與錄音捏卓,去河邊找鬼极祸。 笑死,一個(gè)胖子當(dāng)著我的面吹牛怠晴,可吹牛的內(nèi)容都是我干的遥金。 我是一名探鬼主播,決...
    沈念sama閱讀 38,416評(píng)論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼蒜田,長吁一口氣:“原來是場噩夢啊……” “哼稿械!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起冲粤,我...
    開封第一講書人閱讀 37,053評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤美莫,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后色解,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,558評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡餐茵,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,007評(píng)論 2 325
  • 正文 我和宋清朗相戀三年科阎,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忿族。...
    茶點(diǎn)故事閱讀 38,117評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡锣笨,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出道批,到底是詐尸還是另有隱情错英,我是刑警寧澤,帶...
    沈念sama閱讀 33,756評(píng)論 4 324
  • 正文 年R本政府宣布隆豹,位于F島的核電站椭岩,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜判哥,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,324評(píng)論 3 307
  • 文/蒙蒙 一献雅、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧塌计,春花似錦挺身、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,315評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至热芹,卻和暖如春贱傀,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背剿吻。 一陣腳步聲響...
    開封第一講書人閱讀 31,539評(píng)論 1 262
  • 我被黑心中介騙來泰國打工窍箍, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人丽旅。 一個(gè)月前我還...
    沈念sama閱讀 45,578評(píng)論 2 355
  • 正文 我出身青樓椰棘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親榄笙。 傳聞我的和親對(duì)象是個(gè)殘疾皇子邪狞,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,877評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 171,518評(píng)論 25 707
  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn)茅撞,斷路器帆卓,智...
    卡卡羅2017閱讀 134,600評(píng)論 18 139
  • 前言 本博客主要記錄跟隨崔慶才老師的分析Ajax抓取今日頭條街拍美圖學(xué)習(xí)的整個(gè)過程,更多精品文章米丘,請(qǐng)參閱崔老師的博...
    小白猿閱讀 1,117評(píng)論 3 10
  • 發(fā)現(xiàn) 關(guān)注 消息 iOS 第三方庫剑令、插件、知名博客總結(jié) 作者大灰狼的小綿羊哥哥關(guān)注 2017.06.26 09:4...
    肇東周閱讀 12,029評(píng)論 4 62
  • “本文參加#未完待續(xù),就要表白#活動(dòng)堕扶,本人承諾碍脏,文章為原創(chuàng),且未在其它平臺(tái)發(fā)表過稍算〉湮玻” 化學(xué)與材...
    心語_9756閱讀 186評(píng)論 0 3