Python爬蟲 | 爬取36氪首頁(yè)視頻至本地

概括

通過(guò)Python爬蟲實(shí)現(xiàn)多線程對(duì)于36氪首頁(yè)氪視頻的爬取攒钳。

實(shí)現(xiàn)

36氪首頁(yè)

將文章列表往下拉，可以看到首頁(yè)的文章并沒(méi)有直接分頁(yè)克胳，而是當(dāng)滾動(dòng)條到達(dá)最下方時(shí)，自動(dòng)加載下一頁(yè)的文章圈匆，網(wǎng)頁(yè)的局部刷新漠另，通過(guò)Ajax請(qǐng)求動(dòng)態(tài)獲取文章數(shù)據(jù)。

獲取Ajax請(qǐng)求的API

通過(guò)右鍵 > 檢查跃赚，或F12打開(kāi)瀏覽器調(diào)試模式笆搓，選擇Network > XHR，此時(shí)滾動(dòng)鼠標(biāo)滑輪纬傲，直到自動(dòng)刷新出新的文章（或者點(diǎn)擊底部的“瀏覽更多”按鈕）满败，就可以獲取動(dòng)態(tài)數(shù)據(jù)包。

獲取Ajax請(qǐng)求的接口

復(fù)制此接口并在新頁(yè)面中打開(kāi)叹括，可以獲取到響應(yīng)的數(shù)據(jù)算墨，而數(shù)據(jù)類型也正是Json。

獲取到的響應(yīng)

url 后的 per_page 和 page汁雷，是發(fā)送GET請(qǐng)求時(shí)攜帶的參數(shù)净嘀，分別是每頁(yè)文章的個(gè)數(shù)（圖中的page_size）和當(dāng)前處于哪一頁(yè)，而另一個(gè)參數(shù) _=1552323953341 刪掉沒(méi)有影響侠讯，并非為必傳參數(shù)挖藏。到這里就拿到了動(dòng)態(tài)獲取文章的接口。（page=1時(shí)即為首頁(yè)所有文章）
https://36kr.com/api/search-column/mainsite?per_page=20&page=1

通過(guò) requests 發(fā)送請(qǐng)求

import json
import jsonpath
import requests
import re
import time
from queue import Queue
from threading import Thread

class Krspider(object):
    def __init__(self):
        # 留下page入口以實(shí)現(xiàn)獲取多頁(yè)數(shù)據(jù)
        self.base_url = 'https://36kr.com/api/search-column/mainsite?per_page=20&page={}'
        self.video_url = 'https://36kr.com/video/{}'  # 拼接氪視頻詳情頁(yè)url
        self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        self.url_queue = Queue()
        self.send_request_queue = Queue()
        self.parse_detail_queue = Queue()
        self.detail_data_queue = Queue()
        self.parse_video_queue = Queue()
        self.count = 0

    def send_request(self):
        while True:
            url = self.url_queue.get()
            str_json = requests.get(url, headers=self.headers).content.decode()
            self.send_request_queue.put(str_json)
            self.url_queue.task_done()

通過(guò) requests 的 get 方法向目標(biāo) url 發(fā)送 get 請(qǐng)求继低，str_json 即為響應(yīng)的 Json 字符串熬苍。收發(fā)網(wǎng)絡(luò)請(qǐng)求是耗時(shí)的，會(huì)產(chǎn)生阻塞袁翁，使用多線程柴底，也用到隊(duì)列模塊 Queue，把每個(gè)步驟封裝成函數(shù)粱胜，分別用線程去執(zhí)行柄驻，每個(gè)步驟間通過(guò)隊(duì)列相互通信，也對(duì)函數(shù)間解耦焙压。

    def run(self):
        total_page = int(input('輸入要抓取的頁(yè)數(shù)：'))
        for page in range(1, total_page + 1):
            url = self.base_url.format(page)
            self.url_queue.put(url)

通過(guò)遍歷頁(yè)數(shù)鸿脓，得到每一頁(yè)的 url，同時(shí)將各個(gè) url 放入到 url 隊(duì)列 self.url_queue 中涯曲。發(fā)送請(qǐng)求并接受響應(yīng)的方法 send_request 會(huì)不斷的從 url 隊(duì)列中拿出每一頁(yè)的 url野哭，并發(fā)送請(qǐng)求。將收到的每一頁(yè)返回的Json字符串放入到 self.send_request_queue 隊(duì)列中幻件。

解析氪視頻頁(yè)面的url

首頁(yè)的文章分類有很多拨黔，有“教育”、“消費(fèi)”绰沥、“氪視頻”等篱蝇，而我們只需要氪視頻的 url贺待，可以看到氪視頻分類的 column_id 是 “18”，而 url 是 https://36kr.com/video/ + id 拼接而來(lái)零截。
從 self.send_request_queue 隊(duì)列中取到每個(gè)頁(yè)面的 Json 字符串麸塞，通過(guò) json.loads() 將 Json 字符串轉(zhuǎn)為字典。

data_dict = json.loads(data)

再通過(guò) jsonpath 將所氪視頻文章取出涧衙，返回一個(gè)列表哪工，列表中每個(gè)字典就是每一個(gè)氪視頻文章數(shù)據(jù)。

# 通過(guò) column_id = "18"取出當(dāng)前頁(yè)面所有氪視頻文章的字典
video_news_list = jsonpath.jsonpath(data_dict, '$..items[?(@.column_id=="18")]')

遍歷 video_news_list 列表绍撞，在每個(gè)氪視頻文章字典中通過(guò)“title”正勒、“id”兩個(gè)鍵取出對(duì)應(yīng)的標(biāo)題和 id，這個(gè) id 用于拼接氪視頻詳情頁(yè)面的 url

for video_dict in video_news_list:
    title = video_dict['title']
    url = self.video_url.format(video_dict['id'])

解析全過(guò)程：

def parse_detail(self):
    while True:
        data = self.send_request_queue.get()
        data_dict = json.loads(data)
        video_news_list = jsonpath.jsonpath(data_dict, '$..items[?(@.column_id=="18")]')
        for video_dict in video_news_list:
            title = video_dict['title']
            url = self.video_url.format(video_dict['id'])
            # 將標(biāo)題和 url 組成的列表放入 self.parse_detail_queue 隊(duì)列中
            self.parse_detail_queue.put([title, url])
        self.send_request_queue.task_done()

解析視頻MP4文件的url
向詳情頁(yè)發(fā)送請(qǐng)求傻铣，獲取響應(yīng)

def send_detail_request(self):
    while True:
        video_list = self.parse_detail_queue.get()
        data = requests.get(video_list[1], headers=self.headers).content.decode()
        # 將響應(yīng)字符串和標(biāo)題組成的列表放入隊(duì)列
        self.detail_data_queue.put([data, video_list[0]])
        self.parse_detail_queue.task_done()

解析詳情頁(yè)響應(yīng)章贞，獲取MP4文件的url

def parse_video_url(self):
    while True:
        list = self.detail_data_queue.get()
        pattern = re.compile('http://video\.chuangkr\.china\.com\.cn/.*vb1152\.mp4?')
        try:
            # 響應(yīng)字符串正則匹配，獲得 MP4文件的 url
            str = pattern.search(list[0]).group()
            video_url = str.split(',')[-1].lstrip('"url_1152":"')
        except AttributeError:
            pass
        else:
            if video_url:
                # 將 MP4 文件 url 和標(biāo)題組成列表放入隊(duì)列
                self.parse_video_queue.put([video_url, list[1]])
            else:
                pass
        self.detail_data_queue.task_done()

響應(yīng)字符串中有多個(gè) MP4 文件的 url非洲，但是清晰度卻不同鸭限，分別以“vb_384.mp4”、“vb_512.mp4”两踏、“vb_1152.mp4”結(jié)尾败京，這里獲取清晰度最高的以“vb_1152.mp4”結(jié)尾的文件 url

str.split(',')[-1]

str.split(',')[-1].lstrip('"url_1152":"')

獲取 MP4 文件數(shù)據(jù)并保存

有了 MP4 文件的url，最后一步就是發(fā)送請(qǐng)求獲取響應(yīng)數(shù)據(jù)并保存梦染。

def receive_down_load_video(self):
    while True:
        list = self.parse_video_queue.get()
        video_url = list[0]
        title = list[1]
        print('開(kāi)始下載：[{}]'.format(title))
        start = time.time()
        data = requests.get(video_url, headers=self.headers, stream=True).content
        file_name = title[:10]  # 標(biāo)題前8位作為文件名
        file_path = 'video_36kr/' + file_name + '.mp4'
        with open(file_path, 'wb') as f:
             f.write(data)
        end = time.time()
        print('\n' + '[%s]下載完成赡麦，用時(shí)%.2f秒' % (title, (end - start)))
        self.count += 1
        self.parse_video_queue.task_done()

run() 方法開(kāi)啟多線程

def run(self):
    total_page = int(input('輸入要抓取的頁(yè)數(shù)：'))
    start = time.time()
    for page in range(1, total_page + 1):
        url = self.base_url.format(page)
        self.url_queue.put(url)

        th_list = []
        for i in range(3):
            send_th = Thread(target=self.send_request)
            th_list.append(send_th)

            parse_th = Thread(target=self.parse_detail)
            th_list.append(parse_th)

            send_detail_th = Thread(target=self.send_detail_request)
            th_list.append(send_detail_th)

            parse_video_th = Thread(target=self.parse_video_url)
            th_list.append(parse_video_th)

            download_th = Thread(target=self.receive_down_load_video)
            th_list.append(download_th)

        for th in th_list:
            th.setDaemon(True)  # 把子線程設(shè)置為守護(hù)線程，主線程結(jié)束帕识，子線程也結(jié)束
            th.start()

        for q in [self.url_queue, self.send_request_queue, self.parse_detail_queue, self.detail_data_queue, self.parse_video_queue]:
            q.join()  # 隊(duì)列計(jì)數(shù)不為0的時(shí)候讓主線程阻塞等待泛粹，隊(duì)列計(jì)數(shù)為0的時(shí)候主線程才會(huì)繼續(xù)往后執(zhí)行
    end = time.time()
    print('>>>全部下載完成，總耗時(shí)%s秒<<<' % (end - start))
    print('共下載視頻個(gè)數(shù)：{}'.format(self.count))

把每個(gè)子線程都設(shè)置為守護(hù)線程肮疗，主線程結(jié)束晶姊，所有子線程結(jié)束。而當(dāng)每一個(gè)任務(wù)隊(duì)列計(jì)數(shù)不為0伪货，即還有任務(wù)沒(méi)有被執(zhí)行時(shí)们衙，主線程阻塞，當(dāng)所有隊(duì)列計(jì)數(shù)都為0碱呼，即所有任務(wù)被執(zhí)行蒙挑，主線程往后執(zhí)行并結(jié)束，所有的子線程也隨之結(jié)束（while True 循環(huán)停止）愚臀。

最后來(lái)嘗試運(yùn)行一下程序脆荷，抓取前5頁(yè)的視頻：

播放一個(gè)視頻：

最后是整個(gè)程序的代碼：

import json
import jsonpath
import requests
import re
import time
from queue import Queue
from threading import Thread

class Krspider(object):
    def __init__(self):
        # 留下page入口以實(shí)現(xiàn)獲取多頁(yè)數(shù)據(jù)
        self.base_url = 'https://36kr.com/api/search-column/mainsite?per_page=20&page={}'
        self.video_url = 'https://36kr.com/video/{}'  # 拼接氪視頻詳情頁(yè)url
        self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        self.url_queue = Queue()
        self.send_request_queue = Queue()
        self.parse_detail_queue = Queue()
        self.detail_data_queue = Queue()
        self.parse_video_queue = Queue()
        self.count = 0

    def send_request(self):
        while True:
            url = self.url_queue.get()
            str_json = requests.get(url, headers=self.headers).content.decode()
            self.send_request_queue.put(str_json)
            self.url_queue.task_done()

    def parse_detail(self):
        while True:
            data = self.send_request_queue.get()
            data_dict = json.loads(data)
            video_news_list = jsonpath.jsonpath(data_dict, '$..items[?(@.column_id=="18")]')
            for video_dict in video_news_list:
                title = video_dict['title']
                url = self.video_url.format(video_dict['id'])
                # 將標(biāo)題和 url 組成的列表放入 self.parse_detail_queue 隊(duì)列中
                self.parse_detail_queue.put([title, url])
            self.send_request_queue.task_done()

    def send_detail_request(self):
        while True:
            video_list = self.parse_detail_queue.get()
            data = requests.get(video_list[1], headers=self.headers).content.decode()
            # 將響應(yīng)字符串和標(biāo)題組成的列表放入隊(duì)列
            self.detail_data_queue.put([data, video_list[0]])
            self.parse_detail_queue.task_done()

    def parse_video_url(self):
        while True:
            list = self.detail_data_queue.get()
            pattern = re.compile('http://video\.chuangkr\.china\.com\.cn/.*vb1152\.mp4?')
            try:
                # 響應(yīng)字符串正則匹配，獲得 MP4文件的 url
                str = pattern.search(list[0]).group()
                video_url = str.split(',')[-1].lstrip('"url_1152":"')
            except AttributeError:
                pass
            else:
                if video_url:
                    # 將 MP4 文件 url 和標(biāo)題組成列表放入隊(duì)列
                    self.parse_video_queue.put([video_url, list[1]])
                else:
                    pass
            self.detail_data_queue.task_done()

    def receive_down_load_video(self):
        while True:
            list = self.parse_video_queue.get()
            video_url = list[0]
            title = list[1]
            print('開(kāi)始下載：[{}]'.format(title))
            start = time.time()
            data = requests.get(video_url, headers=self.headers, stream=True).content
            file_name = title[:10]  # 標(biāo)題前8位作為文件名
            file_path = 'video_36kr/' + file_name + '.mp4'
            with open(file_path, 'wb') as f:
                f.write(data)
            end = time.time()
            print('\n' + '[%s]下載完成，用時(shí)%.2f秒' % (title, (end - start)))
            self.count += 1
            self.parse_video_queue.task_done()

    def run(self):
        total_page = int(input('輸入要抓取的頁(yè)數(shù)：'))
        start = time.time()
        for page in range(1, total_page + 1):
            url = self.base_url.format(page)
            self.url_queue.put(url)

            th_list = []
            for i in range(3):
                send_th = Thread(target=self.send_request)
                th_list.append(send_th)

                parse_th = Thread(target=self.parse_detail)
                th_list.append(parse_th)

                send_detail_th = Thread(target=self.send_detail_request)
                th_list.append(send_detail_th)

                parse_video_th = Thread(target=self.parse_video_url)
                th_list.append(parse_video_th)

                download_th = Thread(target=self.receive_down_load_video)
                th_list.append(download_th)

            for th in th_list:
                th.setDaemon(True)  # 把子線程設(shè)置為守護(hù)線程蜓谋，主線程結(jié)束，子線程也結(jié)束
                th.start()

            for q in [self.url_queue, self.send_request_queue, self.parse_detail_queue, self.detail_data_queue,
                      self.parse_video_queue]:
                q.join()  # 隊(duì)列計(jì)數(shù)不為0的時(shí)候讓主線程阻塞等待炭分，隊(duì)列計(jì)數(shù)為0的時(shí)候主線程才會(huì)繼續(xù)往后執(zhí)行
        end = time.time()
        print('>>>全部下載完成桃焕，總耗時(shí)%s秒<<<' % (end - start))
        print('共下載視頻個(gè)數(shù)：{}'.format(self.count))

if __name__ == '__main__':
    Krspider().run()

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市捧毛，隨后出現(xiàn)的幾起案子观堂，更是在濱河造成了極大的恐慌，老刑警劉巖呀忧，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件师痕，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡而账，警方通過(guò)查閱死者的電腦和手機(jī)胰坟，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)泞辐，“玉大人笔横，你說(shuō)我怎么就攤上這事「篮穑” “怎么了吹缔？”我有些...
開(kāi)封第一講書人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)锯茄。經(jīng)常有香客問(wèn)我厢塘，道長(zhǎng)，這世上最難降的妖魔是什么肌幽？我笑而不...
開(kāi)封第一講書人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任晚碾，我火速辦了婚禮，結(jié)果婚禮上牍颈，老公的妹妹穿的比我還像新娘迄薄。我一直安慰自己，他們只是感情好煮岁，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布讥蔽。她就那樣靜靜地躺著，像睡著了一般画机。火紅的嫁衣襯著肌膚如雪冶伞。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天步氏，我揣著相機(jī)與錄音响禽，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛芋类，可吹牛的內(nèi)容都是我干的隆嗅。我是一名探鬼主播，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼侯繁，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼胖喳！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起贮竟，我...
開(kāi)封第一講書人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤丽焊，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后咕别，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體技健，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年惰拱，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雌贱。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡弓颈，死狀恐怖帽芽，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情翔冀，我是刑警寧澤导街，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站纤子，受9級(jí)特大地震影響搬瑰，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜控硼，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一泽论、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧卡乾，春花似錦翼悴、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 31,659評(píng)論 0贊 22
一樁弒父案鹦赎，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至误堡，卻和暖如春古话，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背锁施。一陣腳步聲響...
開(kāi)封第一講書人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工陪踩，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留杖们，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓肩狂，卻偏偏與公主長(zhǎng)得像摘完，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子傻谁，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

Python爬蟲 | 爬取36氪首頁(yè)視頻至本地

概括

實(shí)現(xiàn)

獲取Ajax請(qǐng)求的API

通過(guò) requests 發(fā)送請(qǐng)求

解析氪視頻頁(yè)面的url

解析視頻MP4文件的url

向詳情頁(yè)發(fā)送請(qǐng)求傻铣，獲取響應(yīng)

解析詳情頁(yè)響應(yīng)章贞，獲取MP4文件的url

獲取 MP4 文件數(shù)據(jù)并保存

run() 方法開(kāi)啟多線程

推薦閱讀更多精彩內(nèi)容