Python爬蟲 | 爬取36氪首頁(yè)視頻至本地

概括

通過(guò)Python爬蟲實(shí)現(xiàn)多線程對(duì)于36氪首頁(yè)氪視頻的爬取攒钳。

實(shí)現(xiàn)

36氪首頁(yè):https://36kr.com/

36氪首頁(yè)

將文章列表往下拉,可以看到首頁(yè)的文章并沒(méi)有直接分頁(yè)克胳,而是當(dāng)滾動(dòng)條到達(dá)最下方時(shí),自動(dòng)加載下一頁(yè)的文章圈匆,網(wǎng)頁(yè)的局部刷新漠另,通過(guò)Ajax請(qǐng)求動(dòng)態(tài)獲取文章數(shù)據(jù)。

  • 獲取Ajax請(qǐng)求的API

通過(guò)右鍵 > 檢查跃赚,或F12打開(kāi)瀏覽器調(diào)試模式笆搓,選擇Network > XHR,此時(shí)滾動(dòng)鼠標(biāo)滑輪纬傲,直到自動(dòng)刷新出新的文章(或者點(diǎn)擊底部的“瀏覽更多”按鈕)满败,就可以獲取動(dòng)態(tài)數(shù)據(jù)包。

獲取Ajax請(qǐng)求的接口

復(fù)制此接口并在新頁(yè)面中打開(kāi)叹括,可以獲取到響應(yīng)的數(shù)據(jù)算墨,而數(shù)據(jù)類型也正是Json。
獲取到的響應(yīng)

url 后的 per_page 和 page汁雷,是發(fā)送GET請(qǐng)求時(shí)攜帶的參數(shù)净嘀,分別是每頁(yè)文章的個(gè)數(shù)(圖中的page_size)和當(dāng)前處于哪一頁(yè),而另一個(gè)參數(shù) _=1552323953341 刪掉沒(méi)有影響侠讯,并非為必傳參數(shù)挖藏。到這里就拿到了動(dòng)態(tài)獲取文章的接口。(page=1時(shí)即為首頁(yè)所有文章)
https://36kr.com/api/search-column/mainsite?per_page=20&page=1

  • 通過(guò) requests 發(fā)送請(qǐng)求

import json
import jsonpath
import requests
import re
import time
from queue import Queue
from threading import Thread

class Krspider(object):
    def __init__(self):
        # 留下page入口以實(shí)現(xiàn)獲取多頁(yè)數(shù)據(jù)
        self.base_url = 'https://36kr.com/api/search-column/mainsite?per_page=20&page={}'
        self.video_url = 'https://36kr.com/video/{}'  # 拼接氪視頻詳情頁(yè)url
        self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        self.url_queue = Queue()
        self.send_request_queue = Queue()
        self.parse_detail_queue = Queue()
        self.detail_data_queue = Queue()
        self.parse_video_queue = Queue()
        self.count = 0

    def send_request(self):
        while True:
            url = self.url_queue.get()
            str_json = requests.get(url, headers=self.headers).content.decode()
            self.send_request_queue.put(str_json)
            self.url_queue.task_done() 

通過(guò) requests 的 get 方法向目標(biāo) url 發(fā)送 get 請(qǐng)求继低,str_json 即為響應(yīng)的 Json 字符串熬苍。收發(fā)網(wǎng)絡(luò)請(qǐng)求是耗時(shí)的,會(huì)產(chǎn)生阻塞袁翁,使用多線程柴底,也用到隊(duì)列模塊 Queue,把每個(gè)步驟封裝成函數(shù)粱胜,分別用線程去執(zhí)行柄驻,每個(gè)步驟間通過(guò)隊(duì)列相互通信,也對(duì)函數(shù)間解耦焙压。

    def run(self):
        total_page = int(input('輸入要抓取的頁(yè)數(shù):'))
        for page in range(1, total_page + 1):
            url = self.base_url.format(page)
            self.url_queue.put(url)

通過(guò)遍歷頁(yè)數(shù)鸿脓,得到每一頁(yè)的 url,同時(shí)將各個(gè) url 放入到 url 隊(duì)列 self.url_queue 中涯曲。發(fā)送請(qǐng)求并接受響應(yīng)的方法 send_request 會(huì)不斷的從 url 隊(duì)列中拿出 每一頁(yè)的 url野哭,并發(fā)送請(qǐng)求。將收到的每一頁(yè)返回的Json字符串放入到 self.send_request_queue 隊(duì)列中幻件。

  • 解析氪視頻頁(yè)面的url


首頁(yè)的文章分類有很多拨黔,有“教育”、“消費(fèi)”绰沥、“氪視頻”等篱蝇,而我們只需要氪視頻的 url贺待,可以看到氪視頻分類的 column_id 是 “18”,而 url 是 https://36kr.com/video/ + id 拼接而來(lái)零截。
從 self.send_request_queue 隊(duì)列中取到每個(gè)頁(yè)面的 Json 字符串麸塞,通過(guò) json.loads() 將 Json 字符串轉(zhuǎn)為字典。

data_dict = json.loads(data)  

再通過(guò) jsonpath 將所氪視頻文章取出涧衙,返回一個(gè)列表哪工,列表中每個(gè)字典就是每一個(gè)氪視頻文章數(shù)據(jù)。

# 通過(guò) column_id = "18"取出當(dāng)前頁(yè)面所有氪視頻文章的字典
video_news_list = jsonpath.jsonpath(data_dict, '$..items[?(@.column_id=="18")]')  

遍歷 video_news_list 列表绍撞,在每個(gè)氪視頻文章字典中通過(guò)“title”正勒、“id”兩個(gè)鍵取出對(duì)應(yīng)的標(biāo)題和 id,這個(gè) id 用于拼接氪視頻詳情頁(yè)面的 url

for video_dict in video_news_list:
    title = video_dict['title']
    url = self.video_url.format(video_dict['id'])

解析全過(guò)程:

def parse_detail(self):
    while True:
        data = self.send_request_queue.get()
        data_dict = json.loads(data)
        video_news_list = jsonpath.jsonpath(data_dict, '$..items[?(@.column_id=="18")]')
        for video_dict in video_news_list:
            title = video_dict['title']
            url = self.video_url.format(video_dict['id'])
            # 將標(biāo)題和 url 組成的列表放入 self.parse_detail_queue 隊(duì)列中
            self.parse_detail_queue.put([title, url])
        self.send_request_queue.task_done()
  • 解析視頻MP4文件的url

  • 向詳情頁(yè)發(fā)送請(qǐng)求傻铣,獲取響應(yīng)
def send_detail_request(self):
    while True:
        video_list = self.parse_detail_queue.get()
        data = requests.get(video_list[1], headers=self.headers).content.decode()
        # 將響應(yīng)字符串和標(biāo)題組成的列表放入隊(duì)列
        self.detail_data_queue.put([data, video_list[0]])
        self.parse_detail_queue.task_done()
  • 解析詳情頁(yè)響應(yīng)章贞,獲取MP4文件的url
def parse_video_url(self):
    while True:
        list = self.detail_data_queue.get()
        pattern = re.compile('http://video\.chuangkr\.china\.com\.cn/.*vb1152\.mp4?')
        try:
            # 響應(yīng)字符串正則匹配,獲得 MP4文件的 url
            str = pattern.search(list[0]).group()
            video_url = str.split(',')[-1].lstrip('"url_1152":"')
        except AttributeError:
            pass
        else:
            if video_url:
                # 將 MP4 文件 url 和標(biāo)題組成列表放入隊(duì)列
                self.parse_video_queue.put([video_url, list[1]])
            else:
                pass
        self.detail_data_queue.task_done()

響應(yīng)字符串中有多個(gè) MP4 文件的 url非洲,但是清晰度卻不同鸭限,分別以“vb_384.mp4”、“vb_512.mp4”两踏、“vb_1152.mp4”結(jié)尾败京,這里獲取清晰度最高的以“vb_1152.mp4”結(jié)尾的文件 url


str.split(',')[-1]

str.split(',')[-1].lstrip('"url_1152":"')
  • 獲取 MP4 文件數(shù)據(jù)并保存

有了 MP4 文件的url,最后一步就是發(fā)送請(qǐng)求獲取響應(yīng)數(shù)據(jù)并保存梦染。

def receive_down_load_video(self):
    while True:
        list = self.parse_video_queue.get()
        video_url = list[0]
        title = list[1]
        print('開(kāi)始下載:[{}]'.format(title))
        start = time.time()
        data = requests.get(video_url, headers=self.headers, stream=True).content
        file_name = title[:10]  # 標(biāo)題前8位作為文件名
        file_path = 'video_36kr/' + file_name + '.mp4'
        with open(file_path, 'wb') as f:
             f.write(data)
        end = time.time()
        print('\n' + '[%s]下載完成赡麦,用時(shí)%.2f秒' % (title, (end - start)))
        self.count += 1
        self.parse_video_queue.task_done()
  • run() 方法開(kāi)啟多線程

def run(self):
    total_page = int(input('輸入要抓取的頁(yè)數(shù):'))
    start = time.time()
    for page in range(1, total_page + 1):
        url = self.base_url.format(page)
        self.url_queue.put(url)

        th_list = []
        for i in range(3):
            send_th = Thread(target=self.send_request)
            th_list.append(send_th)

            parse_th = Thread(target=self.parse_detail)
            th_list.append(parse_th)

            send_detail_th = Thread(target=self.send_detail_request)
            th_list.append(send_detail_th)

            parse_video_th = Thread(target=self.parse_video_url)
            th_list.append(parse_video_th)

            download_th = Thread(target=self.receive_down_load_video)
            th_list.append(download_th)

        for th in th_list:
            th.setDaemon(True)  # 把子線程設(shè)置為守護(hù)線程,主線程結(jié)束帕识,子線程也結(jié)束
            th.start()

        for q in [self.url_queue, self.send_request_queue, self.parse_detail_queue, self.detail_data_queue, self.parse_video_queue]:
            q.join()  # 隊(duì)列計(jì)數(shù)不為0的時(shí)候讓主線程阻塞等待泛粹,隊(duì)列計(jì)數(shù)為0的時(shí)候主線程才會(huì)繼續(xù)往后執(zhí)行
    end = time.time()
    print('>>>全部下載完成,總耗時(shí)%s秒<<<' % (end - start))
    print('共下載視頻個(gè)數(shù):{}'.format(self.count))

把每個(gè)子線程都設(shè)置為守護(hù)線程肮疗,主線程結(jié)束晶姊,所有子線程結(jié)束。而當(dāng)每一個(gè)任務(wù)隊(duì)列計(jì)數(shù)不為0伪货,即還有任務(wù)沒(méi)有被執(zhí)行時(shí)们衙,主線程阻塞,當(dāng)所有隊(duì)列計(jì)數(shù)都為0碱呼,即所有任務(wù)被執(zhí)行蒙挑,主線程往后執(zhí)行并結(jié)束,所有的子線程也隨之結(jié)束(while True 循環(huán)停止)愚臀。

最后來(lái)嘗試運(yùn)行一下程序脆荷,抓取前5頁(yè)的視頻:



播放一個(gè)視頻:


最后是整個(gè)程序的代碼:

import json
import jsonpath
import requests
import re
import time
from queue import Queue
from threading import Thread

class Krspider(object):
    def __init__(self):
        # 留下page入口以實(shí)現(xiàn)獲取多頁(yè)數(shù)據(jù)
        self.base_url = 'https://36kr.com/api/search-column/mainsite?per_page=20&page={}'
        self.video_url = 'https://36kr.com/video/{}'  # 拼接氪視頻詳情頁(yè)url
        self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko"}
        self.url_queue = Queue()
        self.send_request_queue = Queue()
        self.parse_detail_queue = Queue()
        self.detail_data_queue = Queue()
        self.parse_video_queue = Queue()
        self.count = 0

    def send_request(self):
        while True:
            url = self.url_queue.get()
            str_json = requests.get(url, headers=self.headers).content.decode()
            self.send_request_queue.put(str_json)
            self.url_queue.task_done()

    def parse_detail(self):
        while True:
            data = self.send_request_queue.get()
            data_dict = json.loads(data)
            video_news_list = jsonpath.jsonpath(data_dict, '$..items[?(@.column_id=="18")]')
            for video_dict in video_news_list:
                title = video_dict['title']
                url = self.video_url.format(video_dict['id'])
                # 將標(biāo)題和 url 組成的列表放入 self.parse_detail_queue 隊(duì)列中
                self.parse_detail_queue.put([title, url])
            self.send_request_queue.task_done()

    def send_detail_request(self):
        while True:
            video_list = self.parse_detail_queue.get()
            data = requests.get(video_list[1], headers=self.headers).content.decode()
            # 將響應(yīng)字符串和標(biāo)題組成的列表放入隊(duì)列
            self.detail_data_queue.put([data, video_list[0]])
            self.parse_detail_queue.task_done()

    def parse_video_url(self):
        while True:
            list = self.detail_data_queue.get()
            pattern = re.compile('http://video\.chuangkr\.china\.com\.cn/.*vb1152\.mp4?')
            try:
                # 響應(yīng)字符串正則匹配,獲得 MP4文件的 url
                str = pattern.search(list[0]).group()
                video_url = str.split(',')[-1].lstrip('"url_1152":"')
            except AttributeError:
                pass
            else:
                if video_url:
                    # 將 MP4 文件 url 和標(biāo)題組成列表放入隊(duì)列
                    self.parse_video_queue.put([video_url, list[1]])
                else:
                    pass
            self.detail_data_queue.task_done()

    def receive_down_load_video(self):
        while True:
            list = self.parse_video_queue.get()
            video_url = list[0]
            title = list[1]
            print('開(kāi)始下載:[{}]'.format(title))
            start = time.time()
            data = requests.get(video_url, headers=self.headers, stream=True).content
            file_name = title[:10]  # 標(biāo)題前8位作為文件名
            file_path = 'video_36kr/' + file_name + '.mp4'
            with open(file_path, 'wb') as f:
                f.write(data)
            end = time.time()
            print('\n' + '[%s]下載完成,用時(shí)%.2f秒' % (title, (end - start)))
            self.count += 1
            self.parse_video_queue.task_done()

    def run(self):
        total_page = int(input('輸入要抓取的頁(yè)數(shù):'))
        start = time.time()
        for page in range(1, total_page + 1):
            url = self.base_url.format(page)
            self.url_queue.put(url)

            th_list = []
            for i in range(3):
                send_th = Thread(target=self.send_request)
                th_list.append(send_th)

                parse_th = Thread(target=self.parse_detail)
                th_list.append(parse_th)

                send_detail_th = Thread(target=self.send_detail_request)
                th_list.append(send_detail_th)

                parse_video_th = Thread(target=self.parse_video_url)
                th_list.append(parse_video_th)

                download_th = Thread(target=self.receive_down_load_video)
                th_list.append(download_th)

            for th in th_list:
                th.setDaemon(True)  # 把子線程設(shè)置為守護(hù)線程蜓谋,主線程結(jié)束,子線程也結(jié)束
                th.start()

            for q in [self.url_queue, self.send_request_queue, self.parse_detail_queue, self.detail_data_queue,
                      self.parse_video_queue]:
                q.join()  # 隊(duì)列計(jì)數(shù)不為0的時(shí)候讓主線程阻塞等待炭分,隊(duì)列計(jì)數(shù)為0的時(shí)候主線程才會(huì)繼續(xù)往后執(zhí)行
        end = time.time()
        print('>>>全部下載完成桃焕,總耗時(shí)%s秒<<<' % (end - start))
        print('共下載視頻個(gè)數(shù):{}'.format(self.count))

if __name__ == '__main__':
    Krspider().run()
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市捧毛,隨后出現(xiàn)的幾起案子观堂,更是在濱河造成了極大的恐慌,老刑警劉巖呀忧,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件师痕,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡而账,警方通過(guò)查閱死者的電腦和手機(jī)胰坟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)泞辐,“玉大人笔横,你說(shuō)我怎么就攤上這事「篮穑” “怎么了吹缔?”我有些...
    開(kāi)封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)锯茄。 經(jīng)常有香客問(wèn)我厢塘,道長(zhǎng),這世上最難降的妖魔是什么肌幽? 我笑而不...
    開(kāi)封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任晚碾,我火速辦了婚禮,結(jié)果婚禮上牍颈,老公的妹妹穿的比我還像新娘迄薄。我一直安慰自己,他們只是感情好煮岁,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布讥蔽。 她就那樣靜靜地躺著,像睡著了一般画机。 火紅的嫁衣襯著肌膚如雪冶伞。 梳的紋絲不亂的頭發(fā)上,一...
    開(kāi)封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天步氏,我揣著相機(jī)與錄音响禽,去河邊找鬼。 笑死,一個(gè)胖子當(dāng)著我的面吹牛芋类,可吹牛的內(nèi)容都是我干的隆嗅。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼侯繁,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼胖喳!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起贮竟,我...
    開(kāi)封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤丽焊,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后咕别,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體技健,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年惰拱,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了雌贱。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡弓颈,死狀恐怖帽芽,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情翔冀,我是刑警寧澤导街,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布,位于F島的核電站纤子,受9級(jí)特大地震影響搬瑰,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜控硼,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一泽论、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧卡乾,春花似錦翼悴、人聲如沸。這莊子的主人今日做“春日...
    開(kāi)封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至误堡,卻和暖如春古话,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背锁施。 一陣腳步聲響...
    開(kāi)封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工陪踩, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留杖们,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓肩狂,卻偏偏與公主長(zhǎng)得像摘完,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子傻谁,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容

  • 秋雨是一個(gè)感到冷的天氣描焰,它能把樹(shù)上的葉子染成黃色的,每當(dāng)下午時(shí)那如同毛線絲的造型滴到我的頭上栅螟。秋雨也是個(gè)畫家...
    翔翔寶閱讀 653評(píng)論 0 1
  • 目標(biāo):我可以輕松的實(shí)現(xiàn)在2019年1月份以后的每一個(gè)月的工資,將都是完完全全的屬于我自己的篱竭,可以隨意支配的金錢力图! ...
    殷琴閱讀 164評(píng)論 2 0
  • 首先碰到的問(wèn)題所在是這樣滴(蛋疼) 一個(gè)UITextVIew展示內(nèi)容,內(nèi)容沒(méi)有顯示全掺逼,頂部空了一段吃媒。 糾結(jié)了半天,...
    SAW_閱讀 1,196評(píng)論 0 1
  • 屋外敬酒劃拳的聲音越來(lái)越響吕喘,隔著墻也聽(tīng)得一清二楚赘那。 李煊明翻了個(gè)身,抓起枕頭蒙住腦袋氯质,在黑暗中忍不住罵了句粗口募舟。 ...
    首字母A閱讀 349評(píng)論 0 0