前言
嗨嘍,大家好!這里是魔王吶~
環(huán)境使用:
Python 3.8 解釋器<運(yùn)行代碼>
Pycharm 編輯器 <寫代碼>
模塊使用]:
- requests >>> 數(shù)據(jù)請(qǐng)求 第三方模塊 pip install requests <工具>
- re <正則表達(dá)式模塊>
如果安裝python第三方模塊:
- win + R 輸入 cmd 點(diǎn)擊確定, 輸入安裝命令 pip install 模塊名 (pip install requests) 回車
- 在pycharm中點(diǎn)擊Terminal(終端) 輸入安裝命令
如何配置pycharm里面的python解釋器?
- 選擇file(文件) >>> setting(設(shè)置) >>> Project(項(xiàng)目) >>> python interpreter(python解釋器)
- 點(diǎn)擊齒輪, 選擇add
- 添加python安裝路徑
pycharm如何安裝插件?
- 選擇file(文件) >>> setting(設(shè)置) >>> Plugins(插件)
- 點(diǎn)擊 Marketplace 輸入想要安裝的插件名字 比如:翻譯插件 輸入 translation / 漢化插件 輸入 Chinese
- 選擇相應(yīng)的插件點(diǎn)擊 install(安裝) 即可
- 安裝成功之后 是會(huì)彈出 重啟pycharm的選項(xiàng) 點(diǎn)擊確定, 重啟即可生效
基本思路流程:
一. 分析數(shù)據(jù)來源
找尋網(wǎng)址上面視頻數(shù)據(jù)來自于哪里
開發(fā)者工具進(jìn)行抓包..
- 鼠標(biāo)右鍵點(diǎn)擊檢查 或者 F12打開開發(fā)者工具
- 刷新網(wǎng)頁
- 找尋視頻數(shù)據(jù)...<通過media里找尋視頻url地址>
- 找視頻url地址來于那個(gè)數(shù)據(jù)包 >>> 通過視頻url地址中一段參數(shù)進(jìn)行搜索, 建議是搜.mp4前面這段內(nèi)容...
二, 代碼實(shí)現(xiàn)過程: 對(duì)于某些網(wǎng)站 可能需要多次請(qǐng)求,
- 發(fā)送請(qǐng)求, 對(duì)于找到視頻數(shù)據(jù)包發(fā)送請(qǐng)求
- 獲取數(shù)據(jù), 獲取服務(wù)器返回響應(yīng)數(shù)據(jù)
- 解析數(shù)據(jù), 提取我們想要數(shù)據(jù)內(nèi)容 視頻url地址 視頻標(biāo)題
.... - 保存數(shù)據(jù), 保存視頻數(shù)據(jù)到本地文件夾
多個(gè)視頻采集 <視頻數(shù)據(jù)包url地址變化規(guī)律>
代碼
導(dǎo)入模塊
# import requests
import requests # 數(shù)據(jù)請(qǐng)求模塊
import pprint # 格式化輸出模塊
import re
for page in range(2, 6):
print(f'正在采集第{page}頁的數(shù)據(jù)內(nèi)容')
link = f'https://v.huya.com/g/all?set_id=51&order=hot&page={page}'
headers = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
}
html_data = requests.get(url=link, headers=headers).text
# print(html_data)
# 使用re正則表達(dá)式提取數(shù)據(jù) 從什么地方去獲取什么數(shù)據(jù)
# <li data-vid="(\d+)"><a href=".*?" 加了括號(hào)是我們想要數(shù)據(jù)內(nèi)容 \d+ 匹配多個(gè)數(shù)字 .*? 可以匹配任意字符(除了換行符\n)
video_id_list = re.findall('<li data-vid="(\d+)"><a href=".*?"', html_data)
print(video_id_list)
for video_id in video_id_list:
url = f'https://liveapi.huya.com/moment/getMomentContent?videoId={video_id}&uid=&_=1654949607282'
# 偽裝python代碼 在開發(fā)者工具里復(fù)制 user-agent 用戶代理 表示瀏覽器基本身份表示
# headers請(qǐng)求頭, 可以python代碼偽裝成瀏覽器對(duì)于url地址發(fā)送請(qǐng)求 <作用防止被識(shí)別出來是爬蟲程序>
# cookie 用戶信息, 常用于檢測是否登陸賬號(hào) <無論登陸與否 都有一個(gè)cookie>
# headers = {
# 'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.4951.54 Safari/537.36'
# }
# 通過requests模塊里面get請(qǐng)求方法對(duì)于url地址發(fā)送請(qǐng)求, 并且攜帶上headers請(qǐng)求頭偽裝, 最后用自定義變量response接受返回?cái)?shù)據(jù)
response = requests.get(url=url, headers=headers)
# print(response.json()) # <Response [200]> 200表示請(qǐng)求成功 response.json() 返回?cái)?shù)據(jù)一定是完整json數(shù)據(jù)格式
# pprint.pprint(response.json())
# 解析數(shù)據(jù) 字典取值 根據(jù)鍵值對(duì)取值 {'鍵': '值', '鍵1': '值1'} 根據(jù)冒號(hào)左邊的內(nèi)容<鍵>, 提取冒號(hào)右邊的內(nèi)容<值>
title = response.json()['data']['moment']['title']
title = re.sub(r'[\/:*?"<>|\n\r\t]', '', title)
video_url = response.json()['data']['moment']['videoInfo']['definitions'][0]['url']
print(title)
print(video_url)
# 保存數(shù)據(jù) 需要對(duì)于視頻播放地址, 發(fā)送請(qǐng)求獲取數(shù)據(jù)內(nèi)容
video_content = requests.get(url=video_url, headers=headers).content
with open('video\\' + title +video_id + '.mp4', mode='wb') as f: # as 重命名為 f
f.write(video_content)
# f = open('video\\' + title + '.mp4', mode='wb')
# f.write(video_content)
# f.close()
尾語
成功沒有快車道馅闽,幸福沒有高速路砚蓬。
所有的成功,都來自不倦地努力和奔跑撒桨,所有的幸福都來自平凡的奮斗和堅(jiān)持
——?jiǎng)?lì)志語錄
本文章就寫完啦~感興趣的小伙伴可以復(fù)制代碼去試試
你們的支持是我最大的動(dòng)力N龌帧墨坚!記得三連哦~ ?? 歡迎大家閱讀往期的文章呀~