一诗祸、爬取目標(biāo)
大家好灶搜,我是 @馬哥python說 弟断,一名10年程序猿官硝。
今天分享一期爬蟲的案例樊卓,用python爬嗶哩嗶哩的搜索結(jié)果拿愧,也就是這個(gè)頁面:爬取字段,包含:
頁碼, 視頻標(biāo)題, 視頻作者, 視頻編號(hào), 創(chuàng)建時(shí)間, 視頻時(shí)長, 彈幕數(shù), 點(diǎn)贊數(shù), 播放數(shù), 收藏?cái)?shù), 分區(qū)類型, 標(biāo)簽, 視頻描述
這里碌尔,我一共爬了30頁浇辜,每頁30條,共30*30=900條數(shù)據(jù)(當(dāng)然唾戚,最大爬取頁數(shù)可自定義放大)
下面柳洋,開始分析網(wǎng)頁。
json數(shù)據(jù)
分析到這里,就可以開發(fā)爬蟲了莹捡。
二鬼吵、講解代碼
首先,導(dǎo)入用到的庫:
import requests # 發(fā)送請(qǐng)求
import time # 獲取時(shí)間
import os
import pandas as pd # 保存csv數(shù)據(jù)
import re # 數(shù)據(jù)清洗
下面篮赢,開始發(fā)送請(qǐng)求齿椅。
請(qǐng)求參數(shù)代碼:
# 請(qǐng)求參數(shù)
params = {
'__refresh__': 'true',
'_extra': '',
'context': '',
'page': page,
'page_size': 30,
'from_source': '',
'from_spmid': '333.337',
'platform': 'pc',
'highlight': '1',
'single_column': '0',
'keyword': v_keyword,
'qv_id': 'dHavr2spEK3TphPa54klZ6svdhBYOlyP',
'category_id': '',
'search_type': 'video',
'dynamic_offset': 24,
'preload': 'true',
'com2co': 'true',
}
請(qǐng)求頭,在Request Headers里面:注意涣脚!cookie很重要示辈,如果不傳入cookie這個(gè)參數(shù),會(huì)返回412錯(cuò)誤碼涩澡!
請(qǐng)求頭代碼:
# 請(qǐng)求頭
headers = {'accept': 'application/json, text/plain, */*',
'accept-encoding': 'gzip, deflate, br',
'accept-language': 'zh-CN,zh;q=0.9,en-US;q=0.8,en;q=0.7',
# cookie必需顽耳,否則返回412
'cookie': "換成自己的cookie",
'origin': 'https://search.bilibili.com',
'referer': 'https://search.bilibili.com/all?keyword={}&from_source=webtop_search&spm_id_from=333.1007&search_source=5&page=2&o=24'.format(
v_keyword),
'sec-ch-ua': '"Google Chrome";v="107", "Chromium";v="107", "Not=A?Brand";v="24"',
'sec-ch-ua-mobile': '?0',
'sec-ch-ua-platform ': '"macOS"',
'sec-fetch-dest': 'empty',
'sec-fetch-mode': 'cors',
'sec-fetch-site': 'same-site',
'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'
}
發(fā)送請(qǐng)求:
# 向頁面發(fā)送請(qǐng)求
r = requests.get(url, headers=headers, params=params)
print(r.status_code) # 查看響應(yīng)碼
解析出result列表數(shù)據(jù):
data_list = j_data['data']['result']
print('數(shù)據(jù)長度:', len(data_list))
定義空列表,并for循環(huán)追加數(shù)據(jù)妙同,以視頻標(biāo)題title為例:
for data in data_list:
title = re.compile(r'<[^>]+>', re.S).sub('', data['title']) # 正則表達(dá)式清洗文本
print('視頻標(biāo)題: ' + title)
title_list.append(title)
其他字段同理射富,不再贅述。
最后通過pandas的to_csv粥帚,保存最終數(shù)據(jù)胰耗。
# 數(shù)據(jù)保存到csv文件
df.to_csv(v_out_file, encoding='utf_8_sig', mode='a+', index=False, header=header)
to_csv的時(shí)候需加上選項(xiàng)(encoding='utf_8_sig'),否則存入數(shù)據(jù)會(huì)產(chǎn)生亂碼芒涡,尤其是windows用戶柴灯!
三、同步講解視頻
https://www.zhihu.com/zvideo/1573636442722697216
by 馬哥python說