1.效果圖
2.傳送門點(diǎn)擊傳送門
3.發(fā)工具之后蠢沿,往下滑時(shí)會(huì)出現(xiàn)一個(gè)接口(當(dāng)然滑的越多接口越多)
4.我們通過(guò)對(duì)比兩個(gè)及以上的接口進(jìn)行分析它們的不同之處(這叫找規(guī)律)
可以發(fā)現(xiàn)max_id是在變化的望浩,其他都是不變的译打,而且count是返回的文章數(shù)目有15個(gè),所以max_id只要自增15就可以實(shí)現(xiàn)翻頁(yè)了帐萎,是不是很簡(jiǎn)單
5.我們可以這么寫代碼實(shí)現(xiàn)翻頁(yè)(這代碼只是舉例子怎么寫翻頁(yè)馒吴,不代表最終的代碼)俭厚,這里我取max_id開始的地方是20333000(小伙伴們可以自己去找一下max_id的有效范圍),如下
max_id = 20333000
while True:
# 請(qǐng)求的url
url = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id={}&count=15&category=-1'.format(max_id)
# 返回來(lái)的數(shù)據(jù)是json格式
resp = requests.get(url, headers=headers).json()
max_id += 15
6.接下來(lái)分析一下返回來(lái)的數(shù)據(jù)澡刹,以便我們進(jìn)行抓取呻征,通過(guò)下圖我們可以發(fā)現(xiàn)每一篇文章都是存儲(chǔ)在列表這個(gè)鍵當(dāng)中的,所以我們先取出list這個(gè)鍵代碼如下:
# 我們需要的數(shù)據(jù)存在一個(gè)列表之中罢浇,先取出這個(gè)列表
lists = resp.get('list')
7.再看每一篇文章的信息陆赋,將data的信息復(fù)制粘貼到j(luò)son.cn這個(gè)網(wǎng)站去查看json的信息,可以發(fā)在data中取出我們需要的信息
for temp in lists:
# 數(shù)據(jù)在每一個(gè)元素中的data鍵中嚷闭,取出data
data = temp.get('data')
# 取出來(lái)的data是一個(gè)str類型奏甫,我們需要將其轉(zhuǎn)換成dict的類型方可操作
data = json.loads(data)
# 判斷data是否存在
if data:
# 獲取文章的題目
title = data.get('title')
# 如果沒(méi)有題目,就continue凌受,因?yàn)橥ㄟ^(guò)我的觀察阵子,沒(méi)有title的一般是廣告之類的
if not title:
continue
# 獲取摘要
description = data.get('description')
# 數(shù)據(jù)清洗,使用正則表達(dá)式的sub方法
description = re.sub(r'<a.*?>|</a>|<img.*?/>', '', description)
# 獲取用戶的信息胜蛉,用戶的信息在data里邊的user鍵中
user_name = data.get('user').get('screen_name')
# 獲取是什么類型的文章
column = temp.get('column')
# 獲取發(fā)表的時(shí)間戳
created_at = data.get('created_at')
# 獲取閱讀人數(shù)
view_count = data.get('view_count')
# 聲明一個(gè)字典存儲(chǔ)數(shù)據(jù)
data_dict = {}
data_dict['title'] = title
data_dict['description'] = description
data_dict['user_name'] = user_name
data_dict['column'] = column
data_dict['created_at'] = created_at
data_dict['view_count'] = view_count
print(data_dict)
8.最后就是將數(shù)據(jù)保存到文件中挠进,其中data_list是我在前面一開始就聲明的了
# 將數(shù)據(jù)寫入json文件
with open('data_json.json', 'a+', encoding='utf-8-sig') as f:
json.dump(data_list, f, ensure_ascii=False, indent=4)
print('json文件寫入完成')
# 將數(shù)據(jù)寫入csv文件
with open('data_csv.csv', 'w', encoding='utf-8-sig', newline='') as f:
# 表頭
title = data_list[0].keys()
# 聲明writer
writer = csv.DictWriter(f, title)
# 寫入表頭
writer.writeheader()
# 批量寫入數(shù)據(jù)
writer.writerows(data_list)
print('csv文件寫入完成')
9.完整代碼
完整代碼公眾號(hào)回復(fù)'雪球網(wǎng)'關(guān)鍵字即可
公眾號(hào):pythonislover
記得要設(shè)置延遲噢,我們是一只文明的爬蟲~~~ 忘了說(shuō)了誊册,cookie會(huì)過(guò)期领突,需要及時(shí)更新cookie