在淘寶首頁輸入商品數(shù)據(jù),搜索出來的商品信息是ajax動(dòng)態(tài)加載出來的,這樣的信息再源代碼的是找不到,于是爬取這些信息可以選擇selenium或者找到這個(gè)js文件進(jìn)行解析,本文這次是抓到這個(gè)js文件進(jìn)行解析的,首先打開淘寶頁面,本文以搜索文胸為例子,如圖,注意此時(shí)network中是只有少數(shù)幾個(gè)js文件的
Paste_Image.png
點(diǎn)擊商品頁面第二頁,我們發(fā)現(xiàn)JS中多了很多個(gè)請(qǐng)求,如圖,這里有隱藏著商品信息的js文件
Paste_Image.png
找到這個(gè)文件就好辦了,接下來就發(fā)送請(qǐng)求,解析json文件的事情了,只要點(diǎn)多幾次,這個(gè)文件就能找到的,不難,如圖
Paste_Image.png
Paste_Image.png
但是觀察這份json數(shù)據(jù)和網(wǎng)址之間的關(guān)系茅茂,我們還可以做一些相應(yīng)的修改媒吗,方便我們爬取之后的解析,這也是樓主實(shí)驗(yàn)多次的結(jié)果涌矢,爬蟲真是體力活啊
Paste_Image.png
去掉如圖紅色箭頭所指的字母之后是這樣的摆出,這就是一份很規(guī)則的json數(shù)據(jù)了锁蠕,直接解析就好了
Paste_Image.png
import requests
import json
import csv
class Spider(object):
首先找到獲得這個(gè)文件的鏈接,其實(shí)這個(gè)鏈接很長,但是我們可以修改,把其他東西去掉,剩下這樣的
https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q={},
大括號(hào)里面的是我們自己填充的搜索內(nèi)容,
,我們使用這個(gè)簡化版的url,訪問效果是一樣的
json_url='https://s.taobao.com/search?data-key=s&data-value=44&ajax=true&_ksTS=1479917597216_854&callback&q={}'
再提一下,這里q之前的jsonjsonp1035這個(gè)字符已經(jīng)鏈接上去掉,
否則獲得的json文件就有這個(gè)字符在前面,影響json.loads的解析,
這里可是折騰了樓主這種小白差不多兩個(gè)小時(shí)啊,簡直要死
def __init__(self,kwyword):
self.url =self.json_url.format(kwyword)
data = self.get_source()
#print(data)
#print(type(data))
#print(data)
rusult_list= self.get_all_data(data)
self.write_data(rusult_list)
def get_source(self):
html = requests.get(self.url)
#print(html.content)
return html.content.decode()不解碼的話看不到文字
def get_all_data(self,data):
data_dict= json.loads(data)
print(data_dict)
print(type(data_dict))
item_list = data_dict['mods']['itemlist']['data']['auctions']
這一步尤其關(guān)鍵,是提取信息最關(guān)鍵的一步,也是折騰了我最久的,不得不感嘆,淘寶的數(shù)據(jù)隱藏得真是深啊
print(item_list)
result_list = []
for item in item_list:
result_dict = {}
result_dict['title'] = item['title'].replace('<span class=H>', '').replace('</span>', '')
result_dict['url'] = 'http:' + item['detail_url']
result_dict['location'] = item['item_loc']
result_dict['shop_name'] = item['nick']
result_dict['原價(jià)'] = item['reserve_price']
result_dict['現(xiàn)價(jià)'] = item['view_price']
print(result_dict)
result_list.append(result_dict)
return result_list
def write_data(self, result_list):
with open('result.csv', 'w', encoding='UTF-8') as f:
writer = csv.DictWriter(f, fieldnames=['title', '原價(jià)', '現(xiàn)價(jià)','shop_name', 'location', 'url'])
writer.writeheader()
writer.writerows(result_list)
if __name__ == '__main__':
keyword=input('請(qǐng)輸入搜索的內(nèi)容:' )
all_data = Spider(keyword)
這是解析后的數(shù)據(jù)
Paste_Image.png
最后效果圖
Paste_Image.png
Paste_Image.png
當(dāng)然,只抓取一頁怎么能滿足呢,于是我分析了每個(gè)頁面的url,發(fā)現(xiàn)還是有規(guī)律的
Paste_Image.png
除了第一個(gè)頁面的js文件有點(diǎn)特殊,其他的都是由規(guī)律可以尋找的,這為我們大規(guī)模爬取提供了可能,數(shù)據(jù)還可以提取每個(gè)商品的購買人數(shù),運(yùn)費(fèi)等等信息,對(duì)于分析也很有幫助,以后想起再來寫吧