要獲取淘寶聯(lián)盟的數(shù)據(jù)第一步當(dāng)然是分析淘寶聯(lián)盟的 html
啦。
話不多少說捐凭,我們開始吧。
-
首先我們進(jìn)入淘寶客的主站 https://pub.alimama.com/
淘寶客 -
隨便點(diǎn)一個(gè)進(jìn)入商品推廣頁面凳鬓,如女裝尖貨(女人的錢是最好賺的啦W鲁Α)。
女裝尖貨 -
按 F12 打開元素審查缩举,選擇 Network 選項(xiàng)卡垦梆,再刷新下頁面匹颤,仔細(xì)觀察網(wǎng)絡(luò)請(qǐng)求變化。我們可以看到有如下一個(gè)請(qǐng)求托猩,這個(gè)請(qǐng)求是干嘛的呢印蓖?這個(gè)請(qǐng)求的當(dāng)然就是請(qǐng)求的可以進(jìn)行推廣的商品啦。
網(wǎng)絡(luò)請(qǐng)求監(jiān)聽 -
點(diǎn)擊
preview
進(jìn)入到預(yù)覽京腥,讓我們看一看請(qǐng)求的數(shù)據(jù)結(jié)構(gòu)赦肃,pageList
就是我們需要的商品信息啦。
數(shù)據(jù).png 那么我就可以用上面的請(qǐng)求去爬取優(yōu)惠券信息啦公浪。通過上面他宛,可以看到這是一個(gè)
Http
-get
請(qǐng)求,得到的是一個(gè)標(biāo)準(zhǔn)的Json
結(jié)構(gòu)的數(shù)據(jù)欠气。那么我們就可以使用requests
來模擬get
請(qǐng)求厅各,然后使用json
將數(shù)據(jù)解析出來。
def crawler_product(cookie, dit):
for i in range(1 if dit['start_page']==0 else dit['start_page'], 1000 if dit['end_page']==0 else dit['end_page']):
end = crawler_product_page(dit, i, cookie)
if end:
print u'======================== 結(jié)束 ========================'
break
def crawler_product_page(dit, page, cookies):
print u'============================= 開始抓取第 ' + str(page) + u'頁 ============================='
print u'url ==> ' + get_product_url(dit['product_url'], page)
print '\n'
r = requests.get(get_product_url(dit['product_url'], page), cookies=cookies)
info = r.json()['data']