關(guān)鍵詞:
翻頁(yè) XHR JSON
思路:
用chrome F12開(kāi)發(fā)者功能霜旧,查看翻頁(yè)時(shí)Network的內(nèi)容篷就,確定爬蟲翻頁(yè)的實(shí)現(xiàn)方法
過(guò)程:
1.分析跳轉(zhuǎn)的內(nèi)容
chrome打開(kāi)https://www.douyu.com/g_LOL
F12打開(kāi)開(kāi)發(fā)者功能,查看network的XHR
然后在頁(yè)面上點(diǎn)擊第二頁(yè)跳轉(zhuǎn)航罗,繼續(xù)查看network的XHR,發(fā)現(xiàn)一個(gè)名叫2的頁(yè)面
我們直接在瀏覽器中打開(kāi)https://www.douyu.com/gapi/rkc/directory/2_1/2
發(fā)現(xiàn)是一個(gè)json的文件蛾魄,那么我們?cè)俅蜷_(kāi)
https://www.douyu.com/gapi/rkc/directory/2_1/1
內(nèi)容也是json
里面返回的是第一頁(yè)的各個(gè)主播直播間的內(nèi)容餐曹,包括主播的url逛拱,name以及分類。
翻到最后
pgnct應(yīng)該是總頁(yè)數(shù)台猴。
- 分析
我們現(xiàn)在可以通過(guò)https://www.douyu.com/gapi/rkc/directory/2_1/1已經(jīng)總頁(yè)數(shù)循環(huán)獲得英雄聯(lián)盟分類所有的主播信息朽合,怎么獲得其他的分類下的內(nèi)容呢。本來(lái)英雄聯(lián)盟的網(wǎng)址應(yīng)該是 g_LOL饱狂,這里用的是2_1曹步,有沒(méi)有辦法找到對(duì)應(yīng)信息呢?
我們換一個(gè)分類看看,絕地求生這個(gè)分類休讳,用同樣的方法查看箭窜,得到的網(wǎng)址是https://www.douyu.com/gapi/rkc/directory/2_270/2。Dota2衍腥,https://www.douyu.com/gapi/rkc/directory/2_3/2。
那么大概可以知道纳猫,不同分類對(duì)應(yīng)不同的https://www.douyu.com/gapi/rkc/directory/2_x/pageNumber婆咸。
3.方案
從1和2得到的內(nèi)容,我們可以放棄從每個(gè)分類的主頁(yè)去獲取主播信息了芜辕,用https://www.douyu.com/gapi/rkc/directory/2_x/pageNumber來(lái)直接獲取信息尚骄,直接拿到j(luò)son內(nèi)容進(jìn)行分析,效率更高侵续。