以http://9gag.com/ask9gag
這個(gè)網(wǎng)站為例,列表頁明顯是一個(gè)瀑布流的形式赴恨,不是傳統(tǒng)的分頁毫胜。該頁面翻頁是靠鼠標(biāo)滾動(dòng)到頁面下方的時(shí)候翻滾出下一頁的內(nèi)容,再繼續(xù)滾動(dòng)的時(shí)候再翻擂煞,依次類推混弥。
用爬蟲爬取第一頁的內(nèi)容沒什么技術(shù)含量,難的是如何進(jìn)行翻頁爬取以后各個(gè)頁面的內(nèi)容对省。
解決步驟:
一開始并不知道該頁面是通過一種什么機(jī)制來翻頁的剑逃,所以在火狐瀏覽器中打開f12浙宜,點(diǎn)擊“控制臺”,然后鼠標(biāo)滾動(dòng)到該頁面底端蛹磺,看看發(fā)出了什么請求:
圖片.png
原來請求了這樣一個(gè)網(wǎng)址粟瞬,然后鼠標(biāo)持續(xù)往下滾動(dòng),可以發(fā)現(xiàn):
圖片.png
看看紅框內(nèi)請求的網(wǎng)址萤捆,原來鼠標(biāo)不斷滾動(dòng)裙品,就會不斷發(fā)出請求下一頁的url。
那些形如"c=10"或者"c=20"的參數(shù)一看便知就是用來控制獲取的下一批條目用的俗或。
圖片.png
猜想一下 原網(wǎng)頁當(dāng)中很可能有個(gè)地方調(diào)用了上圖紅框中的地址市怎。
此時(shí)只要到原網(wǎng)頁的源代碼中去查找一下即可(當(dāng)然只查找其中一段字符串,不要查整個(gè)url)辛慰。果不其然:
圖片.png
發(fā)現(xiàn)了這個(gè) “<a> ”標(biāo)簽就好辦多了,往下的步驟就不再贅述了区匠。
(待續(xù))