1. 爬蟲原理
1)網(wǎng)絡連接
簡單點來說匈仗,計算機發(fā)送請求Request → 服務器回應Response,即實現(xiàn)了網(wǎng)絡連接。
2)爬蟲原理
爬蟲其實完成兩件事:
①模擬計算機對服務器發(fā)起Request箩张;
②接收來自服務端的Response內(nèi)容神僵,并解析戚炫、提取所需信息猜旬。多頁面和跨頁面爬蟲
多頁面爬蟲:分析各網(wǎng)頁的URL構成特點桩砰,構造出URL列表阶捆,然后利用循環(huán)取出URL爬取凌节。
跨頁面爬蟲:爬取列表頁的URL钦听,并將其存入URL列表,然后利用循環(huán)取出URL爬取倍奢。
2.網(wǎng)頁構造
1)學習網(wǎng)頁前端知識
2)通過Chrome的“檢查”功能(F12快鍵鍵)或“查看網(wǎng)頁源代碼”功能朴上。