1伐脖、要抓取的網(wǎng)址鏈接透乾。
2、要抓取的信息字段,為了不產(chǎn)生歧義感帅,最好截圖標注一下~
3、如果有多頁慰技,要說明抓多少頁
舉例——
需求概述:小明要抓取淘寶上關(guān)于酸奶的商品信息构诚。
需要提供:
- 網(wǎng)站鏈接 —— 如何獲取呵俏?進入淘寶 www.taobao.com堆缘,然后搜索“酸奶”,出現(xiàn)的這個鏈接普碎,就是爬蟲需要的鏈接吼肥,結(jié)果鏈接如下:
https://s.taobao.com/search?q=%E9%85%B8%E5%A5%B6&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306
image.png
- 需要抓取這個頁面的所有商品,每個商品需要抓取的信息:
- 產(chǎn)品名稱
- 價格
- 購買人數(shù)
具體截圖如下:
image.png
- 搜索結(jié)果一共有 100頁麻车,只需要抓取前 5 頁即可缀皱。
image.png
ps:上面是個例子,具體情況动猬,可以根據(jù)需求改變啤斗。比如抓取的字段不同,或者抓取頁數(shù)不一樣等