對小白來說采转,如果有【需要爬取網(wǎng)站內(nèi)同類頁面固定位置的信息】的需求,比如說:
- 各類排行榜信息(豆瓣/IMDB/……)
- 新聞網(wǎng)站今日要聞
- 批量收集XXXXX信息
web scraper則會是最簡單最適合小白的解決方案聂受,通過總結(jié)網(wǎng)頁結(jié)構(gòu)的規(guī)律,可以達(dá)到事半功倍的效果烤镐。本篇文章是站在非常小白的角度來寫的蛋济,如果需要更多專業(yè)詞匯的文章,請參考官方doc炮叶。
研究了一下工作原理碗旅,網(wǎng)站通常都是由列表頁+詳情頁組成,web scraper就是告訴插件镜悉,我需要【網(wǎng)頁list】(列表頁)中的【ABCDEFG網(wǎng)頁】(詳情頁)【信息1】祟辟、【信息2】、【信息3】……【信息N】侣肄,能夠講清楚跳轉(zhuǎn)邏輯和抓取邏輯就行了
拿【豆瓣閱讀潛力榜】做了個測試旧困,我想要【潛力榜】(列表頁)中的【每一本書】(詳情頁)的【書名】、【作者】茫孔、【簡介】叮喳、【字?jǐn)?shù)】、【閱讀數(shù)】缰贝、【加入書架數(shù)】馍悟、【標(biāo)簽】,就有了以下操作過程:
Step0:下載并啟動Web Scraper
下載這個事情剩晴,通過chrome應(yīng)用下載吧锣咒。
如果沒辦法直接下載,找到【crxdl】這個插件庫赞弥,搜索【web scraper】毅整,找到這個蜘蛛網(wǎng)圖標(biāo),再安裝吧
啟動Web Scraper很簡單绽左,按F12悼嫉,或者網(wǎng)頁右擊,檢查拼窥,在導(dǎo)航欄的最郵編戏蔑,有【web scraper】出現(xiàn),則表示啟動成功
Step1:創(chuàng)建項目
點擊【Create new sitemap】鲁纠,在web scraper中建立一個爬蟲項目
Sitemap name - 自己取名总棵,小寫字母開頭,一般寫這個項目是干嘛的
URL - 填寫需要爬取的Link改含,多個link可以后面的加號添加
我這里用的是【豆瓣閱讀潛力榜】的網(wǎng)站link,填進(jìn)去就好,
Step2:配置列表頁抓取邏輯
創(chuàng)建好【sitemap】后會自動跳入本項目的.root中骤视,我們需要在這里加入排好的跳轉(zhuǎn)邏輯鞍爱,告訴網(wǎng)頁找完這一頁后需要跳轉(zhuǎn)
查看從【潛力榜】到每一本書頁面的跳轉(zhuǎn)邏輯,發(fā)現(xiàn)是點擊【每個書的block】尚胞,網(wǎng)頁會跳轉(zhuǎn)到書籍詳細(xì)頁面硬霍,點擊【Add New Selector】創(chuàng)建這個跳轉(zhuǎn)邏輯
填寫ID,一般是這個內(nèi)容具體是啥笼裳,我比較喜歡叫這一步為【jump_link】唯卖,先填進(jìn)去
這一步是需要點擊每本書進(jìn)去進(jìn)一步收集信息的,所以type選link
然后我們來用自帶的選擇框躬柬,來確認(rèn)【每本書的block】的規(guī)律拜轨,點擊多個書名后,系統(tǒng)會用紅框選中允青,然后在selecting框中顯示我們選中內(nèi)容的規(guī)律橄碾,點擊done即可自動填寫到【selector】中
由于這一步是這一本書搜完還要搜集下一本書的內(nèi)容,所以我們需要多個跳轉(zhuǎn)的颠锉,要勾選【Multiple】法牲,并且將【parent selector】選擇到.root,即我們一開始的就會先進(jìn)入到這個頁面琼掠,做這個操作
Step3:配置詳情頁抓取邏輯
接下來拒垃,我們就需要看跳轉(zhuǎn)網(wǎng)頁后,我們需要的信息如何抓取了
首先瓷蛙,我們需要【書名】悼瓮,點擊【Add new selector】,創(chuàng)建一個針對書名的抓取器
ID老規(guī)矩艰猬,寫清楚防止以后忘了横堡,我這一步就叫【book_name】,
這次我們抓取的是書名這個字段即可冠桃,type選擇text
由于書名在每一頁上是唯一的命贴,不太好利用多次點擊同類再讓插件幫我們找規(guī)律,我比較推薦用chrome選擇小工具食听,幫我們找到對應(yīng)的selector套么。點擊當(dāng)前頁面的選擇工具,點擊點到書名上碳蛋,在element元素這里已經(jīng)標(biāo)注處當(dāng)前字段的情況,選中這一段省咨,右擊肃弟,復(fù)制,復(fù)制selector,把這個內(nèi)容笤受,粘貼回selector框中穷缤,
因為這一步是從上一頁中,通過點擊對應(yīng)數(shù)目的block跳轉(zhuǎn)過來的箩兽,所以parent selector選擇回剛才創(chuàng)建的【jump_link】
點擊【Save Selector】
同樣的津肛,【作者】、【簡介】汗贫、【字?jǐn)?shù)】身坐、【閱讀數(shù)】、【加入書架數(shù)】落包、【標(biāo)簽】也是這樣找到selector部蛇,并且與jump link聯(lián)系起來,這樣咐蝇,一個簡單的爬蟲小工具就設(shè)置好了涯鲁。
Step4: 測試爬蟲使用情況
設(shè)置好細(xì)節(jié)后,我們可以來測試爬蟲是否能用了有序,
點擊【sitemap 項目名】后抹腿,選擇Scrape,填寫完interval和delay后**旭寿,**瀏覽器會自動開始爬取并跳轉(zhuǎn)
點擊【refresh】后警绩,可以看到當(dāng)前已經(jīng)拿到的信息
在所有信息爬取完后,點擊【export data】就可以導(dǎo)出csx或者xlsx格式的數(shù)據(jù)了
web scraper還有很多高階功能许师,它的Selector的type處房蝉,也有更多的選擇可以玩,想要了解更多微渠,可以:
- 查看doc搭幻,非常清晰 【搜索 doc web scraper】
- 學(xué)習(xí)HTML元素,更系統(tǒng)地學(xué)習(xí)HTML架構(gòu)
- 學(xué)習(xí)正則表達(dá)式逞盆,更方便地批量選擇信息