一個(gè)免費(fèi)的批量快速抓取頁面信息的插件
一個(gè)永久免費(fèi)幫助你可以抓取用戶反饋評(píng)價(jià)的東西
一個(gè)無需代碼編程基礎(chǔ)也能操作的神器
一個(gè)幫助你減少很多人力成本取尋找整理信息的黑科技
.....
Web Scraper-一個(gè)可以網(wǎng)站信息抓取的谷歌瀏覽器插件
使用教程:
準(zhǔn)備:
1、下載谷歌瀏覽器
2、下載Web scraper插件
PS:谷歌瀏覽器不需要外網(wǎng)也可以在網(wǎng)上下載咐旧,但是Web Scraper就需要能使用外網(wǎng)下載了
打開你要抓取的網(wǎng)頁戏阅。
首先要使用該插件來提取網(wǎng)頁數(shù)據(jù)需要在開發(fā)者工具模式中使用懒豹,使用快捷鍵Ctrl+Shift+I/F12或者點(diǎn)擊右鍵野崇,選擇“檢查(Inspect)”嚼松,在【開發(fā)者工具】下面就能看到WebScraper的Tab又憨。如下圖所示:
新建一個(gè)Sitemap
點(diǎn)擊Create New Sitemap,里面有兩個(gè)選項(xiàng)麻诀,選create sitemap?
然后進(jìn)行這兩個(gè)操作:
1痕寓、Sitemap Name:代表你這個(gè)Sitemap是適用于哪一個(gè)網(wǎng)頁的,所以你可以根據(jù)網(wǎng)頁來自命名蝇闭,不過需要使用英文字母呻率,比如我抓的是知乎的數(shù)據(jù),那我就用zhihu來命名丁眼。
2筷凤、Sitemap URL:把網(wǎng)頁鏈接復(fù)制到Star URL這一欄,比如圖片里我把知乎「英語」的主頁鏈接復(fù)制到了這一欄,而后點(diǎn)擊下方的create sitemap來新建一個(gè)Sitemap
3藐守、設(shè)置Sitemap
整個(gè)Web Scraper的抓取邏輯是這樣:設(shè)置一級(jí) Selector挪丢,選定抓取范圍;在一級(jí) Selector 下設(shè)置二級(jí) Selector卢厂,選定抓取字段乾蓬,然后抓取。
對(duì)于文章而言慎恒,一級(jí) Selector 就是你要把這一塊文章的要素圈出來任内,這個(gè)要素可能包含了 標(biāo)題、作者融柬、發(fā)布時(shí)間死嗦、評(píng)論數(shù)等等,然后我們?cè)僭诙?jí) Selector 中挑出我們要的要素粒氧,比如標(biāo)題越除、作者、閱讀數(shù)外盯。
下面我們來拆解這個(gè)設(shè)置一級(jí)摘盆、二級(jí) Selector 的工作流:
(1)點(diǎn)擊 Add new selector 創(chuàng)建一級(jí) Selector。
而后按照以下步驟操作:
輸入id:id代表你抓取的整個(gè)范圍饱苟,比如這里是文章孩擂,我們可以命名為zhihu-english;
選擇Type:type 代表你抓取的這部分的類型箱熬,比如元素/文本/鏈接类垦,因?yàn)檫@個(gè)是整個(gè)文章要素范圍選取,我們需要用Element 來先整體選忍沟堋(如果這個(gè)網(wǎng)頁需要滑動(dòng)加載更多护锤,那就選 Element Scroll Down);
勾選Multiple:勾選 Multiple 前面的小框酿傍,因?yàn)槟阋x的是多個(gè)元素而不是單個(gè)元素,當(dāng)我們勾選的時(shí)候驱入,爬蟲插件會(huì)幫助我們識(shí)別多篇同類的文章赤炒;
保留設(shè)置:其余未提及部分保留默認(rèn)設(shè)置
(2)點(diǎn)擊select選擇范圍,按照以下步驟操作:
-選擇范圍:用鼠標(biāo)選擇你要爬取數(shù)據(jù)的范圍亏较,綠色是待選區(qū)域莺褒,用鼠標(biāo)點(diǎn)擊后變?yōu)榧t色,才是選中了這塊區(qū)域雪情;
-多選:不要只選一個(gè)遵岩,下面的也要選,否則爬出來的數(shù)據(jù)也只有一行;
-完成選擇:記得點(diǎn)Done Selecting尘执;
-保存:點(diǎn)擊Save Selector舍哄。
(3)設(shè)置好了這個(gè)一級(jí)的Selector之后,點(diǎn)進(jìn)去設(shè)置二級(jí)的Selector誊锭,按照以下步驟操作:
-新建Selector:點(diǎn)擊 Add new selector 表悬;
-輸入id:id代表你抓取的是哪個(gè)字段,所以可以取該字段的英文丧靡,比如我要選「標(biāo)題」蟆沫,我就寫「title」
-選擇Type:選Text,因?yàn)槟阋ト〉氖俏谋荆?/p>
-勿勾選Multiple:不要勾選 Multiple 前面的小框温治,因?yàn)槲覀冊(cè)谶@里要抓取的是單個(gè)元素饭庞;
-保留設(shè)置:其余未提及部分保留默認(rèn)設(shè)置。
(4)點(diǎn)擊 select熬荆,再點(diǎn)擊你要爬取的字段但绕,按照以下步驟操作:
-選擇字段:這里爬取的字段是單個(gè)的,用鼠標(biāo)點(diǎn)擊該字段即可選定惶看,比如要爬標(biāo)題捏顺,那就用鼠標(biāo)點(diǎn)擊某篇文章的標(biāo)題,當(dāng)字段所在區(qū)域變紅即為選中
-完成選擇:記得點(diǎn) Done Selecting
-保存:點(diǎn)擊 Save Selector
(5)重復(fù)以上操作纬黎,直到選完你想爬的字段幅骄。
4、爬取數(shù)據(jù)
(1)之后你想要爬取數(shù)據(jù)只需要設(shè)置完所有的Selector就可以開始:
點(diǎn)擊Scrape本今,彈出一個(gè)小窗后爬蟲就會(huì)開始工作拆座。你會(huì)得到一個(gè)列表,上面有你想要的所有數(shù)據(jù)冠息。
(2)如果你希望把這些數(shù)據(jù)做一個(gè)排序挪凑,比如按照閱讀量、贊數(shù)逛艰、作者等指標(biāo)排序躏碳,讓數(shù)據(jù)更一目了然,那么你可以點(diǎn)擊 Export Data as CSV散怖,把它導(dǎo)入 Excel 表里菇绵。
(3)導(dǎo)入 Excel 表格之后,你就可以對(duì)數(shù)據(jù)進(jìn)行篩選了镇眷。
這個(gè)是簡(jiǎn)單的初級(jí)操作咬最,大家去試試吧