參考:
有關(guān)webscraper的問題,看這個就夠了(建議收藏)
少年派web Scraper介紹
鹵蛋實(shí)驗(yàn)室-web scrapy 教程
選擇器css
輕量級工具,使用瀏覽器插件進(jìn)行爬蟲,不用寫代碼喳资。
應(yīng)用:爬取網(wǎng)頁單個表格
Web Scraper 高級用法——抓取表格數(shù)據(jù) | 簡易數(shù)據(jù)分析 11<br />
- 1.下載chrome Web Scraper 插件

- 2.測試的網(wǎng)站,抓取上海到北京的所有列車時刻表。
http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=???&txtDaoDa=????
表格如下:

- 使用F12 打開 web scraper

- 4.填寫具體爬蟲內(nèi)容 :先創(chuàng)建一個包含整個表格的 container,Type 類型選為
Table
剥槐,表示我們要抓取表格。
- 5.如果上面表格宪摧,填寫正確粒竖,在這個面板下向下翻颅崩,會發(fā)現(xiàn)多了一個不一樣的面板。觀察一下你就會發(fā)現(xiàn)蕊苗,這些數(shù)據(jù)其實(shí)就是表格數(shù)據(jù)類型的分類沿后,在這個案例里,他把車次朽砰、出發(fā)站尖滚、開車時間等分類都列了出來。
在 Table columns
這個分類里瞧柔,每一行的內(nèi)容旁邊的選擇按鈕默認(rèn)都是打勾的漆弄,也就是說默認(rèn)都會抓取這些列的內(nèi)容。如果你不想抓取某類內(nèi)容造锅,去掉對應(yīng)的勾選就可以了撼唾。<br />在你點(diǎn)擊 Save selector
的按鈕時,會發(fā)現(xiàn) Result key 的一些選項(xiàng)報(bào)錯哥蔚,說什么 invalid format
格式無效:<br />解決這個報(bào)錯很簡單倒谷,一般來說是 Result key 名字的長度不夠,你給加個空格加個標(biāo)點(diǎn)符號就行糙箍。如果還報(bào)錯渤愁,就試試換成英文名字:<br />

解決報(bào)錯保存成功后,我們就可以按照 Web Scraper 的爬取套路抓取數(shù)據(jù)了深夯。
- 下載爬取的表格

總結(jié):
掌握了 Web Scraper 的使用抖格,基本上可以應(yīng)付學(xué)習(xí)工作中 90% 的數(shù)據(jù)爬取需求。相對于 python 爬蟲咕晋,雖然靈活度上受到了限制雹拄,但是低廉的學(xué)習(xí)成本可以大大節(jié)省學(xué)習(xí)時間,快速解決手頭的工作捡需,提高整體的工作效率办桨。綜合來看,Web Scraper 還是非常值得去學(xué)習(xí)的站辉。
Web Scraper 的優(yōu)點(diǎn)
? 輕量:非常的輕量呢撞。上手只需要一個 Chrome 瀏覽器和一個 Web Scraper 插件。對于一些限制安裝第三方軟件的公司電腦饰剥,可以很輕易的突破這層限制
? 提效:Web Scraper 支持絕大多數(shù)的網(wǎng)頁的爬取殊霞,可以無侵入的加入你的日常工作流中
? 快:抓取速度取決于你的網(wǎng)速與瀏覽器加載速度,其他的數(shù)據(jù)采集軟件可能有限速現(xiàn)象(充錢就能不限速)
Web Scraper 的缺點(diǎn)
? 只支持文本數(shù)據(jù)抓忍亍:圖片短視頻等多媒體數(shù)據(jù)無法批量抓取
? 不支持范圍抓缺炼住:例如一個網(wǎng)頁有 1000 條數(shù)據(jù),默認(rèn)是全量抓取的,無法配置抓取范圍祝钢。想停止抓取比规,只能斷網(wǎng)模擬數(shù)據(jù)加載完畢的情況
? 不支持復(fù)雜網(wǎng)頁抓取:對于那些加了復(fù)雜交互拦英、酷炫的特效和反人類的反爬蟲網(wǎng)頁蜒什,Web Scraper 無能為力(其實(shí)這種網(wǎng)頁寫 python 爬蟲也挺頭疼)
? 導(dǎo)出數(shù)據(jù)亂序:想讓數(shù)據(jù)正序就得用 Excel 或者用 CouchDB,相對復(fù)雜了一些
? 模擬人瀏覽網(wǎng)頁操作疤估,不支持并行灾常,側(cè)重小規(guī)模獲取網(wǎng)站數(shù)據(jù)