Web Scraper 爬取表格

參考：

有關(guān)webscraper的問題，看這個就夠了（建議收藏）
少年派web Scraper介紹
 鹵蛋實(shí)驗(yàn)室-web scrapy 教程
 選擇器css

輕量級工具，使用瀏覽器插件進(jìn)行爬蟲，不用寫代碼喳资。

應(yīng)用：爬取網(wǎng)頁單個表格

Web Scraper 高級用法——抓取表格數(shù)據(jù) | 簡易數(shù)據(jù)分析 11<br />

1.下載chrome Web Scraper 插件

image.png

2.測試的網(wǎng)站,抓取上海到北京的所有列車時刻表。

http://www.huochepiao.com/search/chaxun/result.asp?txtChuFa=???&txtDaoDa=????
表格如下：

image.png

1. 使用F12 打開 web scraper

image.png

4.填寫具體爬蟲內(nèi)容：先創(chuàng)建一個包含整個表格的 container，Type 類型選為 Table剥槐，表示我們要抓取表格。

image.png

5.如果上面表格宪摧，填寫正確粒竖，在這個面板下向下翻颅崩，會發(fā)現(xiàn)多了一個不一樣的面板。觀察一下你就會發(fā)現(xiàn)蕊苗，這些數(shù)據(jù)其實(shí)就是表格數(shù)據(jù)類型的分類沿后，在這個案例里，他把車次朽砰、出發(fā)站尖滚、開車時間等分類都列了出來。

在 Table columns 這個分類里瞧柔，每一行的內(nèi)容旁邊的選擇按鈕默認(rèn)都是打勾的漆弄，也就是說默認(rèn)都會抓取這些列的內(nèi)容。如果你不想抓取某類內(nèi)容造锅，去掉對應(yīng)的勾選就可以了撼唾。<br />在你點(diǎn)擊 Save selector 的按鈕時，會發(fā)現(xiàn) Result key 的一些選項(xiàng)報(bào)錯哥蔚，說什么 invalid format 格式無效：<br />解決這個報(bào)錯很簡單倒谷，一般來說是 Result key 名字的長度不夠，你給加個空格加個標(biāo)點(diǎn)符號就行糙箍。如果還報(bào)錯渤愁，就試試換成英文名字：<br />

image.png

解決報(bào)錯保存成功后，我們就可以按照 Web Scraper 的爬取套路抓取數(shù)據(jù)了深夯。

下載爬取的表格

image.png

總結(jié)：

鹵蛋實(shí)驗(yàn)室

掌握了 Web Scraper 的使用抖格，基本上可以應(yīng)付學(xué)習(xí)工作中 90% 的數(shù)據(jù)爬取需求。相對于 python 爬蟲咕晋，雖然靈活度上受到了限制雹拄，但是低廉的學(xué)習(xí)成本可以大大節(jié)省學(xué)習(xí)時間，快速解決手頭的工作捡需，提高整體的工作效率办桨。綜合來看，Web Scraper 還是非常值得去學(xué)習(xí)的站辉。

Web Scraper 的優(yōu)點(diǎn)

? 輕量：非常的輕量呢撞。上手只需要一個 Chrome 瀏覽器和一個 Web Scraper 插件。對于一些限制安裝第三方軟件的公司電腦饰剥，可以很輕易的突破這層限制
? 提效：Web Scraper 支持絕大多數(shù)的網(wǎng)頁的爬取殊霞，可以無侵入的加入你的日常工作流中
? 快：抓取速度取決于你的網(wǎng)速與瀏覽器加載速度，其他的數(shù)據(jù)采集軟件可能有限速現(xiàn)象（充錢就能不限速）

Web Scraper 的缺點(diǎn)

? 只支持文本數(shù)據(jù)抓忍亍：圖片短視頻等多媒體數(shù)據(jù)無法批量抓取
? 不支持范圍抓缺炼住：例如一個網(wǎng)頁有 1000 條數(shù)據(jù)，默認(rèn)是全量抓取的，無法配置抓取范圍祝钢。想停止抓取比规，只能斷網(wǎng)模擬數(shù)據(jù)加載完畢的情況
? 不支持復(fù)雜網(wǎng)頁抓取：對于那些加了復(fù)雜交互拦英、酷炫的特效和反人類的反爬蟲網(wǎng)頁蜒什，Web Scraper 無能為力（其實(shí)這種網(wǎng)頁寫 python 爬蟲也挺頭疼）
? 導(dǎo)出數(shù)據(jù)亂序：想讓數(shù)據(jù)正序就得用 Excel 或者用 CouchDB，相對復(fù)雜了一些
? 模擬人瀏覽網(wǎng)頁操作疤估，不支持并行灾常，側(cè)重小規(guī)模獲取網(wǎng)站數(shù)據(jù)

最后編輯于：2020.06.07 14:30:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者