登錄注冊寫文章

【How To】web scraper - 輕量數(shù)據(jù)爬取

小橙子piupiupiu

【How To】web scraper - 輕量數(shù)據(jù)爬取

對小白來說采转，如果有【需要爬取網(wǎng)站內(nèi)同類頁面固定位置的信息】的需求，比如說：

- 各類排行榜信息（豆瓣/IMDB/……）

- 新聞網(wǎng)站今日要聞

- 批量收集XXXXX信息

web scraper則會是最簡單最適合小白的解決方案聂受，通過總結(jié)網(wǎng)頁結(jié)構(gòu)的規(guī)律，可以達(dá)到事半功倍的效果烤镐。本篇文章是站在非常小白的角度來寫的蛋济，如果需要更多專業(yè)詞匯的文章，請參考官方doc炮叶。

研究了一下工作原理碗旅，網(wǎng)站通常都是由列表頁+詳情頁組成，web scraper就是告訴插件镜悉，我需要【網(wǎng)頁list】（列表頁）中的【ABCDEFG網(wǎng)頁】（詳情頁）【信息1】祟辟、【信息2】、【信息3】……【信息N】侣肄，能夠講清楚跳轉(zhuǎn)邏輯和抓取邏輯就行了

拿【豆瓣閱讀潛力榜】做了個測試旧困，我想要【潛力榜】（列表頁）中的【每一本書】（詳情頁）的【書名】、【作者】茫孔、【簡介】叮喳、【字?jǐn)?shù)】、【閱讀數(shù)】缰贝、【加入書架數(shù)】馍悟、【標(biāo)簽】，就有了以下操作過程：

Step0：下載并啟動Web Scraper

下載這個事情剩晴，通過chrome應(yīng)用下載吧锣咒。

如果沒辦法直接下載，找到【crxdl】這個插件庫赞弥，搜索【web scraper】毅整，找到這個蜘蛛網(wǎng)圖標(biāo)，再安裝吧

Web Scraper圖標(biāo)

啟動Web Scraper很簡單绽左，按F12悼嫉，或者網(wǎng)頁右擊，檢查拼窥，在導(dǎo)航欄的最郵編戏蔑，有【web scraper】出現(xiàn)，則表示啟動成功

Step1：創(chuàng)建項目

點擊【Create new sitemap】鲁纠，在web scraper中建立一個爬蟲項目

創(chuàng)建項目

Sitemap name - 自己取名总棵，小寫字母開頭，一般寫這個項目是干嘛的

URL - 填寫需要爬取的Link改含，多個link可以后面的加號添加

填寫name及url情龄，url可添加多個

我這里用的是【豆瓣閱讀潛力榜】的網(wǎng)站link，填進(jìn)去就好，

Step2：配置列表頁抓取邏輯

創(chuàng)建好【sitemap】后會自動跳入本項目的.root中骤视，我們需要在這里加入排好的跳轉(zhuǎn)邏輯鞍爱，告訴網(wǎng)頁找完這一頁后需要跳轉(zhuǎn)

查看從【潛力榜】到每一本書頁面的跳轉(zhuǎn)邏輯，發(fā)現(xiàn)是點擊【每個書的block】尚胞，網(wǎng)頁會跳轉(zhuǎn)到書籍詳細(xì)頁面硬霍，點擊【Add New Selector】創(chuàng)建這個跳轉(zhuǎn)邏輯

添加selector

填寫ID，一般是這個內(nèi)容具體是啥笼裳，我比較喜歡叫這一步為【jump_link】唯卖，先填進(jìn)去

這一步是需要點擊每本書進(jìn)去進(jìn)一步收集信息的，所以type選link

按照順序1-6來操作

然后我們來用自帶的選擇框躬柬，來確認(rèn)【每本書的block】的規(guī)律拜轨，點擊多個書名后，系統(tǒng)會用紅框選中允青，然后在selecting框中顯示我們選中內(nèi)容的規(guī)律橄碾，點擊done即可自動填寫到【selector】中

由于這一步是這一本書搜完還要搜集下一本書的內(nèi)容，所以我們需要多個跳轉(zhuǎn)的颠锉，要勾選【Multiple】法牲，并且將【parent selector】選擇到.root，即我們一開始的就會先進(jìn)入到這個頁面琼掠，做這個操作

Step3：配置詳情頁抓取邏輯

接下來拒垃，我們就需要看跳轉(zhuǎn)網(wǎng)頁后，我們需要的信息如何抓取了

首先瓷蛙，我們需要【書名】悼瓮，點擊【Add new selector】，創(chuàng)建一個針對書名的抓取器

ID老規(guī)矩艰猬，寫清楚防止以后忘了横堡，我這一步就叫【book_name】，

這次我們抓取的是書名這個字段即可冠桃，type選擇text

由于書名在每一頁上是唯一的命贴，不太好利用多次點擊同類再讓插件幫我們找規(guī)律，我比較推薦用chrome選擇小工具食听，幫我們找到對應(yīng)的selector套么。點擊當(dāng)前頁面的選擇工具，點擊點到書名上碳蛋，在element元素這里已經(jīng)標(biāo)注處當(dāng)前字段的情況，選中這一段省咨，右擊肃弟，復(fù)制，復(fù)制selector，把這個內(nèi)容笤受，粘貼回selector框中穷缤，

chrome自帶的元素選擇工具

因為這一步是從上一頁中，通過點擊對應(yīng)數(shù)目的block跳轉(zhuǎn)過來的箩兽，所以parent selector選擇回剛才創(chuàng)建的【jump_link】

點擊【Save Selector】

注意parent selectors的選擇

同樣的津肛，【作者】、【簡介】汗贫、【字?jǐn)?shù)】身坐、【閱讀數(shù)】、【加入書架數(shù)】落包、【標(biāo)簽】也是這樣找到selector部蛇，并且與jump link聯(lián)系起來，這樣咐蝇，一個簡單的爬蟲小工具就設(shè)置好了涯鲁。

Step4：測試爬蟲使用情況

設(shè)置好細(xì)節(jié)后，我們可以來測試爬蟲是否能用了有序，

點擊【sitemap 項目名】后抹腿，選擇Scrape，填寫完interval和delay后**旭寿，**瀏覽器會自動開始爬取并跳轉(zhuǎn)

開始爬取

點擊【refresh】后警绩，可以看到當(dāng)前已經(jīng)拿到的信息

實時查看爬取到的信息

在所有信息爬取完后，點擊【export data】就可以導(dǎo)出csx或者xlsx格式的數(shù)據(jù)了

導(dǎo)出數(shù)據(jù)

web scraper還有很多高階功能许师，它的Selector的type處房蝉，也有更多的選擇可以玩，想要了解更多微渠，可以：

- 查看doc搭幻，非常清晰【搜索 doc web scraper】

- 學(xué)習(xí)HTML元素，更系統(tǒng)地學(xué)習(xí)HTML架構(gòu)

- 學(xué)習(xí)正則表達(dá)式逞盆，更方便地批量選擇信息

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末檀蹋，一起剝皮案震驚了整個濱河市，隨后出現(xiàn)的幾起案子云芦，更是在濱河造成了極大的恐慌俯逾，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件舅逸，死亡現(xiàn)場離奇詭異桌肴，居然都是意外死亡，警方通過查閱死者的電腦和手機(jī)琉历，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門坠七，熙熙樓的掌柜王于貴愁眉苦臉地迎上來水醋，“玉大人，你說我怎么就攤上這事彪置≈糇伲” “怎么了？”我有些...
開封第一講書人閱讀 162,415評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵拳魁，是天一觀的道長惶桐。經(jīng)常有香客問我，道長潘懊，這世上最難降的妖魔是什么姚糊？我笑而不...
開封第一講書人閱讀 58,157評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮卦尊，結(jié)果婚禮上叛拷，老公的妹妹穿的比我還像新娘。我一直安慰自己岂却，他們只是感情好忿薇，可當(dāng)我...
茶點故事閱讀 67,171評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著躏哩，像睡著了一般署浩。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上扫尺，一...
開封第一講書人閱讀 51,125評論 1贊 297
城市分裂傳說
那天筋栋，我揣著相機(jī)與錄音，去河邊找鬼正驻。笑死弊攘，一個胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的姑曙。我是一名探鬼主播襟交，決...
沈念sama閱讀 40,028評論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼伤靠！你這毒婦竟也來了捣域？” 一聲冷哼從身側(cè)響起，我...
開封第一講書人閱讀 38,887評論 0贊 274
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤宴合，失蹤者是張志新（化名）和其女友劉穎焕梅，沒想到半個月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卦洽，經(jīng)...
沈念sama閱讀 45,310評論 1贊 310
?護(hù)林員之死
正文獨居荒郊野嶺守林人離奇死亡贞言，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 37,533評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發(fā)現(xiàn)自己被綠了阀蒂。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜗字。...
茶點故事閱讀 39,690評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡打肝，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出挪捕，到底是詐尸還是另有隱情，我是刑警寧澤争便，帶...
沈念sama閱讀 35,411評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布级零，位于F島的核電站，受9級特大地震影響滞乙，放射性物質(zhì)發(fā)生泄漏奏纪。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點故事閱讀 41,004評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一斩启、第九天我趴在偏房一處隱蔽的房頂上張望序调。院中可真熱鬧，春花似錦兔簇、人聲如沸发绢。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,659評論 0贊 22
一樁弒父案垄琐，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽边酒。三九已至，卻和暖如春狸窘，著一層夾襖步出監(jiān)牢的瞬間墩朦，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 32,812評論 1贊 268
情欲美人皮
我被黑心中介騙來泰國打工翻擒，沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留氓涣，地道東北人。一個月前我還...
沈念sama閱讀 47,693評論 2贊 368
代替公主和親
正文我出身青樓陋气，卻偏偏與公主長得像劳吠，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子恩伺，可洞房花燭夜當(dāng)晚...
茶點故事閱讀 44,577評論 2贊 353

推薦閱讀更多精彩內(nèi)容

Web Scraper——輕量數(shù)據(jù)爬取利器
日常學(xué)習(xí)工作中赴背，我們多多少少都會遇到一些數(shù)據(jù)爬取的需求，比如說寫論文時要收集相關(guān)課題下的論文列表晶渠，運營活動時收集用...
sky鹵代烴閱讀 637評論 1贊 2
簡易數(shù)據(jù)分析 13 | Web Scraper 抓取二級頁面
這是簡易數(shù)據(jù)分析系列的第 13 篇文章凰荚。本文首發(fā)于博客園：簡易數(shù)據(jù)分析 13。不知不覺褒脯，web scraper...
sky鹵代烴閱讀 941評論 0贊 1
網(wǎng)頁數(shù)據(jù)抓取工具（谷歌插件 web Scraper）
最簡單的數(shù)據(jù)抓取教程便瑟，人人都用得上 Web Scraper 是一款免費的，適用于普通用戶（不需要專業(yè) IT 技術(shù)的...
神木驚蟄閱讀 8,958評論 3贊 8
簡易數(shù)據(jù)分析 12 | Web Scraper 翻頁——抓取分頁器翻頁的網(wǎng)頁
這是簡易數(shù)據(jù)分析系列的第 12 篇文章番川。本文首發(fā)于博客園：簡易數(shù)據(jù)分析 12到涂。前面幾篇文章我們介紹了 Web ...
sky鹵代烴閱讀 1,591評論 0贊 2
【數(shù)據(jù)爬蟲】Web Scraper-網(wǎng)課學(xué)習(xí)筆記
寫在前面：好久不用爬數(shù)據(jù)了脊框，最近要爬卻忘了方法，翻了好久才翻到以前的筆記践啄，忽然覺得資料保存本地真不是個好方法浇雹，所以...
伍子書閱讀 1,242評論 0贊 0

1贊2贊

贊賞

手機(jī)看全文

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品