【How To】web scraper - 輕量數(shù)據(jù)爬取

對小白來說采转,如果有【需要爬取網(wǎng)站內(nèi)同類頁面固定位置的信息】的需求,比如說:

- 各類排行榜信息(豆瓣/IMDB/……)

- 新聞網(wǎng)站今日要聞

- 批量收集XXXXX信息

web scraper則會是最簡單最適合小白的解決方案聂受,通過總結(jié)網(wǎng)頁結(jié)構(gòu)的規(guī)律,可以達(dá)到事半功倍的效果烤镐。本篇文章是站在非常小白的角度來寫的蛋济,如果需要更多專業(yè)詞匯的文章,請參考官方doc炮叶。

研究了一下工作原理碗旅,網(wǎng)站通常都是由列表頁+詳情頁組成,web scraper就是告訴插件镜悉,我需要【網(wǎng)頁list】(列表頁)中的【ABCDEFG網(wǎng)頁】(詳情頁)【信息1】祟辟、【信息2】、【信息3】……【信息N】侣肄,能夠講清楚跳轉(zhuǎn)邏輯和抓取邏輯就行了

拿【豆瓣閱讀潛力榜】做了個測試旧困,我想要【潛力榜】(列表頁)中的【每一本書】(詳情頁)的【書名】、【作者】茫孔、【簡介】叮喳、【字?jǐn)?shù)】、【閱讀數(shù)】缰贝、【加入書架數(shù)】馍悟、【標(biāo)簽】,就有了以下操作過程:


Step0:下載并啟動Web Scraper

下載這個事情剩晴,通過chrome應(yīng)用下載吧锣咒。

如果沒辦法直接下載,找到【crxdl】這個插件庫赞弥,搜索【web scraper】毅整,找到這個蜘蛛網(wǎng)圖標(biāo),再安裝吧

Web Scraper圖標(biāo)


啟動Web Scraper很簡單绽左,按F12悼嫉,或者網(wǎng)頁右擊,檢查拼窥,在導(dǎo)航欄的最郵編戏蔑,有【web scraper】出現(xiàn),則表示啟動成功


Step1:創(chuàng)建項目

點擊【Create new sitemap】鲁纠,在web scraper中建立一個爬蟲項目

創(chuàng)建項目


Sitemap name - 自己取名总棵,小寫字母開頭,一般寫這個項目是干嘛的

URL - 填寫需要爬取的Link改含,多個link可以后面的加號添加

填寫name及url情龄,url可添加多個


我這里用的是【豆瓣閱讀潛力榜】的網(wǎng)站link,填進(jìn)去就好,


Step2:配置列表頁抓取邏輯

創(chuàng)建好【sitemap】后會自動跳入本項目的.root中骤视,我們需要在這里加入排好的跳轉(zhuǎn)邏輯鞍爱,告訴網(wǎng)頁找完這一頁后需要跳轉(zhuǎn)

查看從【潛力榜】到每一本書頁面的跳轉(zhuǎn)邏輯,發(fā)現(xiàn)是點擊【每個書的block】尚胞,網(wǎng)頁會跳轉(zhuǎn)到書籍詳細(xì)頁面硬霍,點擊【Add New Selector】創(chuàng)建這個跳轉(zhuǎn)邏輯

添加selector


填寫ID,一般是這個內(nèi)容具體是啥笼裳,我比較喜歡叫這一步為【jump_link】唯卖,先填進(jìn)去

這一步是需要點擊每本書進(jìn)去進(jìn)一步收集信息的,所以type選link

按照順序1-6來操作


然后我們來用自帶的選擇框躬柬,來確認(rèn)【每本書的block】的規(guī)律拜轨,點擊多個書名后,系統(tǒng)會用紅框選中允青,然后在selecting框中顯示我們選中內(nèi)容的規(guī)律橄碾,點擊done即可自動填寫到【selector】中

由于這一步是這一本書搜完還要搜集下一本書的內(nèi)容,所以我們需要多個跳轉(zhuǎn)的颠锉,要勾選【Multiple】法牲,并且將【parent selector】選擇到.root,即我們一開始的就會先進(jìn)入到這個頁面琼掠,做這個操作


Step3:配置詳情頁抓取邏輯

接下來拒垃,我們就需要看跳轉(zhuǎn)網(wǎng)頁后,我們需要的信息如何抓取了

首先瓷蛙,我們需要【書名】悼瓮,點擊【Add new selector】,創(chuàng)建一個針對書名的抓取器

ID老規(guī)矩艰猬,寫清楚防止以后忘了横堡,我這一步就叫【book_name】,

這次我們抓取的是書名這個字段即可冠桃,type選擇text

由于書名在每一頁上是唯一的命贴,不太好利用多次點擊同類再讓插件幫我們找規(guī)律,我比較推薦用chrome選擇小工具食听,幫我們找到對應(yīng)的selector套么。點擊當(dāng)前頁面的選擇工具,點擊點到書名上碳蛋,在element元素這里已經(jīng)標(biāo)注處當(dāng)前字段的情況,選中這一段省咨,右擊肃弟,復(fù)制,復(fù)制selector,把這個內(nèi)容笤受,粘貼回selector框中穷缤,

chrome自帶的元素選擇工具


因為這一步是從上一頁中,通過點擊對應(yīng)數(shù)目的block跳轉(zhuǎn)過來的箩兽,所以parent selector選擇回剛才創(chuàng)建的【jump_link】

點擊【Save Selector】

注意parent selectors的選擇


同樣的津肛,【作者】、【簡介】汗贫、【字?jǐn)?shù)】身坐、【閱讀數(shù)】、【加入書架數(shù)】落包、【標(biāo)簽】也是這樣找到selector部蛇,并且與jump link聯(lián)系起來,這樣咐蝇,一個簡單的爬蟲小工具就設(shè)置好了涯鲁。


Step4: 測試爬蟲使用情況

設(shè)置好細(xì)節(jié)后,我們可以來測試爬蟲是否能用了有序,

點擊【sitemap 項目名】后抹腿,選擇Scrape,填寫完interval和delay后**旭寿,**瀏覽器會自動開始爬取并跳轉(zhuǎn)

開始爬取


點擊【refresh】后警绩,可以看到當(dāng)前已經(jīng)拿到的信息

實時查看爬取到的信息


在所有信息爬取完后,點擊【export data】就可以導(dǎo)出csx或者xlsx格式的數(shù)據(jù)了

導(dǎo)出數(shù)據(jù)


web scraper還有很多高階功能许师,它的Selector的type處房蝉,也有更多的選擇可以玩,想要了解更多微渠,可以:

- 查看doc搭幻,非常清晰 【搜索 doc web scraper】

- 學(xué)習(xí)HTML元素,更系統(tǒng)地學(xué)習(xí)HTML架構(gòu)

- 學(xué)習(xí)正則表達(dá)式逞盆,更方便地批量選擇信息

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末檀蹋,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子云芦,更是在濱河造成了極大的恐慌俯逾,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件舅逸,死亡現(xiàn)場離奇詭異桌肴,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)琉历,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評論 3 392
  • 文/潘曉璐 我一進(jìn)店門坠七,熙熙樓的掌柜王于貴愁眉苦臉地迎上來水醋,“玉大人,你說我怎么就攤上這事彪置≈糇伲” “怎么了?”我有些...
    開封第一講書人閱讀 162,415評論 0 353
  • 文/不壞的土叔 我叫張陵拳魁,是天一觀的道長惶桐。 經(jīng)常有香客問我,道長潘懊,這世上最難降的妖魔是什么姚糊? 我笑而不...
    開封第一講書人閱讀 58,157評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮卦尊,結(jié)果婚禮上叛拷,老公的妹妹穿的比我還像新娘。我一直安慰自己岂却,他們只是感情好忿薇,可當(dāng)我...
    茶點故事閱讀 67,171評論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著躏哩,像睡著了一般署浩。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上扫尺,一...
    開封第一講書人閱讀 51,125評論 1 297
  • 那天筋栋,我揣著相機(jī)與錄音,去河邊找鬼正驻。 笑死弊攘,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的姑曙。 我是一名探鬼主播襟交,決...
    沈念sama閱讀 40,028評論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼伤靠!你這毒婦竟也來了捣域?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評論 0 274
  • 序言:老撾萬榮一對情侶失蹤宴合,失蹤者是張志新(化名)和其女友劉穎焕梅,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體卦洽,經(jīng)...
    沈念sama閱讀 45,310評論 1 310
  • 正文 獨居荒郊野嶺守林人離奇死亡贞言,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,533評論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了阀蒂。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片蜗字。...
    茶點故事閱讀 39,690評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡打肝,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出挪捕,到底是詐尸還是另有隱情,我是刑警寧澤争便,帶...
    沈念sama閱讀 35,411評論 5 343
  • 正文 年R本政府宣布级零,位于F島的核電站,受9級特大地震影響滞乙,放射性物質(zhì)發(fā)生泄漏奏纪。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,004評論 3 325
  • 文/蒙蒙 一斩启、第九天 我趴在偏房一處隱蔽的房頂上張望序调。 院中可真熱鬧,春花似錦兔簇、人聲如沸发绢。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽边酒。三九已至,卻和暖如春狸窘,著一層夾襖步出監(jiān)牢的瞬間墩朦,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評論 1 268
  • 我被黑心中介騙來泰國打工翻擒, 沒想到剛下飛機(jī)就差點兒被人妖公主榨干…… 1. 我叫王不留氓涣,地道東北人。 一個月前我還...
    沈念sama閱讀 47,693評論 2 368
  • 正文 我出身青樓陋气,卻偏偏與公主長得像劳吠,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子恩伺,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,577評論 2 353

推薦閱讀更多精彩內(nèi)容