不寫(xiě)代碼的爬蟲(chóng),10分鐘搞定

使用 Chrome 瀏覽器插件 Web Scraper 可以輕松實(shí)現(xiàn)網(wǎng)頁(yè)數(shù)據(jù)的爬取凡伊,不寫(xiě)代碼零渐,鼠標(biāo)操作,點(diǎn)哪爬哪系忙,還不用考慮爬蟲(chóng)中的登陸诵盼、驗(yàn)證碼、異步加載等復(fù)雜問(wèn)題。

Web Scraper插件

Web Scraper 官網(wǎng)中的簡(jiǎn)介:

Web Scraper Extension (Free!)
Using our extension you can create a plan (sitemap) how a web site should be traversed and what should be extracted. Using these sitemaps the Web Scraper will navigate the site accordingly and extract all data. Scraped data later can be exported as CSV.

先看一下风宁,我用 web scaper 爬取到的數(shù)據(jù):

1. 知乎輪子哥粉絲

輪子哥有 54 萬(wàn)多粉絲洁墙,我只抓取了前 20 頁(yè)400條記錄

設(shè)定數(shù)據(jù)字段
2.簡(jiǎn)書(shū)七日熱門(mén)數(shù)據(jù)
運(yùn)行爬蟲(chóng)得到數(shù)據(jù)
導(dǎo)出數(shù)據(jù)
Web Scraper 抓取流程及要點(diǎn):

安裝Web Scraper插件后,三步完成爬取操作
1戒财、Create new sitemap(創(chuàng)建爬取項(xiàng)目)
2热监、選取爬取網(wǎng)頁(yè)中的內(nèi)容,點(diǎn)點(diǎn)點(diǎn)固翰,操作
3狼纬、開(kāi)啟爬取,下載CSV數(shù)據(jù)

其中最關(guān)鍵的是第二步骂际,兩個(gè)要點(diǎn):

  1. 先選中數(shù)據(jù)塊 Element疗琉,每塊數(shù)據(jù)我們?cè)陧?yè)面上取,都是重復(fù)的歉铝,選中 Multiple
  2. 在數(shù)據(jù)塊中再取需要的數(shù)據(jù)字段(上圖Excel中的列)

爬取大量數(shù)據(jù)的要點(diǎn)盈简,在于掌握分頁(yè)的控制。
分頁(yè)分為3種情況:

  1. URL 參數(shù)分頁(yè)(比較規(guī)整方式)
    URL 中帶有分頁(yè)的 page 參數(shù)的太示,如:
https://www.zhihu.com/people/excited-vczh/followers?page=2

直接在創(chuàng)建sitemap時(shí)柠贤,Start URL中就可以帶上分頁(yè)參數(shù),寫(xiě)成這樣:

https://www.zhihu.com/people/excited-vczh/followers?page=[1-27388]
  1. 滾動(dòng)加載类缤,點(diǎn)擊“加載更多” 加載頁(yè)面數(shù)據(jù)

  2. 點(diǎn)擊分頁(yè)數(shù)字標(biāo)簽(包括“下一頁(yè)”標(biāo)簽)
    注意臼勉,這里第2-3種可以歸為一類(lèi)方式,是異步加載的方式餐弱,大部分都可以轉(zhuǎn)為第1種的方式來(lái)處理宴霸。
    這種方式分頁(yè)不太好控制。一般使用 Link 或 Element click 來(lái)實(shí)現(xiàn)分頁(yè)的操作膏蚓。

圖示 Web Scraper 操作步驟:
第一步:創(chuàng)建sitemap
第二步:選取塊數(shù)據(jù)Element
第三步:選取抓取的字段text
第四步:爬取
Web Scaper 使用體會(huì):
  1. 除了規(guī)整的分頁(yè)方式外瓢谢,其他分頁(yè)方式不好控制,不同的網(wǎng)站受頁(yè)面標(biāo)簽不同驮瞧,操作也不一樣氓扛。

  2. 因?yàn)橹苯幼ト№?yè)面顯示值,抓取數(shù)據(jù)規(guī)整度不太好论笔,需要 EXCEL 函數(shù)處理采郎。
    如,簡(jiǎn)書(shū)七日熱門(mén)中文章發(fā)表時(shí)間狂魔,格式有好幾種尉剩。

  3. 有一點(diǎn)網(wǎng)頁(yè)代碼基礎(chǔ)的上手很快,代碼才是王道啊毅臊。
    特別是有點(diǎn)Python爬蟲(chóng)基礎(chǔ)的理茎,在選取頁(yè)面數(shù)據(jù)中很容易操作黑界、理解,發(fā)現(xiàn)操作中出現(xiàn)的問(wèn)題皂林。

  4. 比起八爪魚(yú)朗鸠、火車(chē)頭等數(shù)據(jù)采集器,web scraper不需要下載軟件础倍,免費(fèi)烛占,無(wú)需注冊(cè),還很體會(huì)一點(diǎn)點(diǎn)代碼的操作沟启。當(dāng)然 web scraper 也有付費(fèi)的云爬蟲(chóng)忆家。

Web Scraper 還可以導(dǎo)入sitemap,把下面的這段代碼導(dǎo)入德迹,你就可以抓取到知乎輪子哥前20頁(yè)的粉絲:

{"startUrl":"https://www.zhihu.com/people/excited-vczh/followers?page=[1-20]","selectors":[{"parentSelectors":["_root"],"type":"SelectorElement","multiple":true,"id":"items","selector":"div.List-item","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"name","selector":"div.UserItem-title a.UserLink-link","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"desc","selector":"div.RichText","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"answers","selector":"span.ContentItem-statusItem:nth-of-type(1)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"articles","selector":"span.ContentItem-statusItem:nth-of-type(2)","regex":"","delay":""},{"parentSelectors":["items"],"type":"SelectorText","multiple":false,"id":"fans","selector":"span.ContentItem-statusItem:nth-of-type(3)","regex":"","delay":""}],"_id":"zh_vczh"}

PS, Web Scraper 資料教程

  1. 官網(wǎng)中的視頻教程
    http://webscraper.io/tutorials

  2. 知乎@陳大欣 的回答 中寫(xiě)了詳細(xì)的步驟芽卿,并錄制了視頻教程。

這個(gè)問(wèn)題來(lái)源 零基礎(chǔ)如何學(xué)爬蟲(chóng)技術(shù)胳搞? @陳大欣 在文章中把 Excel 爬蟲(chóng)卸例,web scraper,代碼爬蟲(chóng)做了比較分析肌毅。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末筷转,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子悬而,更是在濱河造成了極大的恐慌呜舒,老刑警劉巖,帶你破解...
    沈念sama閱讀 218,755評(píng)論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件笨奠,死亡現(xiàn)場(chǎng)離奇詭異袭蝗,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)艰躺,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,305評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門(mén)呻袭,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)眨八,“玉大人腺兴,你說(shuō)我怎么就攤上這事×啵” “怎么了页响?”我有些...
    開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0 355
  • 文/不壞的土叔 我叫張陵,是天一觀(guān)的道長(zhǎng)段誊。 經(jīng)常有香客問(wèn)我闰蚕,道長(zhǎng),這世上最難降的妖魔是什么连舍? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1 295
  • 正文 為了忘掉前任没陡,我火速辦了婚禮,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘盼玄。我一直安慰自己贴彼,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,794評(píng)論 6 392
  • 文/花漫 我一把揭開(kāi)白布埃儿。 她就那樣靜靜地躺著器仗,像睡著了一般。 火紅的嫁衣襯著肌膚如雪童番。 梳的紋絲不亂的頭發(fā)上精钮,一...
    開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音剃斧,去河邊找鬼轨香。 笑死,一個(gè)胖子當(dāng)著我的面吹牛悯衬,可吹牛的內(nèi)容都是我干的弹沽。 我是一名探鬼主播,決...
    沈念sama閱讀 40,362評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼筋粗,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼策橘!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起娜亿,我...
    開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤丽已,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后买决,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體沛婴,經(jīng)...
    沈念sama閱讀 45,724評(píng)論 1 315
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,900評(píng)論 3 336
  • 正文 我和宋清朗相戀三年督赤,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了嘁灯。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,040評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡躲舌,死狀恐怖丑婿,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情没卸,我是刑警寧澤羹奉,帶...
    沈念sama閱讀 35,742評(píng)論 5 346
  • 正文 年R本政府宣布,位于F島的核電站约计,受9級(jí)特大地震影響诀拭,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜煤蚌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,364評(píng)論 3 330
  • 文/蒙蒙 一耕挨、第九天 我趴在偏房一處隱蔽的房頂上張望细卧。 院中可真熱鬧,春花似錦筒占、人聲如沸酒甸。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至琅关,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間农尖,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1 270
  • 我被黑心中介騙來(lái)泰國(guó)打工良哲, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留盛卡,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,247評(píng)論 3 371
  • 正文 我出身青樓筑凫,卻偏偏與公主長(zhǎng)得像滑沧,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子巍实,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,979評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容