新媒體人必備數(shù)據(jù)分析工具|Web Scraper初級(jí)用法

對(duì)于新媒體運(yùn)營(yíng)來(lái)說(shuō)，數(shù)據(jù)分析是必備的能力之一吕嘀。工作中很多時(shí)候都會(huì)有很多需要進(jìn)行數(shù)據(jù)收集的情況，這時(shí)候如果采用手動(dòng)采集的情況贞瞒，不僅效率極低偶房，很浪費(fèi)時(shí)間，也容易出錯(cuò)军浆。

我一開(kāi)始學(xué)習(xí)新新媒體運(yùn)營(yíng)的時(shí)候棕洋，有一次我在收集一個(gè)知乎大v的文章想要分析研究他的選題時(shí)，大晚上的我用復(fù)制黏貼到表格的方式整整用了一個(gè)小時(shí)乒融。工作做完之后都有點(diǎn)手抖眼抽筋拍冠，累覺(jué)不愛(ài)，再也不想做這樣的工作了簇抵。想偷懶的我在網(wǎng)絡(luò)上扒了又扒庆杜，終于找到了這款傻瓜式的爬蟲(chóng)工具——web scraper。

web scraper最大的特點(diǎn)就是對(duì)于新手小白非常的友好碟摆，非常簡(jiǎn)單易學(xué)晃财，不需要太復(fù)雜的編程代碼知識(shí)，只需要輕松幾步，就可以抓取到你所需的內(nèi)容断盛，一個(gè)小時(shí)就能輕松掌握罗洗。

注意了.jpg

一、Web scraper的下載安裝

web scraper是一款chrome插件軟件钢猛，你可以選擇在chrome應(yīng)用商店中下載安裝伙菜，如果無(wú)法進(jìn)入應(yīng)用商店的話可以給我評(píng)論區(qū)留言，領(lǐng)取web scraper的安裝包手動(dòng)安裝命迈，只需要把壓縮包拖到擴(kuò)展工具中就可以了贩绕。

擴(kuò)展工具.png

二、打開(kāi)Web scraper

打開(kāi)你想要抓取的網(wǎng)頁(yè)內(nèi)容壶愤，然后右鍵點(diǎn)擊檢查淑倾，就可以找到webscraper工具≌鹘罚或者選擇通過(guò)Ctrl + Shift + I 或者直接點(diǎn)擊F12 的方式打開(kāi)娇哆。

打開(kāi)web scraper.png

三、新建sitemap

create new sitemap下方的有creat sitemap和import sitemap兩條命令勃救，前一個(gè)是新建碍讨，后一個(gè)是通過(guò)倒入之前建立的代碼來(lái)執(zhí)行抓取命令。由于我們是入門(mén)蒙秒，所以選擇creat sitemap勃黍。

新建sitemap.png

輸入sitemap name：這里可以輸入你所在的網(wǎng)頁(yè)名稱(chēng)，如果是豆瓣頁(yè)税肪，可以輸入douban
輸入start url(初始網(wǎng)頁(yè)鏈接)：輸入你所在的網(wǎng)頁(yè)鏈接就行

四溉躲、參數(shù)設(shè)置

web scraper其實(shí)是模擬人的操作來(lái)實(shí)現(xiàn)數(shù)據(jù)的抓取的榜田。想抓取二級(jí)頁(yè)面要先抓取到一級(jí)頁(yè)面的內(nèi)容益兄。
舉個(gè)例子來(lái)說(shuō)，你要做競(jìng)品分析箭券，研究某個(gè)知乎創(chuàng)作者寫(xiě)的文章净捅，想抓取標(biāo)題、贊同數(shù)辩块、評(píng)論數(shù)這些內(nèi)容蛔六，那你必須首先要抓取到文章整體才能進(jìn)一步抓取到標(biāo)題、贊同數(shù)废亭、評(píng)論數(shù)這些元素国章。
創(chuàng)建sitemap之后，就出現(xiàn)一個(gè)add new seletor（創(chuàng)建一個(gè)選擇器）的參數(shù)豆村。

參數(shù)設(shè)置.png

id：這里可以填寫(xiě)你要選擇的內(nèi)容名液兽，比較隨意，方便你自己的識(shí)別就可以了掌动。比如我想抓取知乎創(chuàng)作者運(yùn)營(yíng)的小事的文章四啰，這里我就填入yunyingdexiaoshi宁玫。
Type:你要抓取的內(nèi)容的類(lèi)型。這里邊的下拉選項(xiàng)有text(文本)柑晒、link(鏈接）欧瘪、image(圖片)、table(表格)等等匙赞。我們這次要先抓取文章整體可以選擇element選項(xiàng)佛掖。
Selector:點(diǎn)擊選擇Select。然后把鼠標(biāo)移動(dòng)到想要抓取的內(nèi)容上方罚屋，直到選中整篇文章苦囱。先點(diǎn)擊選中第一篇文章，然后點(diǎn)擊選中第二篇文章脾猛，后邊的文章就自動(dòng)識(shí)別抓取撕彤。然后點(diǎn)擊done selecting。

done selecting.png

Multiple:如果要抓取多個(gè)要素時(shí)點(diǎn)擊選擇multiple前面的小框猛拴。若是單個(gè)元素就不必點(diǎn)選了羹铅。
Save selecting:保存選擇參數(shù)時(shí)點(diǎn)save selecting。

這樣一級(jí)頁(yè)面文章就選擇完了愉昆，下一步是在文章頁(yè)面下設(shè)置贊同數(shù)等二級(jí)選擇职员。進(jìn)入文章整體選擇標(biāo)題等元素時(shí)，root/ 后邊這部分就是你剛剛抓取的一級(jí)選擇內(nèi)容名稱(chēng)跛溉。

進(jìn)入二級(jí)頁(yè)面.png

接下來(lái)就是設(shè)置二級(jí)選擇的操作焊切。和一級(jí)頁(yè)面的操作類(lèi)似。只是Type類(lèi)型這要根據(jù)你想抓取的內(nèi)容類(lèi)型進(jìn)行相應(yīng)的選擇芳室，如果要抓取贊同數(shù)或者贊同數(shù)時(shí)专肪，要選擇Text的下拉選項(xiàng)，要抓取標(biāo)題和鏈接時(shí)堪侯，選擇的link的下拉選項(xiàng)嚎尤。

五、爬取數(shù)據(jù)

點(diǎn)擊scrape開(kāi)始抓取數(shù)據(jù)伍宦，會(huì)出現(xiàn)兩個(gè)參數(shù)：request interval和page load delay 默認(rèn)的數(shù)值是2000芽死，這個(gè)數(shù)值和網(wǎng)速有關(guān)，一般情況下2000是ok的次洼。如果網(wǎng)速慢的話加載會(huì)比較慢关贵，這樣可能就會(huì)導(dǎo)致抓取到空白的內(nèi)容。這種情況下可以把這兩個(gè)數(shù)值設(shè)置的大一些卖毁，比如設(shè)置到3000甚至更大揖曾。

抓取時(shí)頁(yè)面不能關(guān)，關(guān)的話容易出現(xiàn)錯(cuò)誤。最后出現(xiàn)no data scraped yet.的頁(yè)面就代表抓取完了翩肌。點(diǎn)refresh就可以預(yù)覽抓取的內(nèi)容模暗。
最后想導(dǎo)出表格文件可以點(diǎn)擊export data as CSV(csv是一種文件格式，支持excel)念祭，然后download now兑宇。

六、用web scraper抓取多頁(yè)

上述的操作可以抓取到你所在的頁(yè)面單頁(yè)的內(nèi)容粱坤，如果你想抓取的網(wǎng)頁(yè)是數(shù)字分頁(yè)的形式隶糕，可以通過(guò)修改URL的方式實(shí)現(xiàn)抓取多頁(yè)的目的。

一般數(shù)字分頁(yè)這種多頁(yè)的鏈接都是有一定規(guī)律的
如運(yùn)營(yíng)的小事的文章
第一頁(yè)的鏈接： https://www.zhihu.com/people/CYFCX/posts?page=1
第二頁(yè)的鏈接： https://www.zhihu.com/people/CYFCX/posts?page=2
第三頁(yè)的鏈接： https://www.zhihu.com/people/CYFCX/posts?page=3
...

查看你所要抓取的首頁(yè)和末頁(yè)的頁(yè)數(shù)站玄，找到差值枚驻，如以上頁(yè)面的差值是1。（不一定所有的差值都是1株旷，一定要先觀察好）再登。然后把規(guī)律鏈接的頁(yè)數(shù)n改為[首頁(yè)-末頁(yè):差值]，差值為1時(shí)可以忽略不寫(xiě)差值和冒號(hào)的部分晾剖。

如想要抓取運(yùn)營(yíng)的小事的1-4頁(yè)的文章锉矢，在設(shè)置URL的時(shí)候可以先復(fù)制第一頁(yè)的鏈接，把最后的數(shù)字1改為[1-4]齿尽，https://www.zhihu.com/people/CYFCX/posts?page=[1-4]沽损，把它填入Start URL中。

多頁(yè)抓取.png

這款傻瓜爬蟲(chóng)工具你get到了嗎循头，快來(lái)練習(xí)起來(lái)吧绵估！

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市卡骂，隨后出現(xiàn)的幾起案子国裳，更是在濱河造成了極大的恐慌，老刑警劉巖偿警，帶你破解...
沈念sama閱讀 218,858評(píng)論 6贊 508
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件躏救，死亡現(xiàn)場(chǎng)離奇詭異唯笙，居然都是意外死亡螟蒸，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,372評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)崩掘，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)七嫌，“玉大人，你說(shuō)我怎么就攤上這事苞慢∷性” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,282評(píng)論 0贊 356
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)绍赛。經(jīng)常有香客問(wèn)我蔓纠，道長(zhǎng)，這世上最難降的妖魔是什么吗蚌？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,842評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任腿倚，我火速辦了婚禮，結(jié)果婚禮上蚯妇，老公的妹妹穿的比我還像新娘敷燎。我一直安慰自己，他們只是感情好箩言，可當(dāng)我...
茶點(diǎn)故事閱讀 67,857評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布硬贯。她就那樣靜靜地躺著，像睡著了一般陨收。火紅的嫁衣襯著肌膚如雪饭豹。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書(shū)人閱讀 51,679評(píng)論 1贊 305
城市分裂傳說(shuō)
那天务漩，我揣著相機(jī)與錄音墨状，去河邊找鬼。笑死菲饼，一個(gè)胖子當(dāng)著我的面吹牛肾砂，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播宏悦，決...
沈念sama閱讀 40,406評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼镐确，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了饼煞？” 一聲冷哼從身側(cè)響起源葫，我...
開(kāi)封第一講書(shū)人閱讀 39,311評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎砖瞧，沒(méi)想到半個(gè)月后息堂，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,767評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡块促，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,945評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年荣堰，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片竭翠。...
茶點(diǎn)故事閱讀 40,090評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡振坚，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出斋扰，到底是詐尸還是另有隱情渡八，我是刑警寧澤啃洋，帶...
沈念sama閱讀 35,785評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站屎鳍，受9級(jí)特大地震影響宏娄，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜逮壁，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,420評(píng)論 3贊 331
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一绝编、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧貌踏，春花似錦十饥、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,988評(píng)論 0贊 22
一樁弒父案逗堵，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至眷昆，卻和暖如春蜒秤，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背亚斋。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,101評(píng)論 1贊 271
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工作媚，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人帅刊。一個(gè)月前我還...
沈念sama閱讀 48,298評(píng)論 3贊 372
代替公主和親
正文我出身青樓纸泡，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親赖瞒。傳聞我的和親對(duì)象是個(gè)殘疾皇子女揭，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,033評(píng)論 2贊 355