對(duì)于新媒體運(yùn)營(yíng)來(lái)說(shuō),數(shù)據(jù)分析是必備的能力之一吕嘀。工作中很多時(shí)候都會(huì)有很多需要進(jìn)行數(shù)據(jù)收集的情況,這時(shí)候如果采用手動(dòng)采集的情況贞瞒,不僅效率極低偶房,很浪費(fèi)時(shí)間,也容易出錯(cuò)军浆。
我一開(kāi)始學(xué)習(xí)新新媒體運(yùn)營(yíng)的時(shí)候棕洋,有一次我在收集一個(gè)知乎大v的文章想要分析研究他的選題時(shí),大晚上的我用復(fù)制黏貼到表格的方式整整用了一個(gè)小時(shí)乒融。工作做完之后都有點(diǎn)手抖眼抽筋拍冠,累覺(jué)不愛(ài),再也不想做這樣的工作了簇抵。想偷懶的我在網(wǎng)絡(luò)上扒了又扒庆杜,終于找到了這款傻瓜式的爬蟲(chóng)工具——web scraper。
web scraper最大的特點(diǎn)就是對(duì)于新手小白非常的友好碟摆,非常簡(jiǎn)單易學(xué)晃财,不需要太復(fù)雜的編程代碼知識(shí),只需要輕松幾步,就可以抓取到你所需的內(nèi)容断盛,一個(gè)小時(shí)就能輕松掌握罗洗。
一、Web scraper的下載安裝
web scraper是一款chrome插件軟件钢猛,你可以選擇在chrome應(yīng)用商店中下載安裝伙菜,如果無(wú)法進(jìn)入應(yīng)用商店的話可以給我評(píng)論區(qū)留言,領(lǐng)取web scraper的安裝包手動(dòng)安裝命迈,只需要把壓縮包拖到擴(kuò)展工具中就可以了贩绕。
二、打開(kāi)Web scraper
打開(kāi)你想要抓取的網(wǎng)頁(yè)內(nèi)容壶愤,然后右鍵點(diǎn)擊檢查淑倾,就可以找到webscraper工具≌鹘罚或者選擇通過(guò)Ctrl + Shift + I 或者直接點(diǎn)擊F12 的方式打開(kāi)娇哆。
三、新建sitemap
create new sitemap下方的有creat sitemap和import sitemap兩條命令勃救,前一個(gè)是新建碍讨,后一個(gè)是通過(guò)倒入之前建立的代碼來(lái)執(zhí)行抓取命令。由于我們是入門(mén)蒙秒,所以選擇creat sitemap勃黍。
輸入sitemap name:這里可以輸入你所在的網(wǎng)頁(yè)名稱(chēng),如果是豆瓣頁(yè)税肪,可以輸入douban
輸入start url(初始網(wǎng)頁(yè)鏈接):輸入你所在的網(wǎng)頁(yè)鏈接就行
四溉躲、參數(shù)設(shè)置
web scraper其實(shí)是模擬人的操作來(lái)實(shí)現(xiàn)數(shù)據(jù)的抓取的榜田。想抓取二級(jí)頁(yè)面要先抓取到一級(jí)頁(yè)面的內(nèi)容益兄。
舉個(gè)例子來(lái)說(shuō),你要做競(jìng)品分析箭券,研究某個(gè)知乎創(chuàng)作者寫(xiě)的文章净捅,想抓取標(biāo)題、贊同數(shù)辩块、評(píng)論數(shù)這些內(nèi)容蛔六,那你必須首先要抓取到文章整體才能進(jìn)一步抓取到標(biāo)題、贊同數(shù)废亭、評(píng)論數(shù)這些元素国章。
創(chuàng)建sitemap之后,就出現(xiàn)一個(gè)add new seletor(創(chuàng)建一個(gè)選擇器)的參數(shù)豆村。
id:這里可以填寫(xiě)你要選擇的內(nèi)容名液兽,比較隨意,方便你自己的識(shí)別就可以了掌动。比如我想抓取知乎創(chuàng)作者運(yùn)營(yíng)的小事的文章四啰,這里我就填入yunyingdexiaoshi宁玫。
Type:你要抓取的內(nèi)容的類(lèi)型。這里邊的下拉選項(xiàng)有text(文本)柑晒、link(鏈接)欧瘪、image(圖片)、table(表格)等等匙赞。我們這次要先抓取文章整體可以選擇element選項(xiàng)佛掖。
Selector:點(diǎn)擊選擇Select。然后把鼠標(biāo)移動(dòng)到想要抓取的內(nèi)容上方罚屋,直到選中整篇文章苦囱。先點(diǎn)擊選中第一篇文章,然后點(diǎn)擊選中第二篇文章脾猛,后邊的文章就自動(dòng)識(shí)別抓取撕彤。然后點(diǎn)擊done selecting。
Multiple:如果要抓取多個(gè)要素時(shí)點(diǎn)擊選擇multiple前面的小框猛拴。若是單個(gè)元素就不必點(diǎn)選了羹铅。
Save selecting:保存選擇參數(shù)時(shí)點(diǎn)save selecting。
這樣一級(jí)頁(yè)面文章就選擇完了愉昆,下一步是在文章頁(yè)面下設(shè)置贊同數(shù)等二級(jí)選擇职员。進(jìn)入文章整體選擇標(biāo)題等元素時(shí),root/ 后邊這部分就是你剛剛抓取的一級(jí)選擇內(nèi)容名稱(chēng)跛溉。
接下來(lái)就是設(shè)置二級(jí)選擇的操作焊切。和一級(jí)頁(yè)面的操作類(lèi)似。只是Type類(lèi)型這要根據(jù)你想抓取的內(nèi)容類(lèi)型進(jìn)行相應(yīng)的選擇芳室,如果要抓取贊同數(shù)或者贊同數(shù)時(shí)专肪,要選擇Text的下拉選項(xiàng),要抓取標(biāo)題和鏈接時(shí)堪侯,選擇的link的下拉選項(xiàng)嚎尤。
五、爬取數(shù)據(jù)
點(diǎn)擊scrape開(kāi)始抓取數(shù)據(jù)伍宦,會(huì)出現(xiàn)兩個(gè)參數(shù):request interval和page load delay 默認(rèn)的數(shù)值是2000芽死,這個(gè)數(shù)值和網(wǎng)速有關(guān),一般情況下2000是ok的次洼。如果網(wǎng)速慢的話加載會(huì)比較慢关贵,這樣可能就會(huì)導(dǎo)致抓取到空白的內(nèi)容。這種情況下可以把這兩個(gè)數(shù)值設(shè)置的大一些卖毁,比如設(shè)置到3000甚至更大揖曾。
抓取時(shí)頁(yè)面不能關(guān),關(guān)的話容易出現(xiàn)錯(cuò)誤。最后出現(xiàn)no data scraped yet.的頁(yè)面就代表抓取完了翩肌。點(diǎn)refresh就可以預(yù)覽抓取的內(nèi)容模暗。
最后想導(dǎo)出表格文件可以點(diǎn)擊export data as CSV(csv是一種文件格式,支持excel)念祭,然后download now兑宇。
六、用web scraper抓取多頁(yè)
上述的操作可以抓取到你所在的頁(yè)面單頁(yè)的內(nèi)容粱坤,如果你想抓取的網(wǎng)頁(yè)是數(shù)字分頁(yè)的形式隶糕,可以通過(guò)修改URL的方式實(shí)現(xiàn)抓取多頁(yè)的目的。
一般數(shù)字分頁(yè)這種多頁(yè)的鏈接都是有一定規(guī)律的
如運(yùn)營(yíng)的小事的文章
第一頁(yè)的鏈接: https://www.zhihu.com/people/CYFCX/posts?page=1
第二頁(yè)的鏈接: https://www.zhihu.com/people/CYFCX/posts?page=2
第三頁(yè)的鏈接: https://www.zhihu.com/people/CYFCX/posts?page=3
...
查看你所要抓取的首頁(yè)和末頁(yè)的頁(yè)數(shù)站玄,找到差值枚驻,如以上頁(yè)面的差值是1。(不一定所有的差值都是1株旷,一定要先觀察好)再登。然后把規(guī)律鏈接的頁(yè)數(shù)n改為[首頁(yè)-末頁(yè):差值],差值為1時(shí)可以忽略不寫(xiě)差值和冒號(hào)的部分晾剖。
如想要抓取運(yùn)營(yíng)的小事的1-4頁(yè)的文章锉矢,在設(shè)置URL的時(shí)候可以先復(fù)制第一頁(yè)的鏈接,把最后的數(shù)字1改為[1-4]齿尽,https://www.zhihu.com/people/CYFCX/posts?page=[1-4]沽损,把它填入Start URL中。
這款傻瓜爬蟲(chóng)工具你get到了嗎循头,快來(lái)練習(xí)起來(lái)吧绵估!