我們經(jīng)常在朋友圈看到 Python 培訓(xùn)廣告毕源,宣傳語必然有幾大關(guān)鍵點(diǎn)粘拾,Python 語言簡(jiǎn)單到飛起奏属,職場(chǎng)必備技能仿村,學(xué)完升職加薪。
誠(chéng)然或舞,Python 作為一個(gè)腳本語言荆姆,學(xué)習(xí)相對(duì)簡(jiǎn)單,但是學(xué)習(xí)語言的目的是什么映凳,是為了解決問題胆筒,不然學(xué)了這么久語法,幾個(gè)月后還是從 print( hello world) 重新開始。
既然明確是為了解決問題仆救,比如我想獲取某個(gè)網(wǎng)頁的數(shù)據(jù)并整理成 excel抒和。通過網(wǎng)上搜索,或者問周圍的程序員朋友彤蔽,大部分的回答是用 Python 寫個(gè)爬蟲摧莽。
其實(shí)不然,有很多優(yōu)秀的工具完全能滿足爬取網(wǎng)頁需求顿痪,而且不用寫一行代碼镊辕,這次介紹的就是小白爬蟲利器 - Web Scraper (谷歌瀏覽器插件)。
舉個(gè)例子蚁袭,我們這次的任務(wù)是爬取豆瓣窮游天下小組的帖子征懈。
準(zhǔn)備工作
首先確保你安裝了新版谷歌瀏覽器和 WebScraper 插件,插件安裝教程見:谷歌(Chrome)瀏覽器插件安裝教程
步驟
打開豆瓣窮游天下小組 https://www.douban.com/group/qiong/discussion 揩悄,右鍵點(diǎn)擊檢查卖哎,彈出如下頁面,然后點(diǎn)擊 Web Scraper虏束,開始我們的自動(dòng)化腳本之路棉饶。
-
創(chuàng)建一個(gè)新的 Sitemap
image -
Start url 是開始爬取的初始頁image
-
點(diǎn)擊 Add new selector
image -
新建第一個(gè) Selector厦章, 定義豆瓣小組的頁數(shù) 镇匀,Id 寫 page, Type 為 link ,然后點(diǎn)擊 Select袜啃,選中圖中 2 的位置汗侵,讓頁數(shù)都呈現(xiàn)紅色選中狀態(tài),點(diǎn)擊 Done selecting!
image -
接下來勾選 Multiple群发,意思是這個(gè)頁面中有多條記錄晰韵,Parent Selectors 選中 _root 和 page, 點(diǎn)擊 Save熟妓。
image -
我們?cè)傩陆ㄒ粋€(gè) Selector, 定義一個(gè)帖子的頁面元素雪猪,Id 為 post, Type 選 Element。然后按下圖步驟重復(fù)操作選擇 selector起愈,勾選 Multiple只恨,Parent Selectors 選中 _root 和 page, 點(diǎn)擊 Save抬虽。
image -
點(diǎn)擊 post官觅,我們接下來在 post 元素里選擇合適的內(nèi)容
image 新建一個(gè) Selector,定義帖子的標(biāo)題, Id 為 title, Type 選為 Link阐污,然后按下圖步驟重復(fù)操作選擇 selector休涤, 點(diǎn)擊 Save。
再按上面步驟笛辟,定義一個(gè) author (作者) 和 updated (最后回應(yīng))
-
點(diǎn)擊 selector graph 功氨,可看到爬取路徑序苏。
image -
配置完成后,點(diǎn)擊 Scrape 開始爬取疑故。
image -
爬取結(jié)束后杠览,點(diǎn)擊 Refresh 刷新,即可看到數(shù)據(jù)
image 最后 Export data as csv 纵势,導(dǎo)出數(shù)據(jù)踱阿。
最后
Web Scraper 還可以對(duì)于動(dòng)態(tài)渲染的頁面進(jìn)行爬取,比如下拉刷新钦铁,點(diǎn)擊 Load More 按鈕這種软舌。總的來說牛曹,掌握基本方法后佛点,可以非常輕松的 5 分鐘配置一個(gè)爬蟲。
如果不想從頭配置黎比,導(dǎo)入 sitemap 也可直接爬取超营。
如本次例子中的豆瓣 sitemap,關(guān)注微信公眾號(hào) 程序化思維 獲取 sitemap阅虫。