爬蟲工具實(shí)戰(zhàn)篇(Web Scraper)- 京東商品信息爬取(原創(chuàng))

一漓糙、背景與目的

數(shù)字化營銷時(shí)代铣缠,快速掌握了解數(shù)據(jù)是一項(xiàng)基本技能,本文主要講解里面Web Scraper工具如何爬取公開數(shù)據(jù),比如爬取京東的店鋪售賣商品情況數(shù)據(jù)攘残,以便我們更好地了解競(jìng)品對(duì)手的產(chǎn)品情況和定價(jià)情況等拙友,從而采取有效針對(duì)性的手段應(yīng)對(duì),同時(shí)對(duì)于個(gè)人也是一項(xiàng)數(shù)據(jù)收集技能的提升歼郭。

二遗契、工具介紹和安裝

1> 介紹

Web?Scraper是一款可以從網(wǎng)頁中提取數(shù)據(jù)的chrome網(wǎng)頁數(shù)據(jù)提取插件,是一款非常好用的爬蟲工具。

2> 安裝

步驟一:安裝Chrome瀏覽器的桌面版病曾。

步驟二::在webscraper.io下載谷歌Chrome瀏覽器插件牍蜂,完全免費(fèi)

步驟三:安裝完Web Scraper可以在Chrome右上角找到圖標(biāo)泰涂。

步驟四:Windows操作系統(tǒng)鲫竞,按F12鍵,Chrome開發(fā)者工具會(huì)彈出逼蒙,Web Scraper在菜單項(xiàng)的最右邊从绘,至此安裝工作結(jié)束。

三是牢、實(shí)戰(zhàn)爬取操作

1> 選取爬取平臺(tái)的鏈接

步驟一:獲取爬取鏈接:打開京東首頁僵井,搜索手機(jī)之后,我們看到全部商品分類的選項(xiàng)驳棱,然后我們選取手機(jī)通訊->手機(jī)->品牌HUAWEI批什,進(jìn)入相應(yīng)頁面后,選取第二頁商品列表社搅,之后得到如下鏈接驻债。

https://list.jd.com/list.html?cat=9987,653,655&ev=exbrand_8557&page=2&sort=sort_rank_asc&trans=1&JL=6_0_0&ms=9#J_main

步驟二:分析鏈接:上面URL中加粗的參數(shù)sort、trans形葬、JL和ms并沒有用合呐,有用的是cat、ev和page參數(shù)笙以,其中cat代表品類合砂,ev代表華為品牌,page代表商品列表頁數(shù)

步驟三:定義取值鏈接和爬取頁數(shù):根據(jù)上邊分析和之前查看頁數(shù)源织,獲得總頁數(shù)42頁翩伪,故工具抽取鏈接如下(循環(huán)遍歷抽取1~42頁數(shù)據(jù))。

https://list.jd.com/list.html?cat=9987,653,655&ev=exbrand_8557&page=[1-42]

2> 爬取配置

步驟一:創(chuàng)建爬取網(wǎng)站項(xiàng)目谈息,定義爬取網(wǎng)站地址

在Web Scraper選項(xiàng)下邊選取Create new sitemap缘屹,具體參數(shù)如下

sitemap name :huawei_mobile

Start URL:https://list.jd.com/list.html?cat=9987,653,655&ev=exbrand_8557&page=[1-42]

創(chuàng)建完成后,進(jìn)入Add new selector藍(lán)色按鈕的界面侠仇,此時(shí)我們的位置為_root轻姿,這里面selector就是CSS里面的CSS選擇器犁珠,然后我們依次添加selector,圈選商品和商品項(xiàng)互亮。

步驟二:創(chuàng)建商品選擇器犁享,圈選爬取商品

a> 點(diǎn)擊按鈕:CSS Selector的作用是在HTML中定位,我們點(diǎn)擊藍(lán)色按鈕Add new selector豹休,進(jìn)入頁面元素選取狀態(tài)炊昆。

b> 頁面商品圈選:

鼠標(biāo)定位某一個(gè)商品,此時(shí)商品處于藍(lán)色框選區(qū)域威根,具體如圖所示


然后鼠標(biāo)雙擊凤巨,在Done Selecting!處獲取圈選商品頁面HTML元素洛搀,點(diǎn)擊此藍(lán)色按鈕敢茁,具體獲取元素為:li.gl-item:nth-of-type(1) div.gl-i-wrap


點(diǎn)擊Element preview按鈕時(shí),該塊商品區(qū)域會(huì)再次高亮留美。


我們此時(shí)需要選取所有商品彰檬,則需要調(diào)整剛才所選取元素,根據(jù)如下HTML Element則調(diào)整為#plist > ul > li

備注:此處應(yīng)用了頁面Copy Selector的插件谎砾,可以在HTML Element右鍵復(fù)制

當(dāng)我們?cè)俅螁⒂?i>Element preview時(shí)逢倍,就能看到所有商品區(qū)域都高亮了。

點(diǎn)擊藍(lán)色按鈕Save selector保存,item的選擇器創(chuàng)建成功

步驟三:創(chuàng)建商品項(xiàng)選擇器棺榔,圈選商品項(xiàng)

依次在item選擇器下創(chuàng)建商品屬性項(xiàng)瓶堕,分別為商品名稱(product name)隘道、商品價(jià)格(price)症歇、商品評(píng)論數(shù)(comment_cnt)店鋪(shop),具體如下圖所示:

此時(shí)如需預(yù)覽數(shù)據(jù)谭梗,可以將之前sitemap里面的頁數(shù)page=[1-42]調(diào)整為page=2忘晤,data preview具體如下:

步驟四:數(shù)據(jù)爬取

選取Scrape進(jìn)行數(shù)據(jù)爬取,啟動(dòng)爬取

步驟五:結(jié)果導(dǎo)出

csv版本導(dǎo)出


四激捏、總結(jié)

webscraper優(yōu)缺點(diǎn)總結(jié)

優(yōu)點(diǎn):免費(fèi)设塔、操作系統(tǒng)無限制(依賴于瀏覽器)、操作簡便远舅,容易上手(無技術(shù)背景人可配置操作)闰蛔、功能強(qiáng)大(支持靜態(tài)和動(dòng)態(tài)數(shù)據(jù)抓取)

缺點(diǎn):不支持iframe的爬韧及亍(比如地圖嵌入之類序六,經(jīng)銷商地圖)、不支持爬取數(shù)據(jù)的過濾蚤吹、其他的以后碰到在說吧例诀,O(∩_∩)O哈哈~

適用人群:

技術(shù)人員

商業(yè)分析人員

咨詢?nèi)藛T

歡迎使用K婵佟!7蓖俊9八!H幼铩1印!2绞啤Q踱!;荡瘛V迅А!>蠓M!

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末哪自,一起剝皮案震驚了整個(gè)濱河市丰包,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌壤巷,老刑警劉巖邑彪,帶你破解...
    沈念sama閱讀 216,324評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異胧华,居然都是意外死亡寄症,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,356評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門矩动,熙熙樓的掌柜王于貴愁眉苦臉地迎上來有巧,“玉大人,你說我怎么就攤上這事悲没±河” “怎么了?”我有些...
    開封第一講書人閱讀 162,328評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵示姿,是天一觀的道長甜橱。 經(jīng)常有香客問我,道長栈戳,這世上最難降的妖魔是什么岂傲? 我笑而不...
    開封第一講書人閱讀 58,147評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮荧琼,結(jié)果婚禮上譬胎,老公的妹妹穿的比我還像新娘差牛。我一直安慰自己,他們只是感情好堰乔,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,160評(píng)論 6 388
  • 文/花漫 我一把揭開白布偏化。 她就那樣靜靜地躺著,像睡著了一般镐侯。 火紅的嫁衣襯著肌膚如雪侦讨。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,115評(píng)論 1 296
  • 那天苟翻,我揣著相機(jī)與錄音韵卤,去河邊找鬼。 笑死崇猫,一個(gè)胖子當(dāng)著我的面吹牛沈条,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播诅炉,決...
    沈念sama閱讀 40,025評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼蜡歹,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了涕烧?” 一聲冷哼從身側(cè)響起月而,我...
    開封第一講書人閱讀 38,867評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎议纯,沒想到半個(gè)月后父款,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,307評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡瞻凤,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,528評(píng)論 2 332
  • 正文 我和宋清朗相戀三年憨攒,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片鲫构。...
    茶點(diǎn)故事閱讀 39,688評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡浓恶,死狀恐怖玫坛,靈堂內(nèi)的尸體忽然破棺而出结笨,到底是詐尸還是另有隱情,我是刑警寧澤湿镀,帶...
    沈念sama閱讀 35,409評(píng)論 5 343
  • 正文 年R本政府宣布炕吸,位于F島的核電站,受9級(jí)特大地震影響勉痴,放射性物質(zhì)發(fā)生泄漏赫模。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,001評(píng)論 3 325
  • 文/蒙蒙 一蒸矛、第九天 我趴在偏房一處隱蔽的房頂上張望瀑罗。 院中可真熱鬧胸嘴,春花似錦、人聲如沸斩祭。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,657評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽摧玫。三九已至耳奕,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間诬像,已是汗流浹背屋群。 一陣腳步聲響...
    開封第一講書人閱讀 32,811評(píng)論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留坏挠,地道東北人芍躏。 一個(gè)月前我還...
    沈念sama閱讀 47,685評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像降狠,于是被迫代替她去往敵國和親纸肉。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,573評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容