用Python爬數(shù)據(jù)蹬敲,F(xiàn)ineBI做分析后,我發(fā)現(xiàn)淘寶的手機原來這么便宜

最近想入手一臺新手機莺戒,考慮到國產(chǎn)手機今時不同往日伴嗡,無論是銷量還是話語權在世界上都足夠的分量,歐洲華為从铲,印度小米瘪校,美國一加,國產(chǎn)手機以極為迅猛的速度攻占世界各地的手機市場名段。作為歷來支持國產(chǎn)手機的忠實用戶阱扬,結合對國產(chǎn)手機的基本認知,準備從華為伸辟、小米麻惶、OPPO、VIVO四大國產(chǎn)手機中做出抉擇自娩。

為了能夠用數(shù)據(jù)體現(xiàn)這四家手機產(chǎn)品市場的銷量用踩、價格等真實情況,由于Python語言簡明便捷忙迁,小編這邊準備使用Python來對“某寶”平臺進行手機相關的數(shù)據(jù)爬取。

數(shù)據(jù)可視化分析方面碎乃,雖然Python提供的numpy姊扔、pandas、matplotlib等第三方庫來對數(shù)據(jù)進行計算處理梅誓,同時最終生成所需要的可視化報告恰梢,但是做出的圖表缺乏動態(tài)交互,圖表樣式屬性設置等方面也比較繁瑣梗掰,并且不便進行深入的OLAP多維分析嵌言,所以這邊直接使用FineBI工具來對從“某寶”平臺爬取過來的手機數(shù)據(jù)進行數(shù)據(jù)分析統(tǒng)計。

原理介紹

這次的訴求很簡單及穗,就是想看看國產(chǎn)機子的銷量排名和售價情況摧茴。

數(shù)據(jù)層方面會先通過Python抓取到WEB端的網(wǎng)頁數(shù)據(jù),之后對爬取到數(shù)據(jù)進行解析再而存儲到MYSQL數(shù)據(jù)入庫埂陆。最后應用層的數(shù)據(jù)處理苛白、數(shù)據(jù)計算統(tǒng)計娃豹、圖表可視化呈現(xiàn)等工作全都交由我們的FineBI工具完成。

操作步驟

1.引入相關Pyhon庫包购裙,編寫MySQL數(shù)據(jù)入庫函數(shù)

首先新建python工程懂版,引入本次爬取網(wǎng)頁數(shù)據(jù)和寫入MySQL數(shù)據(jù)庫所需要的pandas、re躏率、request躯畴、pymysql這四個相關庫包:

import pandas

import re

import requests

import pymysql

def ExecuteSQL(title,price,sales): #寫入數(shù)據(jù)到mysql數(shù)據(jù)庫

conn = pymysql.connect(host='xxx.xxx.xxx.xx', port=xxxx, user='xxxx', passwd='xxxx', db='xxxx', charset='utf8') #對應xx參數(shù)值修改成自己數(shù)據(jù)庫的即可

cursor = conn.cursor()

# cursor.execute('CREATE TABLE MOBILE_DATA(品牌 varchar(100),價格 double,銷量 int)')

# cursor.execute('DROP TABLE MOBILE_DATA')

cursor.execute("INSERT INTO MOBILE_DATA(品牌,價格,銷量) VALUES (\'%s\',%d,\'%d\')"%(title,price,sales)) #執(zhí)行SQL數(shù)據(jù)插入

print('數(shù)據(jù)插入成功!')

print(title,price,sales)

conn.commit() #提交執(zhí)行命名

cursor.close() #釋放游標對象

conn.close() #釋放數(shù)據(jù)庫連接對象

2.獲取網(wǎng)頁數(shù)據(jù)

然后如下圖所示薇芝,定義好模擬瀏覽器訪問header的值蓬抄,通過編寫Python代碼用requests獲取到”某寶“平臺網(wǎng)頁中的request信息:

for page in range(1,7): # 循環(huán)翻頁,共7頁

url = 'https://s.taobao.com/search?q=%E6%89%8B%E6%9C%BA&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306&cps=yes&ppath=2176%3A136877751%3B2176%3A3244779%3B2176%3A91621%3B2176%3A39862256%3B2176%3A28247'

header = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.84 Safari/537.36',

'cookie':'thw=cn; t=be73ea5ec1ffbeb254d0a3535dd00415; cna=HqWrEpIZeG4CAbYSAEIb6bav; hng=CN%7Czh-CN%7CCNY%7C156; miid=596160490770762658; lgc=%5Cu5815%5Cu843D%5Cu4E4B%5Cu6CEAa; tracknick=%5Cu5815%5Cu843D%5Cu4E4B%5Cu6CEAa; tg=0; uc2=wuf=https%3A%2F%2Ftrade.tmall.com%2Fdetail%2ForderDetail.htm%3Fbiz_order_id%3D104827474284154168%26forward_action%3D; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0%26__ll%3D-1%26_ato%3D0; uc3=sg2=VWxidJMT8gLCYBc%2BxP5FJdYe9%2FXfUvq2%2Byf0cFWq90Q%3D&nk2=1RSXayUHM0Sl&id2=UUpkvTJ9k5HsSA%3D%3D&vt3=F8dBzLbVzPYkPml1NZk%3D&lg2=W5iHLLyFOGW7aA%3D%3D; uss=VvioJOfdaT365u5YugXSKrRnG47jUQQG9UQvstfUu5fjcHD0zxGQLEmn; _cc_=VFC%2FuZ9ajQ%3D%3D; mt=ci=67_1; tk_trace=oTRxOWSBNwn9dPy4KVJVbutfzK5InlkjwbWpxHegXyGxPdWTLVRjn23RuZzZtB1ZgD6Khe0jl%2BAoo68rryovRBE2Yp933GccTPwH%2FTbWVnqEfudSt0ozZPG%2BkA1iKeVv2L5C1tkul3c1pEAfoOzBoBsNsJySQJwqIKz2kX83uPP5e4iE9t1ZpHdHZkk218jfUuTKISIEGrGMtBctY%2B2vMCmzCRVhIqleLIl%2BRRQHs4ekW3wNcZhDfwkkQzp9RF7kjYiNbNLTbo2mRCr3Wf97aW%2FfC72uuEf9Tcc6cNT9QCiB0y7NxqzS4M5NvMkxl5KoKbA%2BorLqu5Y9jpCfT31RlA%3D%3D; cookie2=1c16eb46ef00c015dd101f731c258d77; _tb_token_=8de4c4560b63; v=0; alitrackid=www.taobao.com; lastalitrackid=www.taobao.com; swfstore=107855; JSESSIONID=ED726367865542B7BA84D801D1C72812; isg=AhcXOlKpAS4SKIXa0x_6AhsZpovNTcSrwSKOp2lEKOZNmDfacSx7DtWyjg59; uc1=cookie14=UoTdf1DFLRnICg%3D%3D',

'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',

'path':'/search?q=%E6%89%8B%E6%9C%BA&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306'} #定義模擬瀏覽器訪問header的值

html = requests.request('GET', url, headers=header) #網(wǎng)頁request信息獲取

3.HTML標簽解析(Script格式)

此時我們可以查看華為恩掷、小米倡鲸、OPPO、VIVO四大國產(chǎn)手機中的網(wǎng)頁信息黄娘,用瀏覽器自帶的F12工具檢查相關代碼即可發(fā)現(xiàn)峭状,“某寶”的商品數(shù)據(jù)信息原來是存儲在Script變量中。

接下來我們只需要使用re逼争,按照指定的標簽格式优床,對整個網(wǎng)頁的進行數(shù)據(jù)信息查找獲取,然后將對象存儲在data中即可:

ren = re.compile('"title":"(.*?)","pic_url":"(.*?)","price":"(.*?)","trace":"(.*?)","month_sales":"(.*?)"')

data = re.findall(ren, html.text)

4.MySQL數(shù)據(jù)入庫

解析好數(shù)據(jù)之后誓焦,再將解析好的數(shù)據(jù)寫入到MySQL數(shù)據(jù)庫中:

data2 = pandas.DataFrame(data) #將data對象轉換為DataFrame類型方便處理

for rows in range(1,data2.shape[0]): #循環(huán)遍歷DataFrame中的所有行數(shù)據(jù)

ExecuteSQL(data2.values[rows][0],float(data2.values[rows][2]),int(data2.values[rows][4])) #MySQL數(shù)據(jù)入庫

count=count+1 #計數(shù)器累加

print('恭喜您胆敞,數(shù)據(jù)已經(jīng)全部爬取完畢,一共%d條數(shù)據(jù)!'%(count))

循環(huán)遍歷”某寶“平臺華為、小米杂伟、OPPO移层、VIVO四大國產(chǎn)手機中的相關信息數(shù)據(jù),頁面7頁赫粥,共計282條數(shù)據(jù)观话。

5.驗證數(shù)據(jù)入庫

直接通過FineBI提供的數(shù)據(jù)配置端的功能,添加SQL數(shù)據(jù)集(或者直接添加表也行)越平,查看我和驗證剛剛爬取并且入庫的數(shù)據(jù)是否已經(jīng)真正成功入庫到MySQL中频蛔。

如下圖所示,Python果然不辱使命秦叛,我要的”某寶“平臺華為晦溪、小米、OPPO挣跋、VIVO四大國產(chǎn)手機中數(shù)據(jù)都已經(jīng)成功寫入到了我的MySQL數(shù)據(jù)庫中了三圆。

6.可視化分析

分為幾個維度:

國產(chǎn)四大品牌手機的整體銷售情況國產(chǎn)手機銷售量排名銷售重點關注機型國產(chǎn)手機售價排名銷售重點關注機型

涉及到的指標也比較簡單,基本通過FineBI拖拽數(shù)據(jù)字段即可呈現(xiàn)可視化。

下面這個動圖嫌术,以國產(chǎn)四大手機銷量統(tǒng)計詞云圖為例給大家簡單展示可視化過程哀澈,其他同理。

(想按照手機大品牌統(tǒng)計的話可以直接對品牌字段用FineBI進行自定義分組即可)

小編花了10分鐘就呈現(xiàn)基本的分析架構度气,而后又花了30分鐘割按,加了點可視化元素美化一下。刷刷的就將我想要看的華為磷籍、小米适荣、OPPO、VIVO四大國產(chǎn)手機銷售信息以可視化的形式呈現(xiàn)出來了院领。(國產(chǎn)四大手機均價/總銷量排名弛矛、國產(chǎn)四大手機各品牌價格/銷量詞云圖、國產(chǎn)四大手機各品牌價格/銷量Top10比然、銷售額分布圖等)

分析結果

1.淘寶網(wǎng)平臺中丈氓,華為、小米强法、OPPO万俗、VIVO四大國產(chǎn)手機總銷量為751萬臺,總銷售額為142.97億饮怯。其中華為品牌占據(jù)總體銷售額的44.40%闰歪,淘寶銷售額高達61.84億,小米蓖墅、VIVO库倘、OPPO其他三個品牌的總銷售額分別占據(jù)28.98%、17.90%论矾、8.72%教翩。

2.從國產(chǎn)四大手機的均價來看,VIVO和華為分別以2167元贪壳、2021元的價格分別排在前兩位迂曲,OPPO和小米的均價分別為1979元、1502元排在三寥袭、四位。小米手機價格相對低廉关霸,不過市場占有率還可以传黄,僅次于華為;而VIVO队寇、OPPO這兩款國產(chǎn)手機膘掰,歷來被廣大用戶稱為“廠妹機”,但是通過李易峰、彭于晏识埋、鹿晗等明星小鮮肉和各大傳媒渠道的積極代言,吸引了無數(shù)的小迷妹粉的購買,也是搶占了華為手機市場的一片江山鳄袍。

3.再來看看國產(chǎn)四大手機的各品牌價格統(tǒng)計淌哟,華為MATE RS保時捷手機以9406元的價格高居首位,土豪專屬啊惠豺,這價格無法撼動银还。但是值得一提的是目前在淘寶出售的華為Mate 10價格居然降到了3033元!記得前年入手Mate9的時候還花了4000多呢洁墙,果然手機隨著時間推移價格變化還是挺大的蛹疯。手機銷量方面,品牌銷量最高的是小米手機8热监,淘寶總銷量為77萬臺(可以通過圖表聯(lián)動查看其價格為2352元)捺弦,人氣還是很火的。但是相比之下華為Mate 10的高配置下的3033元的價格孝扛,讓小編完全忍不住剁手啊列吼,就是你啦!

最后

網(wǎng)頁爬蟲數(shù)據(jù)抓取疗琉,Python首屈一指冈欢。但是對于數(shù)據(jù)統(tǒng)計和可視化展現(xiàn)方面來說,操作簡單便捷盈简、拖拽式的FineBI絕對是數(shù)據(jù)分析小白的入門上佳之選凑耻。

Python完成對網(wǎng)頁數(shù)據(jù)的抓取和解析存儲之后,配合FineBI強大的數(shù)據(jù)可視化呈現(xiàn)能力則圓滿地完成了我本次對某寶平臺四大國產(chǎn)手機數(shù)據(jù)的統(tǒng)計和分析需求柠贤,絕對良心推薦香浩。

以上就是小編狂奔在數(shù)據(jù)可視化道路上的一些心得總結~歡迎大家共同學習和交流。

?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末臼勉,一起剝皮案震驚了整個濱河市邻吭,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌宴霸,老刑警劉巖囱晴,帶你破解...
    沈念sama閱讀 221,198評論 6 514
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異瓢谢,居然都是意外死亡畸写,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,334評論 3 398
  • 文/潘曉璐 我一進店門氓扛,熙熙樓的掌柜王于貴愁眉苦臉地迎上來枯芬,“玉大人,你說我怎么就攤上這事∏” “怎么了狂魔?”我有些...
    開封第一講書人閱讀 167,643評論 0 360
  • 文/不壞的土叔 我叫張陵,是天一觀的道長淫痰。 經(jīng)常有香客問我最楷,道長,這世上最難降的妖魔是什么黑界? 我笑而不...
    開封第一講書人閱讀 59,495評論 1 296
  • 正文 為了忘掉前任管嬉,我火速辦了婚禮,結果婚禮上朗鸠,老公的妹妹穿的比我還像新娘蚯撩。我一直安慰自己,他們只是感情好烛占,可當我...
    茶點故事閱讀 68,502評論 6 397
  • 文/花漫 我一把揭開白布胎挎。 她就那樣靜靜地躺著,像睡著了一般忆家。 火紅的嫁衣襯著肌膚如雪犹菇。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,156評論 1 308
  • 那天芽卿,我揣著相機與錄音揭芍,去河邊找鬼。 笑死卸例,一個胖子當著我的面吹牛称杨,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播筷转,決...
    沈念sama閱讀 40,743評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼姑原,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了呜舒?” 一聲冷哼從身側響起锭汛,我...
    開封第一講書人閱讀 39,659評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎袭蝗,沒想到半個月后唤殴,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,200評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡到腥,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,282評論 3 340
  • 正文 我和宋清朗相戀三年眨八,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片左电。...
    茶點故事閱讀 40,424評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出篓足,到底是詐尸還是另有隱情段誊,我是刑警寧澤,帶...
    沈念sama閱讀 36,107評論 5 349
  • 正文 年R本政府宣布栈拖,位于F島的核電站连舍,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏涩哟。R本人自食惡果不足惜索赏,卻給世界環(huán)境...
    茶點故事閱讀 41,789評論 3 333
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望贴彼。 院中可真熱鬧潜腻,春花似錦、人聲如沸器仗。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,264評論 0 23
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽精钮。三九已至威鹿,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間轨香,已是汗流浹背忽你。 一陣腳步聲響...
    開封第一講書人閱讀 33,390評論 1 271
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留臂容,地道東北人科雳。 一個月前我還...
    沈念sama閱讀 48,798評論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像策橘,于是被迫代替她去往敵國和親炸渡。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 45,435評論 2 359

推薦閱讀更多精彩內(nèi)容