數(shù)據(jù)分析之前我們需要清楚的知道自己想要分析什么東西淑掌,也就是先搞清楚我們的目標(biāo)蝶念。在公司可能是公司財(cái)報(bào)抛腕、用戶增量變化、產(chǎn)品受歡迎程度媒殉、一些報(bào)表等等担敌。
!
那我們今天的目標(biāo)有哪些呢廷蓉?我們來(lái)看看:
分析避孕套標(biāo)題高頻關(guān)鍵字
分析避孕套標(biāo)題高頻關(guān)鍵字 與 商品數(shù)量關(guān)系
分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均銷量關(guān)系
分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均售價(jià)關(guān)系
分析避孕套商品價(jià)格區(qū)間分布關(guān)系
分析避孕套商品銷量區(qū)間分布關(guān)系
分析避孕套商品價(jià)格區(qū)間 與 平均銷量關(guān)系
分析避孕套商家數(shù)量全國(guó)分布關(guān)系
分析避孕套商家全國(guó)平均銷量關(guān)系
注意:以上數(shù)據(jù)分析全部基于上次爬取的2500款淘寶商品(默認(rèn)排序)全封,并不代表淘寶所有避孕套商品桃犬!
二就轧、分析實(shí)現(xiàn)
有了明確的目標(biāo)之后琢歇,我們就要開(kāi)始技術(shù)選型秸侣。
首先數(shù)據(jù)處理的庫(kù)這個(gè)很好確定,基本就是numpy和pandas這兩個(gè)必備的庫(kù),所以大家首先確保已經(jīng)安裝了這兩個(gè)庫(kù)翠忠。
然后數(shù)據(jù)可視化庫(kù)呢?這么多可視化庫(kù)該怎么選?如果你不知道怎么選乐尊,那豬哥給你推薦:pyecharts這個(gè)由中國(guó)人開(kāi)發(fā)的可視化庫(kù)胁勺,想要什么類型的圖在下面文檔里面找就行抚恒。
中文文檔:https://pyecharts.org/#/zh-cn/intro
源碼地址:https://github.com/pyecharts/pyecharts
最后技術(shù)選型完畢逸嘀,我們就可以開(kāi)始正式的敲代碼分析了悉患。(分析的標(biāo)題將和上面的分析目標(biāo)一一對(duì)應(yīng))
0.數(shù)據(jù)清洗
在我們數(shù)據(jù)分析之前,我們需要對(duì)數(shù)據(jù)進(jìn)行清洗付枫。因?yàn)閺奶詫毰廊∠聛?lái)的數(shù)據(jù)并不是標(biāo)準(zhǔn)的數(shù)據(jù)症杏,比如:商品銷量司抱,爬取下來(lái)的數(shù)據(jù)是:2.5萬(wàn)+人付款肉拓,我們需要將它轉(zhuǎn)為:25000(整型),這樣才方面后面的處理征峦!
我們先來(lái)看看從淘寶爬取的原始數(shù)據(jù),看看那些數(shù)據(jù)需要清洗
根據(jù)使用庫(kù)的經(jīng)驗(yàn)豬哥認(rèn)為有兩列數(shù)據(jù)需要清洗:1、銷量轉(zhuǎn)成整型 2、地區(qū)轉(zhuǎn)成只包含省份巢块,具體如何清洗我們直接看代碼吧骡澈!
大家可以看到最后豬哥又從新生成了一個(gè)excel文件烙懦,目的就是不去污染原始數(shù)據(jù),因?yàn)樵紨?shù)據(jù)非常重要拧粪,所以我們?cè)谝院蟮臄?shù)據(jù)處理中要盡量保存好原始數(shù)據(jù)修陡,多備份幾個(gè)都不多余!
1.分析避孕套標(biāo)題高頻關(guān)鍵字
數(shù)據(jù)清洗完畢之后可霎,我們就可以開(kāi)始分析了魄鸦。
分析標(biāo)題高頻關(guān)鍵字這都是老生常談的一個(gè)流程,也就是使用jieba分詞癣朗,然后統(tǒng)計(jì)詞頻拾因,最后生成一個(gè)詞云圖,我相信經(jīng)晨跤啵看豬哥公眾號(hào)的同學(xué)看都看膩了吧绢记,這種小功能閉著眼睛都會(huì)了。
十幾行代碼就搞定了正卧,我們來(lái)看看效果圖吧
分析結(jié)論:
從整體看商家取名偏愛(ài)情趣二字
從材質(zhì)看尿酸的最多
從功能看顆粒蠢熄、螺紋的較多
ps:別問(wèn)豬哥最中意哪個(gè)詞,問(wèn)就是延時(shí)炉旷。
2.分析避孕套標(biāo)題高頻關(guān)鍵字 與 商品數(shù)量關(guān)系
上面我們只看到大概哪些功能受歡迎签孔,如果需要看具體的數(shù)據(jù)怎么辦呢?
我們就來(lái)統(tǒng)計(jì)一下包含這些高頻關(guān)鍵詞的商品數(shù)據(jù)數(shù)量吧窘行,代碼講解在圖片下方饥追,下同!
我們?nèi)∽罡哳l的20個(gè)關(guān)鍵字罐盔,然后遍歷所有數(shù)據(jù)的標(biāo)題中是否包含其中關(guān)鍵字但绕,如果包含則該關(guān)鍵字的value就+1。來(lái)看看生成的柱狀圖效果吧惶看!
分析結(jié)論:
包含情趣二字的商品有1150款捏顺,占到總數(shù)(2500款+)的46%。
前三甲是:情趣纬黎、尿酸草丧、顆粒
ps:豬哥有個(gè)疑問(wèn)想請(qǐng)教各位老司機(jī):這個(gè)免洗是咋玩的?
3.分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均銷量關(guān)系
這個(gè)分析有意思了莹桅,就相當(dāng)于用戶更喜歡哪種功能或者材質(zhì)的套套昌执。
高頻關(guān)鍵字與平均銷量分析數(shù)據(jù)的實(shí)現(xiàn)方法是,同樣遍歷所有數(shù)據(jù)的標(biāo)題诈泼,如果包含某個(gè)關(guān)鍵字懂拾,則把該項(xiàng)數(shù)據(jù)的銷量放在關(guān)鍵字的value中(一個(gè)list),統(tǒng)計(jì)完后再對(duì)每個(gè)關(guān)鍵字的value進(jìn)行求平均值铐达,最后再根據(jù)平均銷量排序岖赋。來(lái)看看效果吧!
分析結(jié)論:
螺紋功能平均銷量最高瓮孙,大家的最愛(ài)
功能平均銷量前三分別是:螺紋唐断、顆粒选脊、狼牙
小號(hào)竟然上榜,哈哈
ps:有很多同學(xué)問(wèn):為什么不是超绷掣省恳啥?超薄自己是爽了,可女朋友呢丹诀?
4.分析避孕套標(biāo)題高頻關(guān)鍵字 與 平均售價(jià)關(guān)系
分析完大家喜歡的功能钝的,再來(lái)分析下這些功能的價(jià)格如何?哪些功能的避孕套比較貴呢铆遭?
高頻關(guān)鍵字 與 平均售價(jià)關(guān)系分析原理與上面是相似的硝桩,使用的同一個(gè)方法,只不過(guò)是將原來(lái)的銷量換成價(jià)格枚荣,來(lái)看看效果圖吧碗脊!
分析結(jié)論:
可以看到前排幾個(gè)基本都是關(guān)于材質(zhì)的
凝膠、透明質(zhì)橄妆、免洗這三項(xiàng)均價(jià)最貴望薄,超過(guò)100大洋
ps:類似凝膠、透明質(zhì)呼畸、免洗的哪位老司機(jī)用過(guò)痕支,和一般的有啥區(qū)別?
5.分析避孕套商品價(jià)格區(qū)間分布關(guān)系
商品的標(biāo)題和功能差不多分析完了蛮原,我們來(lái)分析下價(jià)格吧卧须!
豬哥人為的對(duì)價(jià)格進(jìn)行了劃分,一共分為:’0-20’, ‘21-40’, ‘41-60’, ‘61-80’, ‘81-100’, ‘101-120’, ‘121-150’, ‘151-200’, ‘200以上’這9個(gè)區(qū)間儒陨,然后對(duì)數(shù)據(jù)切割花嘶、統(tǒng)計(jì)、排序蹦漠,最后分別生成柱狀圖和餅圖椭员。
分析結(jié)論:
價(jià)格區(qū)間在21-40的商品最多為778款,大約占比31%笛园。
價(jià)格在一百以內(nèi)與超過(guò)一百的商品比大概為7:1
ps:沒(méi)想到還有這么多超過(guò)100塊的隘击,我想問(wèn)下200塊價(jià)格的套套是啥感覺(jué)?
6.分析避孕套商品銷量區(qū)間分布關(guān)系
分析完價(jià)格當(dāng)然是分析銷量區(qū)間了
銷量區(qū)間分布分析實(shí)現(xiàn)原理:認(rèn)為為銷量分區(qū)研铆,大概分為:’一千以內(nèi)’, ‘一千到五千’, ‘五千到一萬(wàn)’, ‘一萬(wàn)到五萬(wàn)’, ‘五萬(wàn)到十萬(wàn)’, ‘十萬(wàn)以上’埋同,這六個(gè)區(qū)間,然后同上方法進(jìn)行統(tǒng)計(jì)棵红、排序最后可視化凶赁。
分析結(jié)論:
銷量在1000以內(nèi)的最多,大概占比90%
銷量過(guò)萬(wàn)的一共也才10款,說(shuō)明爆款真的很少
有一款套套銷量竟然超過(guò)10萬(wàn)
ps:想知道那款超過(guò)10萬(wàn)銷量的避孕套商品信息嗎虱肄?關(guān)注豬哥微信公眾號(hào)「裸睡的豬」回復(fù):爆款套套致板,即可查看!
7.分析避孕套商品價(jià)格區(qū)間 與 平均銷量關(guān)系
假如你是一個(gè)避孕套賣家咏窿,新推出一款避孕套斟或,你想知道價(jià)格定為多少銷量才會(huì)比較高呢?
這時(shí)候我們就可以通過(guò)分析價(jià)格與商品的銷量關(guān)系翰灾,用實(shí)際的數(shù)據(jù)來(lái)定價(jià),這也正是數(shù)據(jù)分析的價(jià)值之一稚茅。
商品價(jià)格區(qū)間 與 平均銷量關(guān)系分析實(shí)現(xiàn)原理是:使用pandas自動(dòng)分區(qū)將價(jià)格劃分為12個(gè)分區(qū)纸淮,然后對(duì)銷量數(shù)據(jù)分組、求平均值亚享,來(lái)看看可視化之后的效果咽块。
分析結(jié)論:
定價(jià)在31.9-39這個(gè)區(qū)間平均銷量最高,為893
定價(jià)在10元以內(nèi)的銷量竟然高居第二
ps:誰(shuí)用過(guò)10以內(nèi)一盒的套套欺税,出來(lái)走走
8.分析避孕套商家數(shù)量全國(guó)分布關(guān)系
標(biāo)題侈沪、價(jià)格、銷量都分析過(guò)了晚凿,最后我們還分析下商家位置的數(shù)據(jù)亭罪。
分析的目標(biāo)是統(tǒng)計(jì)全國(guó)各省避孕套商家數(shù)量,然后做成熱力圖和柱狀圖歼秽。
統(tǒng)計(jì)商家數(shù)量還是比較簡(jiǎn)單应役,因?yàn)槲覀冎霸跀?shù)據(jù)清洗的時(shí)候已經(jīng)只保留了省份數(shù)據(jù),所以直接value_counts()就可以得到想要的數(shù)據(jù)燥筷,看看效果如何箩祥!
分析結(jié)論:
避孕套商家前三甲:廣東、上海肆氓、浙江
ps:貴州四周都有賣套套的袍祖,為何就它沒(méi)有?難道和地理有關(guān)谢揪?
9.分析避孕套商家全國(guó)平均銷量關(guān)系
分析完商家數(shù)后蕉陋,我們來(lái)看看各省的平均銷量吧。
商家全國(guó)平均銷量關(guān)系分析實(shí)現(xiàn)原理:我們新創(chuàng)建一個(gè)透視表并對(duì)銷量求平均值拨扶,然后再排序寺滚,最后生成熱力圖和柱狀圖。
分析結(jié)論:
出乎意料的是山西39個(gè)商家平均銷量竟然是第一為1535屈雄。
ps:為何山西平均銷量是第一村视?原因是啥真想不通
三、總結(jié)
通過(guò)上面的數(shù)據(jù)分析酒奶,我們得到了一些有趣的結(jié)論:
用戶偏愛(ài)螺紋蚁孔、顆粒奶赔、狼牙等功能
凝膠、透明質(zhì)杠氢、免洗這三項(xiàng)均價(jià)最貴站刑,超過(guò)100大洋
價(jià)格區(qū)間在21-40的商品最多為778款,大約占比31%
銷量在1000以內(nèi)的最多鼻百,大概占比90%
定價(jià)在31.9-39這個(gè)區(qū)間平均銷量最高绞旅,為893
避孕套商家數(shù)量前三甲:廣東、上海温艇、浙江
山西省平均銷量最高為山西
通過(guò)上述分析結(jié)果因悲,如果豬哥作為一個(gè)避孕套商家,想要推出一款產(chǎn)品勺爱,設(shè)置標(biāo)題帶螺紋晃琳、顆粒、狼牙琐鲁,價(jià)格設(shè)置在31.9-39元卫旱,這樣可能會(huì)更暢銷一些。
數(shù)據(jù)分析作為一把利刃围段,能讓你看見(jiàn)別人看不見(jiàn)的事物顾翼,如果使用得當(dāng)完全可以作為你創(chuàng)業(yè)的一個(gè)重要支點(diǎn)!
最后豬哥再送你一句忠告:想學(xué)數(shù)據(jù)分析奈泪,一定要學(xué)好pandas暴构!