數(shù)據(jù)集來自DataFountain的AppleStore.csv:共7194行蔑歌,16列羹应,包含應(yīng)用程序ID、名稱丐膝、大小量愧、價格、評分帅矗、內(nèi)容評級偎肃、主要類型、支持設(shè)備類型數(shù)量等信息浑此。
查看數(shù)據(jù)
df = pd.read_csv('AppleStore.csv', index_col=0)
df.head()
df.isnull().sum()
數(shù)據(jù)集中沒有缺失值
將數(shù)據(jù)集中的字段改成中文累颂,方便查看
df.columns = ['ID','名稱', '大小','貨幣類型', '價格', '總評論數(shù)', '當(dāng)前版本評論數(shù)', '總評分', '當(dāng)前版本評分', '最新版本號', '內(nèi)容評級', '類型', '支持設(shè)備數(shù)量', '截圖數(shù)量', '支持的語言數(shù)', 'Vpp設(shè)備的許可']
價格分析
len(df[df['價格'] == 0.00])/len(df)
from pyecharts import Liquid
liquid = Liquid('免費(fèi)應(yīng)用占比')
liquid.use_theme('dark')
liquid.add('Liquid', [0.56], shape = 'circle')
liquid
蘋果商店中一半多的APP都是可以免費(fèi)下載的
no_free = df[df['價格'] != 0.00 ]['價格']
no_free = pd.cut(no_free, [0,5,10,300], labels=['低于5美元', '5-10美元', '10美元以上']).value_counts()
from pyecharts import Pie
attr = [x for x in no_free.index]
v = [x for x in no_free.values]
pie = Pie("價格分布")
pie.use_theme('dark')
pie.add("", attr, v, is_label_show=True)
pie
將收費(fèi)應(yīng)用分成三個區(qū)間,查看各區(qū)間占比情況凛俱,可以看到絕大多數(shù)應(yīng)用處于5美元以下紊馏,只有少數(shù)敢賣到超過10元,看來開發(fā)商還是很注重像我這樣的普通消費(fèi)者的
from pyecharts import Scatter
v1 = [x for x in df['大小']]
v2 = [x for x in df['價格']]
scatter = Scatter("大小與價格關(guān)系")
scatter.use_theme('dark')
scatter.add("", v1, v2)
scatter
通過圖片我們看到APP的大小與價格并沒有相關(guān)性蒲犬,大家還是比較注重APP的體驗朱监,并不會因為你做的APP大,就去買單原叮『毡啵看來并不是什么,人們都喜歡大的奋隶,嘿嘿~
評論分析
由于數(shù)據(jù)集里面并沒有提供下載量的指標(biāo)擂送,但是往往評論數(shù)越多的APP,下載量也會越大唯欣。所以這里就通過評論數(shù)量間接的分析下載量吧嘹吨。
ga = df.groupby('類型')['總評論數(shù)'].mean()
from pyecharts import Bar
attr = [x for x in ga.index]
V = [x for x in ga.values]
bar = Bar('各類型評論數(shù)對比')
bar.use_theme('dark')
bar.add('', attr, V,xaxis_interval=0, xaxis_rotate=20, yaxis_rotate=0, bar_category_gap='35%')
bar
可以看到評論量大的是社交和音樂,可見這兩塊是個大蛋糕境氢,用戶需求量比較大蟀拷。奈何無論各個國家,基本這兩塊基本都是一家獨(dú)大萍聊,想從這里分一杯羹還是比較困難的匹厘,腦補(bǔ)一下老羅的子彈短信吧。
v1 = [x for x in df['支持的語言數(shù)']]
v2 = [x for x in df['總評論數(shù)']]
scatter = Scatter("支持語言數(shù)量和下載量關(guān)系")
scatter.use_theme('dark')
scatter.add("", v1, v2)
scatter
這里我想到一個有趣的問題脐区,是不是一個APP支持的語言多,它的下載量就會比較大呢她按。也就是說牛隅,你照顧到很多國家人們的使用方便炕柔,被下載的機(jī)會也就大呢侥猬。
從散點圖來看多律,語言和下載量沒有相關(guān)關(guān)系东且,看來支持1到30種語言就基本夠用了券盅,支持多了受累未必會討好憔狞。
什么游戲最賺錢
由于免費(fèi)下載的APP無法統(tǒng)計賺錢多少梆惯,這里只統(tǒng)計付費(fèi)下載的屎鳍,并且沒有下載量揩局,我們只能通過評論數(shù)的價格來計算那個APP最賺錢了也糊。當(dāng)然炼蹦,我相信那些免費(fèi)下載的APP,有很多賺錢能力更強(qiáng)狸剃,比如王者農(nóng)藥掐隐,各種燒了幾個億的傳奇手游。
money = df['價格'] * df['總評論數(shù)']
money.index = df['名稱']
money.sort_values(ascending=False, inplace=True)
attr = [x for x in money.index[:10]]
V = [x for x in money.values[:10]]
bar = Bar("賺錢游戲排行")
bar.use_theme('dark')
bar.add("", attr[::-1], V[::-1], is_convert=True)
bar
由于我用的是pyecharts畫圖钞馁,這些圖片其實都是可以劃鼠標(biāo)查看詳情的虑省,這里無法顯示游戲的具體名稱,名單我就手動貼出來吧僧凰,大家看看自己有沒有貢獻(xiàn)一份力量探颈。
'Minecraft: Pocket Edition',
'Fruit Ninja Classic',
'Draw Something',
'SCRABBLE Premium',
'Call of Duty: Black Ops Zombies',
'TuneIn Radio Pro - MLB Audiobooks Podcasts Music',
'Clear Vision (17+)',
'Geometry Dash',
'Terraria',
'Plants vs. Zombies'
以我的英語水平,能認(rèn)出來有‘我的世界’训措、‘水果忍者’伪节、‘植物大戰(zhàn)僵尸’,‘你猜我畫隙弛?’架馋,還有。全闷。叉寂。沒了~
level = df.groupby('內(nèi)容評級')['總評論數(shù)'].mean()
attr = [x for x in level.index]
v = [x for x in level.values]
pie = Pie('各評級評論數(shù)占比', title_pos='center')
pie.use_theme('dark')
pie.add('', attr, v,radius=[40, 75], label_text_color=None, is_label_show=True,legend_orient="vertical",legend_pos="left")
pie
總結(jié)
- 蘋果商店免費(fèi)下載APP只有56%,這和安卓差距還是很大的总珠。但我們不能忽略蘋果APP的質(zhì)量屏鳍,簡單來說就是耍流氓的APP比安卓少,不過對我來說局服,流氓肺疼钓瞭,收費(fèi)肉疼,我選前者淫奔。山涡。。
- APP下載量和大小,支持語言多少沒多大關(guān)系鸭丛,找準(zhǔn)定位和提升用戶體驗才是王道竞穷。