前言:
-
有一次一個(gè)人去餐廳吃飯
一個(gè)美女走過來問我:帥哥脂信,請(qǐng)問這里有人么佣渴?
我羞澀的回答到:嗯美女齿坷,沒有人
然后桂肌。。永淌。她就把椅子搬走了
聲明:
- 此文僅用于學(xué)習(xí)崎场、研究,請(qǐng)不要非法使用遂蛀。
- 任何由此引發(fā)的法律糾紛自行負(fù)責(zé)谭跨。
-
魯迅說過:碼農(nóng)抓到的數(shù)據(jù)怎么能叫偷呢
步驟:
- Charles抓包。
- 寫python腳本李滴,從抓取的結(jié)果里面讀取數(shù)據(jù)螃宙。
- 數(shù)據(jù)塞進(jìn)sqlite里面。
- 數(shù)據(jù)導(dǎo)出到csv文件所坯。
- 數(shù)據(jù)分析:csv文件可以自己寫python代碼進(jìn)行分析谆扎,也可以上傳到類似bdp.cn的網(wǎng)站或者其他類似工具進(jìn)行分析。
踩坑:
- token的期限比較短包竹,app推出后token就會(huì)失效燕酷,所以app要一直開著。
- 很多無效的數(shù)據(jù)周瞎,不知道是刷了數(shù)據(jù)還是有用戶被刪除苗缩,將近8萬個(gè)連續(xù)無效用戶數(shù)據(jù)。之前沒有記錄這些無效用戶声诸,后來還是記錄了酱讶,打了標(biāo)記,便于分析彼乌。
- 有的數(shù)據(jù)里面有‘,’符號(hào)泻肯,在轉(zhuǎn)json的時(shí)候會(huì)變成多份數(shù)據(jù),解決方法:
'|'.join(decoded['key_info'].split(','))
- 處理出生地“廣東 深圳”慰照,增加兩個(gè)額外字段:
ht_province, ht_city = decoded['hometown'].split(' ')[0], decoded['hometown'].split(' ')[1]
- 沒開多線程灶挟,大概10w條數(shù)據(jù),跑的還蠻久的 = =
數(shù)據(jù):
-
日活躍:
-
男女比例:
-
手機(jī)比例:
-
付費(fèi)情況:
- 占比還挺好的毒租,將近50%的人付費(fèi)
-
男生付費(fèi)用戶比女生多一半稚铣,女生都很節(jié)儉啊,很好
-
學(xué)歷情況:
- 本科人數(shù)最多,大專第二
- 碩士跟高中學(xué)歷緊跟其后
-
像我這種小學(xué)生不多
-
學(xué)校
-
深大的妹紙很多啊
-
-
年齡段分布:
年齡主要集中在1983~1994(900人以上)
峰值在1988年
前三甲:1988惕医,1990耕漱,1989
看著這么多“中年人”,我們這些老年人也很絕望啊
-
身高分布:
-
體重分布:
-
職業(yè)&企業(yè):
- 科技行業(yè)排第一啊抬伺,主要是騰訊
-
銀行螟够,教師,醫(yī)院峡钓,財(cái)務(wù)妓笙,緊跟其后
-
婚戀情況:
-
現(xiàn)居住地:
-
來的都是深圳人
-
-
用戶出生地:
-
前三甲:深圳,湖南椒楣,湖北
-
-
有效用戶占比:
- 為-1的都是無效用戶给郊,有效用戶大概只有20%
- 原因未知,不知道是測(cè)試數(shù)據(jù)捧灰,還是有用戶退出淆九,或者是非法用戶被刪
-
這些用戶基本上都是連號(hào)
-
生肖:
-
星座:
代碼(簡(jiǎn)陋):
分析數(shù)據(jù)報(bào)表鏈接:
后記:
- 不研究一下大數(shù)據(jù)你都不知道有多絕望(妹紙有多難找&創(chuàng)業(yè)有多難)!