一拌喉、基礎(chǔ)知識(shí)
1.1 常用工具
1.1.1玩轉(zhuǎn)Excel
這是一個(gè)最常見场钉,并且異常強(qiáng)大的一個(gè)工具来吩。
需要掌握一下函數(shù):
1-日期函數(shù)
day()敢辩、month()、year()弟疆、date()這四個(gè)不多解釋戚长,就是簡單的返回日月年和具體日期
today():返回今日、weekday():返回日期的星期數(shù)怠苔、weeknum():一年中的第幾周
2-數(shù)學(xué)函數(shù)
product():所有以參數(shù)形式給出的數(shù)字相乘并給出乘積
rand():取[0,1)間的一個(gè)隨機(jī)數(shù)
round():四舍五入
sumif():按條件求和
3-查找引用函數(shù)
VLOOKUP()
4-Excel有一大利器(數(shù)據(jù)透視表)
可以快速的將大量數(shù)據(jù)生成分析和展示的報(bào)表同廉,并且可以自由組合查看不同的角度,可以實(shí)現(xiàn)的主要功能有:
(1)自動(dòng)計(jì)算分類間數(shù)據(jù)匯總柑司、計(jì)數(shù)迫肖、最大、最小平均等
(2)自動(dòng)排序和分組
(3)分析環(huán)比帜羊、同比咒程、定基比等
(4)根據(jù)業(yè)務(wù)邏輯個(gè)性化分析
1.1.2SQL
日常必會(huì)的工具
1.1.3R
主要用來解決統(tǒng)計(jì)計(jì)算和繪圖,提供了很多集成的統(tǒng)計(jì)工具讼育,處理基本的R的基礎(chǔ)知識(shí)以外帐姻,還需要掌握R的可視化包
1.1.4產(chǎn)品原型工具
主要使用的就是Axure、墨刀等操作類工具奶段,產(chǎn)品功能和需求內(nèi)容的主要示意饥瓷。
1.2需求管理
對(duì)于用戶來說,需求的本質(zhì)就是用戶的動(dòng)機(jī)痹籍;對(duì)于工程來說呢铆,需求就是一個(gè)簡單按鈕的調(diào)整,或者一個(gè)數(shù)據(jù)計(jì)算口徑的定義蹲缠。
1.2.1需求來源與判斷
通常需要通過用戶調(diào)研棺克、競品分析、用戶反饋线定、頭腦風(fēng)暴娜谊、數(shù)據(jù)分析等方面挖掘,數(shù)據(jù)產(chǎn)品通常也會(huì)有業(yè)務(wù)方直接提的數(shù)據(jù)需求
在需求對(duì)接后斤讥,需要先根據(jù)需求類別進(jìn)行梳理纱皆,是提數(shù)類需求、數(shù)據(jù)接口類需求、數(shù)據(jù)分析類需求派草、產(chǎn)品功能類需求搀缠,還是數(shù)據(jù)優(yōu)化類需求等
二、實(shí)踐
2.1基本工作內(nèi)容
(1)參與市場分析與需求調(diào)研近迁,挖掘并梳理用戶需求艺普。
(2)負(fù)責(zé)公司大數(shù)據(jù)相關(guān)產(chǎn)品的規(guī)劃,對(duì)產(chǎn)品全生命周期進(jìn)行迭代和優(yōu)化钳踊。
(3)與數(shù)據(jù)分析師配合構(gòu)建數(shù)據(jù)模型產(chǎn)品衷敌,與數(shù)據(jù)研發(fā)工程師配合搭建數(shù)據(jù)倉庫勿侯。
(4)撰寫產(chǎn)品文檔拓瞪,跨部門進(jìn)行資源協(xié)調(diào)、溝通助琐,推動(dòng)項(xiàng)目高效執(zhí)行并高質(zhì)量上線祭埂。
(5)深度挖掘大數(shù)據(jù)價(jià)值,負(fù)責(zé)數(shù)據(jù)變現(xiàn)相關(guān)項(xiàng)目兵钮。
2.2常用的分析方法
在進(jìn)行數(shù)據(jù)分析之前蛆橡,先想一下分析框架和分析方法。
數(shù)據(jù)分析方法一般有常規(guī)分析掘譬、統(tǒng)計(jì)模型分析和自建模型分析
2.2.1常規(guī)分析
一般把業(yè)務(wù)相關(guān)數(shù)據(jù)從Hive或者M(jìn)ySQL中導(dǎo)入Excel泰演,然后在Excel中通過簡單的表格、線圖等方式直觀地分析數(shù)據(jù)葱轩。
常規(guī)分析經(jīng)常會(huì)用到同比和環(huán)比分析法與ABC分析法睦焕,即分析對(duì)比趨勢(shì)和分析占比情況。
同比:某個(gè)周期的時(shí)段與上一個(gè)周期的相同時(shí)段比較靴拱,如今年的6月比去年的6月垃喊,本周的周一比上周的周一等。
環(huán)比:某個(gè)時(shí)段與其上一個(gè)時(shí)長相等的時(shí)段做比較袜炕,比如本周環(huán)比上周等本谜。
ABC分析法一般以某一指標(biāo)為對(duì)象,進(jìn)行數(shù)量分析偎窘,以該指標(biāo)各維度數(shù)據(jù)與總體數(shù)據(jù)的比重為依據(jù)乌助,按照比例大小順序排列,并按照一定的比重或累計(jì)比重標(biāo)準(zhǔn)陌知,將各組成部分分為A他托、B、C三類纵诞。例如上祈,經(jīng)過長期的觀察發(fā)現(xiàn),美國80%的人只掌握了20%的財(cái)產(chǎn),而另外20%的人卻掌握了全國80%的財(cái)產(chǎn)登刺,而且很多事情都符合該規(guī)律籽腕。
2.2.2統(tǒng)計(jì)模型分析
當(dāng)掌握了大量數(shù)據(jù)時(shí),我們往往希望在數(shù)據(jù)中挖掘出更多的信息纸俭,一般可以應(yīng)用成熟的模型進(jìn)行比較深入的分析皇耗。及通過已有數(shù)據(jù)來預(yù)測未來
我們經(jīng)常會(huì)面對(duì)如下的業(yè)務(wù)場景:
(1)預(yù)測產(chǎn)品在未來一年內(nèi)的日活用戶數(shù)會(huì)按什么趨勢(shì)發(fā)展,預(yù)估DAU揍很。
(2)上線了某個(gè)營銷活動(dòng)郎楼,預(yù)估活動(dòng)效果、用戶參與度情況窒悔。
(3)對(duì)現(xiàn)有用戶進(jìn)行細(xì)分呜袁,預(yù)估到底哪一類用戶才是目標(biāo)用戶群。
(4)在一些用戶購買了很多商品后简珠,預(yù)估哪些商品同時(shí)被購買的概率大阶界。
四類問題有著不同的解決方案,基本如下:
(1)要用回歸分析聋庵,例如預(yù)估DAU膘融,因變量是DAU,與它有關(guān)的自變量有新增用戶祭玉、老用戶氧映、老用戶留存、回流用戶等脱货,然后根據(jù)歷史數(shù)據(jù)岛都,通過回歸分析擬合成一個(gè)函數(shù),現(xiàn)在常用的回歸分析主要有線性和非線性回歸蹭劈、時(shí)間序列等疗绣。
(2)我們可以根據(jù)以往活動(dòng)的數(shù)據(jù),分析活動(dòng)的各個(gè)影響因素在滿足什么情況時(shí)才會(huì)產(chǎn)生我們想要的效果铺韧,并可以把有上線活動(dòng)時(shí)和沒有上線活動(dòng)時(shí)的各項(xiàng)數(shù)據(jù)輸入系統(tǒng)中多矮,分類函數(shù)就會(huì)判斷活動(dòng)效果與哪些因素有關(guān),目前常用的分類分析方法有決策樹哈打、樸素貝葉斯算法塔逃、KNN算法、神經(jīng)網(wǎng)絡(luò)算法等料仗。
(3)以用聚類分析湾盗。細(xì)分市場、細(xì)分用戶群都屬于聚類問題立轧,這樣更方便了解用戶的具體特征格粪,從而有針對(duì)性地做一些營銷等躏吊,常見的聚類分析一般有K均值聚類、分布估計(jì)聚類等帐萎。
最常用的聚類分析就是對(duì)用戶進(jìn)行分類比伏。首先,要選取聚類變量疆导,要盡量使用對(duì)產(chǎn)品使用行為有影響的變量赁项,但是也要注意這些變量要在不同研究對(duì)象上有明顯差異,并且這些變量之間不存在高度相關(guān)澈段。例如悠菜,年齡、性別败富、學(xué)歷等悔醋。其次,把變量對(duì)應(yīng)的數(shù)據(jù)輸入模型中囤耳,選擇一個(gè)合適的分類數(shù)目篙顺,一般會(huì)選拐點(diǎn)附近的幾個(gè)類別作為分類數(shù)目偶芍。再次充择,要觀察各類別用戶在各個(gè)變量上的表現(xiàn),找出不同類別用戶區(qū)別于其他用戶的重要特征匪蟀,選取最明顯的幾個(gè)特征椎麦,最后進(jìn)行聚類處理。
(4)要用關(guān)聯(lián)分析材彪。關(guān)聯(lián)分析在電商中的應(yīng)用場景比較多观挎,最經(jīng)典的案例當(dāng)屬啤酒與尿不濕的搭配銷售,常用的關(guān)聯(lián)分析有購物籃分析段化、屬性關(guān)聯(lián)分析等嘁捷。做關(guān)聯(lián)分析一般要理解頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則兩個(gè)概念。頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一起的物品的集合显熏,關(guān)聯(lián)規(guī)則暗示兩種物品之間可能存在很強(qiáng)的關(guān)系雄嚣。
2.2.3自建模型分析
當(dāng)以上兩種分析方法都不能滿足業(yè)務(wù)的分析需求時(shí),這時(shí)就需要自建模型進(jìn)行分析喘蟆。
由于每個(gè)公司的業(yè)務(wù)模式都不太一樣缓升,就需要根據(jù)自己的業(yè)務(wù)模式進(jìn)行自建模型分析
2.3應(yīng)用實(shí)例
2.3.1商城積分和DAU的關(guān)聯(lián)分析
下面以一份簡單的分析報(bào)告為例,主要分析商城積分與DAU的關(guān)聯(lián)
1.背景
(1)領(lǐng)取過積分與未領(lǐng)取過積分的用戶的DAU和平均停留時(shí)長是否有差別蕴轨?
(2)領(lǐng)取過但未消費(fèi)過積分與領(lǐng)取過且消費(fèi)過積分的用戶的DAU和平均停留時(shí)長是否有差別港谊?
2.結(jié)論
(1)用戶領(lǐng)取積分,能夠有效提高DAU和平均停留時(shí)長橙弱,提高DAU (↑5.23%)的效果優(yōu)于平均停留時(shí)長(↑3.25%)歧寺。
(2)從目前的數(shù)據(jù)發(fā)現(xiàn)燥狰,積分的使用/消費(fèi)并不能明顯提高DAU,對(duì)平均停留時(shí)長的提高影響更小斜筐。
3.分析思路
(1)用戶分為三組碾局。
①未領(lǐng)取過積分的用戶。
②領(lǐng)取過但未消費(fèi)過積分的用戶奴艾。
③領(lǐng)取過且消費(fèi)過積分的用戶净当。
(2)分析這三組用戶分別在領(lǐng)取/消費(fèi)前后一周的DAU和平均停留時(shí)長。
4.詳細(xì)數(shù)據(jù)和分析過程
1)未領(lǐng)取過積分的用戶的DAU和平均停留時(shí)長蕴潦,未領(lǐng)取過積分的用戶在3月26日—3月31日和4月16日—4月21日的DAU和平均停留時(shí)長分別如表3-2所示像啼。
結(jié)論:4月16日—4月21日期間未領(lǐng)取過積分的用戶的DAU減少了10%,平均停留時(shí)長下降了15.2%潭苞。
2)領(lǐng)取過但未消費(fèi)過積分的用戶的DAU和平均停留時(shí)長領(lǐng)取過但未消費(fèi)過積分的用戶(2018年4月1日—2018年4月15日期間)在領(lǐng)取前后一周的DAU和平均停留時(shí)長分別如表3-3所示忽冻。
再來看一下領(lǐng)取積分前后,周一到周六DAU和平均停留時(shí)長的對(duì)比情況如圖3-6所示此疹。其中僧诚,藍(lán)色曲線表示領(lǐng)取積分之前的DAU,紅色曲線表示領(lǐng)取積分之后的DAU蝗碎,紫色表示領(lǐng)取積分之前的平均停留時(shí)長湖笨,綠色表示領(lǐng)取積分之后的平均停留時(shí)長。
結(jié)論:
(1)與領(lǐng)取積分前一周內(nèi)對(duì)比蹦骑,用戶在領(lǐng)取積分后的一周內(nèi)慈省,DAU平均增長了5.23%,平均停留時(shí)長增長了3.33%眠菇。
(2)與未領(lǐng)取過積分的用戶在同一時(shí)期DAU和平均停留時(shí)長的前后對(duì)比可以發(fā)現(xiàn)边败,用戶領(lǐng)取積分能夠在一定程度上提高用戶的DAU和平均停留時(shí)長,提高DAU的效果略好于平均停留時(shí)長捎废。
3)消費(fèi)過積分的用戶DAU和平均停留時(shí)長消費(fèi)過積分的用戶(2018年4月1日—2018年4月15日期間)在消費(fèi)前后一周的DAU和平均停留時(shí)長分別如表3-4所示笑窜。
再來看一下消費(fèi)積分前后,周一到周六DAU和平均停留時(shí)長的對(duì)比情況如圖3-7所示登疗。其中排截,藍(lán)色曲線表示消費(fèi)積分之后的DAU,紅色曲線表示消費(fèi)積分之前的DAU谜叹,紫色表示消費(fèi)積分之前的平均停留時(shí)長匾寝,綠色表示消費(fèi)積分之后的平均停留時(shí)長。
結(jié)論:
(1)與消費(fèi)積分前一周對(duì)比荷腊,用戶在消費(fèi)積分后的一周艳悔,DAU只增長了0.9%,平均停留時(shí)長下降了3.1%女仰。
(2)從目前的數(shù)據(jù)中發(fā)現(xiàn)猜年,積分的使用/消費(fèi)并不能明顯提高DAU抡锈,對(duì)平均停留時(shí)長的影響更小,由于4月消費(fèi)積分的用戶數(shù)量比較少乔外,可以在消費(fèi)積分用戶數(shù)量比較多的時(shí)候再進(jìn)一步比較
2.3.2基于時(shí)間序列預(yù)測訂單量
需要預(yù)測訂單量等數(shù)據(jù)進(jìn)一步調(diào)控運(yùn)營策略床三,提升企業(yè)的業(yè)務(wù)規(guī)模
在高方差(例如,假日和體育賽事)期間進(jìn)行準(zhǔn)確的時(shí)間序列預(yù)測對(duì)于異常檢測杨幼、資源分配撇簿、預(yù)算計(jì)劃和其他相關(guān)任務(wù)來說非常重要。
為了預(yù)測某網(wǎng)約車品牌的訂單量數(shù)據(jù)差购,采用了一種新型的貝葉斯神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)四瘫,該結(jié)構(gòu)因易于引入外生變量和自動(dòng)特征提取能力而成為流行的時(shí)間序列建模框架欲逃,通過利用大量數(shù)據(jù)跨越多個(gè)維度找蜜,LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡(luò))方法可以模擬復(fù)雜的非線性特征稳析,這對(duì)于預(yù)測極端事件至關(guān)重要洗做。當(dāng)存在異常數(shù)據(jù)時(shí),預(yù)測結(jié)果也不會(huì)因誤差傳播而導(dǎo)致誤差增大彰居。
首先進(jìn)行數(shù)據(jù)抽取诚纸,用于預(yù)測的數(shù)據(jù)來源于以往的歷史訂單。選取目前開城的所有運(yùn)營城市至今的日級(jí)別有效訂單數(shù)據(jù)裕菠,并通過天氣預(yù)報(bào)網(wǎng)站獲取歷史天氣數(shù)據(jù)和天氣預(yù)報(bào)數(shù)據(jù)咬清,同時(shí),要把節(jié)假日等因素考慮進(jìn)來奴潘,這就需要爬取中國假日辦公布的節(jié)假日數(shù)據(jù)。
然后影钉,我們用時(shí)間序列特征構(gòu)建模型画髓,訓(xùn)練數(shù)據(jù)如下:
(1)采用滑動(dòng)窗口,選取前28天的數(shù)據(jù)作為一個(gè)訓(xùn)練集平委。在每一個(gè)訓(xùn)練集內(nèi)奈虾,通過對(duì)訓(xùn)練集進(jìn)行對(duì)數(shù)變換,去除樣本間波動(dòng)幅度的影響廉赔。
(2)根據(jù)經(jīng)驗(yàn)及數(shù)據(jù)可得性肉微,構(gòu)建最高溫、最低溫等天氣特征和節(jié)假日特征這兩個(gè)外部特征蜡塌。
(3)構(gòu)建模型碉纳。對(duì)于模型結(jié)構(gòu),使用RNN autoencoder+DNN Regression馏艾,RNN autoencoder可以用于降維劳曹,提取特征奴愉,然后再使用深度學(xué)習(xí)DNN構(gòu)建回歸模型