數(shù)據(jù)cpjl修煉手冊(cè)

一拌喉、基礎(chǔ)知識(shí)

1.1 常用工具

1.1.1玩轉(zhuǎn)Excel

這是一個(gè)最常見场钉,并且異常強(qiáng)大的一個(gè)工具来吩。

需要掌握一下函數(shù):

1-日期函數(shù)

day()敢辩、month()、year()弟疆、date()這四個(gè)不多解釋戚长,就是簡單的返回日月年和具體日期

today():返回今日、weekday():返回日期的星期數(shù)怠苔、weeknum():一年中的第幾周

2-數(shù)學(xué)函數(shù)

product():所有以參數(shù)形式給出的數(shù)字相乘并給出乘積

rand():取[0,1)間的一個(gè)隨機(jī)數(shù)

round():四舍五入

sumif():按條件求和

3-查找引用函數(shù)

VLOOKUP()

4-Excel有一大利器(數(shù)據(jù)透視表)

可以快速的將大量數(shù)據(jù)生成分析和展示的報(bào)表同廉,并且可以自由組合查看不同的角度,可以實(shí)現(xiàn)的主要功能有:

(1)自動(dòng)計(jì)算分類間數(shù)據(jù)匯總柑司、計(jì)數(shù)迫肖、最大、最小平均等

(2)自動(dòng)排序和分組

(3)分析環(huán)比帜羊、同比咒程、定基比等

(4)根據(jù)業(yè)務(wù)邏輯個(gè)性化分析

1.1.2SQL

日常必會(huì)的工具

1.1.3R

主要用來解決統(tǒng)計(jì)計(jì)算和繪圖,提供了很多集成的統(tǒng)計(jì)工具讼育,處理基本的R的基礎(chǔ)知識(shí)以外帐姻,還需要掌握R的可視化包

1.1.4產(chǎn)品原型工具

主要使用的就是Axure、墨刀等操作類工具奶段,產(chǎn)品功能和需求內(nèi)容的主要示意饥瓷。

1.2需求管理

對(duì)于用戶來說,需求的本質(zhì)就是用戶的動(dòng)機(jī)痹籍;對(duì)于工程來說呢铆,需求就是一個(gè)簡單按鈕的調(diào)整,或者一個(gè)數(shù)據(jù)計(jì)算口徑的定義蹲缠。

1.2.1需求來源與判斷

通常需要通過用戶調(diào)研棺克、競品分析、用戶反饋线定、頭腦風(fēng)暴娜谊、數(shù)據(jù)分析等方面挖掘,數(shù)據(jù)產(chǎn)品通常也會(huì)有業(yè)務(wù)方直接提的數(shù)據(jù)需求

在需求對(duì)接后斤讥,需要先根據(jù)需求類別進(jìn)行梳理纱皆,是提數(shù)類需求、數(shù)據(jù)接口類需求、數(shù)據(jù)分析類需求派草、產(chǎn)品功能類需求搀缠,還是數(shù)據(jù)優(yōu)化類需求等

二、實(shí)踐

2.1基本工作內(nèi)容

(1)參與市場分析與需求調(diào)研近迁,挖掘并梳理用戶需求艺普。

(2)負(fù)責(zé)公司大數(shù)據(jù)相關(guān)產(chǎn)品的規(guī)劃,對(duì)產(chǎn)品全生命周期進(jìn)行迭代和優(yōu)化钳踊。

(3)與數(shù)據(jù)分析師配合構(gòu)建數(shù)據(jù)模型產(chǎn)品衷敌,與數(shù)據(jù)研發(fā)工程師配合搭建數(shù)據(jù)倉庫勿侯。

(4)撰寫產(chǎn)品文檔拓瞪,跨部門進(jìn)行資源協(xié)調(diào)、溝通助琐,推動(dòng)項(xiàng)目高效執(zhí)行并高質(zhì)量上線祭埂。

(5)深度挖掘大數(shù)據(jù)價(jià)值,負(fù)責(zé)數(shù)據(jù)變現(xiàn)相關(guān)項(xiàng)目兵钮。

2.2常用的分析方法

在進(jìn)行數(shù)據(jù)分析之前蛆橡,先想一下分析框架和分析方法。

數(shù)據(jù)分析方法一般有常規(guī)分析掘譬、統(tǒng)計(jì)模型分析和自建模型分析

2.2.1常規(guī)分析

一般把業(yè)務(wù)相關(guān)數(shù)據(jù)從Hive或者M(jìn)ySQL中導(dǎo)入Excel泰演,然后在Excel中通過簡單的表格、線圖等方式直觀地分析數(shù)據(jù)葱轩。

常規(guī)分析經(jīng)常會(huì)用到同比和環(huán)比分析法與ABC分析法睦焕,即分析對(duì)比趨勢(shì)和分析占比情況。

同比:某個(gè)周期的時(shí)段與上一個(gè)周期的相同時(shí)段比較靴拱,如今年的6月比去年的6月垃喊,本周的周一比上周的周一等。

環(huán)比:某個(gè)時(shí)段與其上一個(gè)時(shí)長相等的時(shí)段做比較袜炕,比如本周環(huán)比上周等本谜。

ABC分析法一般以某一指標(biāo)為對(duì)象,進(jìn)行數(shù)量分析偎窘,以該指標(biāo)各維度數(shù)據(jù)與總體數(shù)據(jù)的比重為依據(jù)乌助,按照比例大小順序排列,并按照一定的比重或累計(jì)比重標(biāo)準(zhǔn)陌知,將各組成部分分為A他托、B、C三類纵诞。例如上祈,經(jīng)過長期的觀察發(fā)現(xiàn),美國80%的人只掌握了20%的財(cái)產(chǎn),而另外20%的人卻掌握了全國80%的財(cái)產(chǎn)登刺,而且很多事情都符合該規(guī)律籽腕。

2.2.2統(tǒng)計(jì)模型分析

當(dāng)掌握了大量數(shù)據(jù)時(shí),我們往往希望在數(shù)據(jù)中挖掘出更多的信息纸俭,一般可以應(yīng)用成熟的模型進(jìn)行比較深入的分析皇耗。及通過已有數(shù)據(jù)來預(yù)測未來

我們經(jīng)常會(huì)面對(duì)如下的業(yè)務(wù)場景:

(1)預(yù)測產(chǎn)品在未來一年內(nèi)的日活用戶數(shù)會(huì)按什么趨勢(shì)發(fā)展,預(yù)估DAU揍很。

(2)上線了某個(gè)營銷活動(dòng)郎楼,預(yù)估活動(dòng)效果、用戶參與度情況窒悔。

(3)對(duì)現(xiàn)有用戶進(jìn)行細(xì)分呜袁,預(yù)估到底哪一類用戶才是目標(biāo)用戶群。

(4)在一些用戶購買了很多商品后简珠,預(yù)估哪些商品同時(shí)被購買的概率大阶界。

四類問題有著不同的解決方案,基本如下:

(1)要用回歸分析聋庵,例如預(yù)估DAU膘融,因變量是DAU,與它有關(guān)的自變量有新增用戶祭玉、老用戶氧映、老用戶留存、回流用戶等脱货,然后根據(jù)歷史數(shù)據(jù)岛都,通過回歸分析擬合成一個(gè)函數(shù),現(xiàn)在常用的回歸分析主要有線性和非線性回歸蹭劈、時(shí)間序列等疗绣。

(2)我們可以根據(jù)以往活動(dòng)的數(shù)據(jù),分析活動(dòng)的各個(gè)影響因素在滿足什么情況時(shí)才會(huì)產(chǎn)生我們想要的效果铺韧,并可以把有上線活動(dòng)時(shí)和沒有上線活動(dòng)時(shí)的各項(xiàng)數(shù)據(jù)輸入系統(tǒng)中多矮,分類函數(shù)就會(huì)判斷活動(dòng)效果與哪些因素有關(guān),目前常用的分類分析方法有決策樹哈打、樸素貝葉斯算法塔逃、KNN算法、神經(jīng)網(wǎng)絡(luò)算法等料仗。

(3)以用聚類分析湾盗。細(xì)分市場、細(xì)分用戶群都屬于聚類問題立轧,這樣更方便了解用戶的具體特征格粪,從而有針對(duì)性地做一些營銷等躏吊,常見的聚類分析一般有K均值聚類、分布估計(jì)聚類等帐萎。

最常用的聚類分析就是對(duì)用戶進(jìn)行分類比伏。首先,要選取聚類變量疆导,要盡量使用對(duì)產(chǎn)品使用行為有影響的變量赁项,但是也要注意這些變量要在不同研究對(duì)象上有明顯差異,并且這些變量之間不存在高度相關(guān)澈段。例如悠菜,年齡、性別败富、學(xué)歷等悔醋。其次,把變量對(duì)應(yīng)的數(shù)據(jù)輸入模型中囤耳,選擇一個(gè)合適的分類數(shù)目篙顺,一般會(huì)選拐點(diǎn)附近的幾個(gè)類別作為分類數(shù)目偶芍。再次充择,要觀察各類別用戶在各個(gè)變量上的表現(xiàn),找出不同類別用戶區(qū)別于其他用戶的重要特征匪蟀,選取最明顯的幾個(gè)特征椎麦,最后進(jìn)行聚類處理。

(4)要用關(guān)聯(lián)分析材彪。關(guān)聯(lián)分析在電商中的應(yīng)用場景比較多观挎,最經(jīng)典的案例當(dāng)屬啤酒與尿不濕的搭配銷售,常用的關(guān)聯(lián)分析有購物籃分析段化、屬性關(guān)聯(lián)分析等嘁捷。做關(guān)聯(lián)分析一般要理解頻繁項(xiàng)集和關(guān)聯(lián)規(guī)則兩個(gè)概念。頻繁項(xiàng)集是經(jīng)常出現(xiàn)在一起的物品的集合显熏,關(guān)聯(lián)規(guī)則暗示兩種物品之間可能存在很強(qiáng)的關(guān)系雄嚣。

2.2.3自建模型分析

當(dāng)以上兩種分析方法都不能滿足業(yè)務(wù)的分析需求時(shí),這時(shí)就需要自建模型進(jìn)行分析喘蟆。

由于每個(gè)公司的業(yè)務(wù)模式都不太一樣缓升,就需要根據(jù)自己的業(yè)務(wù)模式進(jìn)行自建模型分析

2.3應(yīng)用實(shí)例

2.3.1商城積分和DAU的關(guān)聯(lián)分析

下面以一份簡單的分析報(bào)告為例,主要分析商城積分與DAU的關(guān)聯(lián)

1.背景

(1)領(lǐng)取過積分與未領(lǐng)取過積分的用戶的DAU和平均停留時(shí)長是否有差別蕴轨?

(2)領(lǐng)取過但未消費(fèi)過積分與領(lǐng)取過且消費(fèi)過積分的用戶的DAU和平均停留時(shí)長是否有差別港谊?

2.結(jié)論

(1)用戶領(lǐng)取積分,能夠有效提高DAU和平均停留時(shí)長橙弱,提高DAU (↑5.23%)的效果優(yōu)于平均停留時(shí)長(↑3.25%)歧寺。

(2)從目前的數(shù)據(jù)發(fā)現(xiàn)燥狰,積分的使用/消費(fèi)并不能明顯提高DAU,對(duì)平均停留時(shí)長的提高影響更小斜筐。

3.分析思路

(1)用戶分為三組碾局。

①未領(lǐng)取過積分的用戶。

②領(lǐng)取過但未消費(fèi)過積分的用戶奴艾。

③領(lǐng)取過且消費(fèi)過積分的用戶净当。

(2)分析這三組用戶分別在領(lǐng)取/消費(fèi)前后一周的DAU和平均停留時(shí)長。

4.詳細(xì)數(shù)據(jù)和分析過程

1)未領(lǐng)取過積分的用戶的DAU和平均停留時(shí)長蕴潦,未領(lǐng)取過積分的用戶在3月26日—3月31日和4月16日—4月21日的DAU和平均停留時(shí)長分別如表3-2所示像啼。

結(jié)論:4月16日—4月21日期間未領(lǐng)取過積分的用戶的DAU減少了10%,平均停留時(shí)長下降了15.2%潭苞。

2)領(lǐng)取過但未消費(fèi)過積分的用戶的DAU和平均停留時(shí)長領(lǐng)取過但未消費(fèi)過積分的用戶(2018年4月1日—2018年4月15日期間)在領(lǐng)取前后一周的DAU和平均停留時(shí)長分別如表3-3所示忽冻。

再來看一下領(lǐng)取積分前后,周一到周六DAU和平均停留時(shí)長的對(duì)比情況如圖3-6所示此疹。其中僧诚,藍(lán)色曲線表示領(lǐng)取積分之前的DAU,紅色曲線表示領(lǐng)取積分之后的DAU蝗碎,紫色表示領(lǐng)取積分之前的平均停留時(shí)長湖笨,綠色表示領(lǐng)取積分之后的平均停留時(shí)長。

結(jié)論:

(1)與領(lǐng)取積分前一周內(nèi)對(duì)比蹦骑,用戶在領(lǐng)取積分后的一周內(nèi)慈省,DAU平均增長了5.23%,平均停留時(shí)長增長了3.33%眠菇。

(2)與未領(lǐng)取過積分的用戶在同一時(shí)期DAU和平均停留時(shí)長的前后對(duì)比可以發(fā)現(xiàn)边败,用戶領(lǐng)取積分能夠在一定程度上提高用戶的DAU和平均停留時(shí)長,提高DAU的效果略好于平均停留時(shí)長捎废。

3)消費(fèi)過積分的用戶DAU和平均停留時(shí)長消費(fèi)過積分的用戶(2018年4月1日—2018年4月15日期間)在消費(fèi)前后一周的DAU和平均停留時(shí)長分別如表3-4所示笑窜。

再來看一下消費(fèi)積分前后,周一到周六DAU和平均停留時(shí)長的對(duì)比情況如圖3-7所示登疗。其中排截,藍(lán)色曲線表示消費(fèi)積分之后的DAU,紅色曲線表示消費(fèi)積分之前的DAU谜叹,紫色表示消費(fèi)積分之前的平均停留時(shí)長匾寝,綠色表示消費(fèi)積分之后的平均停留時(shí)長。

結(jié)論:

(1)與消費(fèi)積分前一周對(duì)比荷腊,用戶在消費(fèi)積分后的一周艳悔,DAU只增長了0.9%,平均停留時(shí)長下降了3.1%女仰。

(2)從目前的數(shù)據(jù)中發(fā)現(xiàn)猜年,積分的使用/消費(fèi)并不能明顯提高DAU抡锈,對(duì)平均停留時(shí)長的影響更小,由于4月消費(fèi)積分的用戶數(shù)量比較少乔外,可以在消費(fèi)積分用戶數(shù)量比較多的時(shí)候再進(jìn)一步比較

2.3.2基于時(shí)間序列預(yù)測訂單量

需要預(yù)測訂單量等數(shù)據(jù)進(jìn)一步調(diào)控運(yùn)營策略床三,提升企業(yè)的業(yè)務(wù)規(guī)模

在高方差(例如,假日和體育賽事)期間進(jìn)行準(zhǔn)確的時(shí)間序列預(yù)測對(duì)于異常檢測杨幼、資源分配撇簿、預(yù)算計(jì)劃和其他相關(guān)任務(wù)來說非常重要。

為了預(yù)測某網(wǎng)約車品牌的訂單量數(shù)據(jù)差购,采用了一種新型的貝葉斯神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)四瘫,該結(jié)構(gòu)因易于引入外生變量和自動(dòng)特征提取能力而成為流行的時(shí)間序列建模框架欲逃,通過利用大量數(shù)據(jù)跨越多個(gè)維度找蜜,LSTM(Long Short-Term Memory,長短期記憶網(wǎng)絡(luò))方法可以模擬復(fù)雜的非線性特征稳析,這對(duì)于預(yù)測極端事件至關(guān)重要洗做。當(dāng)存在異常數(shù)據(jù)時(shí),預(yù)測結(jié)果也不會(huì)因誤差傳播而導(dǎo)致誤差增大彰居。

首先進(jìn)行數(shù)據(jù)抽取诚纸,用于預(yù)測的數(shù)據(jù)來源于以往的歷史訂單。選取目前開城的所有運(yùn)營城市至今的日級(jí)別有效訂單數(shù)據(jù)裕菠,并通過天氣預(yù)報(bào)網(wǎng)站獲取歷史天氣數(shù)據(jù)和天氣預(yù)報(bào)數(shù)據(jù)咬清,同時(shí),要把節(jié)假日等因素考慮進(jìn)來奴潘,這就需要爬取中國假日辦公布的節(jié)假日數(shù)據(jù)。

然后影钉,我們用時(shí)間序列特征構(gòu)建模型画髓,訓(xùn)練數(shù)據(jù)如下:

(1)采用滑動(dòng)窗口,選取前28天的數(shù)據(jù)作為一個(gè)訓(xùn)練集平委。在每一個(gè)訓(xùn)練集內(nèi)奈虾,通過對(duì)訓(xùn)練集進(jìn)行對(duì)數(shù)變換,去除樣本間波動(dòng)幅度的影響廉赔。

(2)根據(jù)經(jīng)驗(yàn)及數(shù)據(jù)可得性肉微,構(gòu)建最高溫、最低溫等天氣特征和節(jié)假日特征這兩個(gè)外部特征蜡塌。

(3)構(gòu)建模型碉纳。對(duì)于模型結(jié)構(gòu),使用RNN autoencoder+DNN Regression馏艾,RNN autoencoder可以用于降維劳曹,提取特征奴愉,然后再使用深度學(xué)習(xí)DNN構(gòu)建回歸模型

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市铁孵,隨后出現(xiàn)的幾起案子锭硼,更是在濱河造成了極大的恐慌,老刑警劉巖蜕劝,帶你破解...
    沈念sama閱讀 207,113評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件檀头,死亡現(xiàn)場離奇詭異,居然都是意外死亡岖沛,警方通過查閱死者的電腦和手機(jī)鳖擒,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評(píng)論 2 381
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來烫止,“玉大人蒋荚,你說我怎么就攤上這事」萑洌” “怎么了期升?”我有些...
    開封第一講書人閱讀 153,340評(píng)論 0 344
  • 文/不壞的土叔 我叫張陵,是天一觀的道長互躬。 經(jīng)常有香客問我播赁,道長,這世上最難降的妖魔是什么吼渡? 我笑而不...
    開封第一講書人閱讀 55,449評(píng)論 1 279
  • 正文 為了忘掉前任容为,我火速辦了婚禮,結(jié)果婚禮上寺酪,老公的妹妹穿的比我還像新娘坎背。我一直安慰自己,他們只是感情好寄雀,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,445評(píng)論 5 374
  • 文/花漫 我一把揭開白布得滤。 她就那樣靜靜地躺著,像睡著了一般盒犹。 火紅的嫁衣襯著肌膚如雪懂更。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,166評(píng)論 1 284
  • 那天急膀,我揣著相機(jī)與錄音沮协,去河邊找鬼。 笑死卓嫂,一個(gè)胖子當(dāng)著我的面吹牛慷暂,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播命黔,決...
    沈念sama閱讀 38,442評(píng)論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼呜呐,長吁一口氣:“原來是場噩夢(mèng)啊……” “哼就斤!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起蘑辑,我...
    開封第一講書人閱讀 37,105評(píng)論 0 261
  • 序言:老撾萬榮一對(duì)情侶失蹤洋机,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后洋魂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體绷旗,經(jīng)...
    沈念sama閱讀 43,601評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,066評(píng)論 2 325
  • 正文 我和宋清朗相戀三年副砍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了衔肢。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,161評(píng)論 1 334
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡豁翎,死狀恐怖角骤,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情心剥,我是刑警寧澤邦尊,帶...
    沈念sama閱讀 33,792評(píng)論 4 323
  • 正文 年R本政府宣布,位于F島的核電站优烧,受9級(jí)特大地震影響蝉揍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜畦娄,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,351評(píng)論 3 307
  • 文/蒙蒙 一又沾、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧熙卡,春花似錦杖刷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至喂柒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間禾嫉,已是汗流浹背灾杰。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評(píng)論 1 261
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留熙参,地道東北人艳吠。 一個(gè)月前我還...
    沈念sama閱讀 45,618評(píng)論 2 355
  • 正文 我出身青樓,卻偏偏與公主長得像孽椰,于是被迫代替她去往敵國和親昭娩。 傳聞我的和親對(duì)象是個(gè)殘疾皇子凛篙,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,916評(píng)論 2 344

推薦閱讀更多精彩內(nèi)容