預(yù)測(cè)是預(yù)計(jì)未知事件的一門科學(xué)與藝術(shù)刊橘,包含采集歷史數(shù)據(jù)讲岁,它可以是對(duì)未來(lái)的主觀或直覺(jué)的預(yù)期,也可以是使用某些數(shù)學(xué)模型來(lái)外推酵幕,也可以是兩者的綜合扰藕。一般來(lái)說(shuō),對(duì)業(yè)務(wù)的深入理解并結(jié)合數(shù)據(jù)模型芳撒,并在預(yù)測(cè)過(guò)程中逐步調(diào)優(yōu)邓深,即可得到較為準(zhǔn)確的預(yù)測(cè)結(jié)果。
預(yù)測(cè)未來(lái)一段時(shí)間將會(huì)有多少用戶數(shù)笔刹?
? ??????????????????????????????-1-?用戶規(guī)模預(yù)測(cè)有哪些方法論
預(yù)測(cè)類型包括事件預(yù)測(cè)及時(shí)序預(yù)測(cè)芥备,本文重點(diǎn)關(guān)注時(shí)序預(yù)測(cè),即與時(shí)間維度相關(guān)的序列預(yù)測(cè)徘熔。
時(shí)間序列預(yù)測(cè)分為傳統(tǒng)的時(shí)序預(yù)測(cè)和機(jī)器學(xué)習(xí)方法门躯。
傳統(tǒng)的時(shí)間序列方法通過(guò)建立適當(dāng)?shù)臄?shù)學(xué)模型擬合歷史時(shí)間趨勢(shì)曲線,根據(jù)所建模型預(yù)測(cè)未來(lái)時(shí)間序列的趨勢(shì)曲線酷师,常見模型包括指數(shù)平滑讶凉、ARMA染乌,ARIMA,VAR懂讯,TAR荷憋,ARCH等。本文主要闡述傳統(tǒng)時(shí)序預(yù)測(cè)方法中較為常見且易實(shí)現(xiàn)的方法褐望。
(1)增長(zhǎng)率方法
增長(zhǎng)率預(yù)測(cè)方法勒庄,是指根據(jù)預(yù)測(cè)對(duì)象在過(guò)去統(tǒng)計(jì)時(shí)期內(nèi)的平均增長(zhǎng)率,類推未來(lái)預(yù)測(cè)值的一種簡(jiǎn)便算法瘫里。計(jì)算公式如下:
(2)時(shí)間序列模型方法
時(shí)間序列是指同一現(xiàn)象在不同時(shí)間上的相繼觀察值排列而成序列实蔽。展示研究對(duì)象在一定時(shí)期內(nèi)的變動(dòng)過(guò)程,從中尋找和分析事物的變化特征谨读、發(fā)展趨勢(shì)和規(guī)律局装。常用的預(yù)測(cè)模型有指數(shù)平滑模型及ARIMA模型。
一劳殖、指數(shù)平滑模型
指數(shù)平滑模型指任一期的指數(shù)平滑值是本期觀察值與前一期指數(shù)平滑值的加權(quán)平均
二铐尚、ARIMA模型
ARIMA模型全稱為差分自回歸移動(dòng)平均模型,是指將非平穩(wěn)時(shí)間序列轉(zhuǎn)化為平穩(wěn)的時(shí)間序列哆姻,然后將因變量的滯后值及隨機(jī)誤差項(xiàng)的現(xiàn)值與滯后值進(jìn)行回歸建立的模型宣增。ARIMA模型根據(jù)原序列是否平穩(wěn)以及回歸中所包含的部分不同,包含移動(dòng)平均過(guò)程(MA)矛缨、自回歸過(guò)程(AR)爹脾、自回歸移動(dòng)平均過(guò)程(ARMA)以及ARIMA過(guò)程。關(guān)于ARIMA模型的識(shí)別劳景,我們主要用到兩個(gè)工具:自相關(guān)函數(shù)和偏自相關(guān)函數(shù)及其各自的相關(guān)圖誉简。
1碉就、平穩(wěn)時(shí)間序列的概念
如果時(shí)間序列的均值盟广、方差和子協(xié)方差都不取決于時(shí)刻 t (均值/方差/協(xié)方差 恒等=平穩(wěn)),則稱時(shí)間序列上是弱平穩(wěn)或協(xié)方差平穩(wěn)瓮钥,其滿足如下3個(gè)性質(zhì):
簡(jiǎn)單的說(shuō)筋量,一個(gè)弱平穩(wěn)時(shí)間序列的均值和方差都是常數(shù),并且它的協(xié)方差有時(shí)間上的不變性碉熄。
2桨武、ARMA模型
如果時(shí)間序列式它的前期值和前期值隨機(jī)誤差項(xiàng)的線性函數(shù),即可表示為:
其中有 p個(gè)自回歸項(xiàng)和q個(gè)移動(dòng)平均項(xiàng)锈津,那么它就是一個(gè)ARMA(p,q) 過(guò)程呀酸,代表一個(gè)常數(shù)項(xiàng)。
3琼梆、ARIMA模型
以上討論的時(shí)間序列模型建立的假定是所考慮的時(shí)間序列是平穩(wěn)的性誉,但許多經(jīng)濟(jì)時(shí)間序列是非平穩(wěn)的窿吩,如果將一個(gè)時(shí)間序列差分d次后可變?yōu)槠椒€(wěn)序列,然后用ARMA模型作為它的模型错览,則稱原序列為ARIMA(p,d,q)即為差分自回歸移動(dòng)平均模型纫雁。利用ARIMA模型進(jìn)行分析有以下四個(gè)步驟:
第一,識(shí)別p,d,q值倾哺。利用相關(guān)圖和偏自相關(guān)圖可解決此問(wèn)題轧邪。
第二,估計(jì)模型中所含自回歸和移動(dòng)平均項(xiàng)的參數(shù)羞海。一般使用方法為最小二乘法忌愚。
第三,檢驗(yàn)?zāi)P蛯?duì)數(shù)據(jù)擬合效果却邓。一般檢驗(yàn)方式為模型所估算出的殘差是否為白噪音菜循。
第四,預(yù)測(cè)申尤“┠唬可利用擬合的模型進(jìn)行預(yù)測(cè),特別是短期預(yù)測(cè)昧穿。
???????上述為用戶規(guī)模預(yù)測(cè)的常用理論方法勺远。在實(shí)際應(yīng)用中,可結(jié)合業(yè)務(wù)場(chǎng)景進(jìn)行調(diào)整时鸵。
? ?????????????????????????????????????-2-?用戶規(guī)模預(yù)測(cè)實(shí)例
A公司是一家專做網(wǎng)上視頻課程的公司胶逢,用戶在其app上注冊(cè)后,可免費(fèi)看一些視頻課程饰潜,但如需觀看一些核心課程初坠,則需單獨(dú)購(gòu)買視頻或者購(gòu)買VIP服務(wù)。現(xiàn)在我們要預(yù)測(cè)購(gòu)買VIP服務(wù)的用戶規(guī)模彭雾。
依據(jù)該公司業(yè)務(wù)特點(diǎn)碟刺,預(yù)測(cè)用戶規(guī)模的方法整理有三項(xiàng):
第一,知己知彼薯酝,百戰(zhàn)不殆半沽。按用戶構(gòu)成或業(yè)務(wù)邏輯進(jìn)行拆解,先按細(xì)分項(xiàng)分別預(yù)測(cè)吴菠,最終匯總成總體值者填。第二,尋找標(biāo)桿做葵,滲透計(jì)算占哟。尋找與用戶規(guī)模強(qiáng)相關(guān)的典型參照項(xiàng),根據(jù)參照項(xiàng)與用戶規(guī)模的關(guān)系預(yù)測(cè)。第三榨乎,選擇工具嗓化,精耕細(xì)作。用戶規(guī)模如有較長(zhǎng)時(shí)間的數(shù)據(jù)沉淀谬哀,可以選擇目前已發(fā)展成熟的時(shí)間序列建模的方式尋找數(shù)據(jù)規(guī)律刺覆,結(jié)合業(yè)務(wù)場(chǎng)景進(jìn)行調(diào)整。
基于該業(yè)務(wù)的VIP用戶規(guī)模預(yù)測(cè)思路:
以2016年Q1-Q2的A公司VIP用戶規(guī)模預(yù)測(cè)為例史煎,詳述如上三種分析方法的使用谦屑。
上圖為該公司月度VIP用戶數(shù)規(guī)模趨勢(shì)圖,可以看出VIP用戶除2014年9月至2014年12月波動(dòng)較為明顯之外篇梭,其他時(shí)間段的增長(zhǎng)較為勻速平緩氢橙。
3.1 基于VIP用戶數(shù)構(gòu)成拆解預(yù)測(cè)
從VIP用戶的構(gòu)成來(lái)看,可以拆解為:當(dāng)月VIP用戶數(shù)=當(dāng)月開通用戶數(shù)+上月VIP用戶數(shù)*VIP用戶留存率恬偷。按如上公式拆解是因?yàn)閂IP的留存用戶占比較高悍手,另留存率趨勢(shì)較為穩(wěn)定。當(dāng)月開通用戶數(shù)相對(duì)波動(dòng)較明顯(易受業(yè)務(wù)運(yùn)營(yíng)活動(dòng)的影響)袍患。
一方面坦康,VIP開通用戶數(shù)趨勢(shì)如下圖,波動(dòng)較明顯诡延。
此處采用兩種方式
第一滞欠,近12個(gè)月的環(huán)比增長(zhǎng)率均值作為下一期的預(yù)測(cè)增長(zhǎng)率參考;
第二肆良,采用2015年1-6月同比2014年1-6月的增長(zhǎng)率均值作為預(yù)測(cè)增長(zhǎng)率參考(此處增長(zhǎng)率基準(zhǔn)值只是提供一個(gè)參考標(biāo)桿筛璧,具體可根據(jù)業(yè)務(wù)理解及歷史數(shù)據(jù)趨勢(shì)做調(diào)整)
此處兩種方式分別定義為悲觀預(yù)測(cè)和樂(lè)觀預(yù)測(cè),給到開通量預(yù)測(cè)結(jié)果為一個(gè)區(qū)間值惹恃。
另一方面夭谤,上月VIP用戶留存率基本穩(wěn)定,故可計(jì)算當(dāng)月的留存用戶巫糙。計(jì)算結(jié)果如下圖
匯總?cè)缟蟽蓚€(gè)部分朗儒,上月留存用戶與當(dāng)月開通用戶之和即為當(dāng)月VIP用戶規(guī)模預(yù)測(cè)結(jié)果,如下圖所示曲秉,預(yù)測(cè)給出樂(lè)觀與悲觀區(qū)間值采蚀。
3.2 基于參照預(yù)測(cè)
A公司的VIP用戶與app注冊(cè)用戶呈強(qiáng)正相關(guān)關(guān)系疲牵,VIP用戶的滲透率較穩(wěn)定承二。故可將注冊(cè)用戶預(yù)測(cè)作為VIP用戶預(yù)測(cè)參考。同理參照同環(huán)比增長(zhǎng)率均值作為預(yù)測(cè)參考值纲爸,得到注冊(cè)用戶2016年Q1-Q2的預(yù)測(cè)值范圍亥鸠。
在注冊(cè)用戶預(yù)測(cè)基礎(chǔ)上,參照VIP與注冊(cè)用戶的滲透率,可預(yù)測(cè)出月度VIP用戶數(shù)负蚊。如下圖所示神妹,預(yù)測(cè)給出樂(lè)觀與悲觀區(qū)間值。
3.3 基于時(shí)間序列方法的建模預(yù)測(cè)
時(shí)間序列是同一現(xiàn)象在不同時(shí)間的觀察值形成的數(shù)據(jù)家妆,如預(yù)測(cè)對(duì)象已有較長(zhǎng)時(shí)間的數(shù)據(jù)沉淀鸵荠,則可參考時(shí)間序列建模的方式進(jìn)行預(yù)測(cè)。
使用時(shí)間序列模型需要注意的是:第一伤极,前期序列相關(guān)性檢驗(yàn)很重要(DW蛹找、相關(guān)圖、LM檢驗(yàn)等)哨坪。第二庸疾,指數(shù)平滑法與ARMA均為平穩(wěn)時(shí)間序列相關(guān)模型。ARIMA雖然通過(guò)差分將非平穩(wěn)轉(zhuǎn)化為平穩(wěn)進(jìn)行建模当编,但許多經(jīng)濟(jì)變量差分后失去了原有意義届慈。第三,模型永遠(yuǎn)是輔助忿偷,更需要結(jié)合實(shí)際業(yè)務(wù)金顿。
本文使用SPSS對(duì)A公司月度VIP用戶規(guī)模進(jìn)行預(yù)測(cè),對(duì)比ARMA模型預(yù)測(cè)結(jié)果后鲤桥,選擇的模型為winters加法模型串绩,結(jié)果如下圖
3.4、三項(xiàng)預(yù)測(cè)結(jié)果實(shí)際準(zhǔn)確率
下表1為如上三種預(yù)測(cè)邏輯的實(shí)際數(shù)據(jù)驗(yàn)證結(jié)果芜壁,可以看出:整體來(lái)說(shuō)礁凡,VIP使用注冊(cè)用戶滲透率預(yù)測(cè)效果更好。另外慧妄,需要注意季節(jié)性因素的影響顷牌,例如2016年2月份為春節(jié)月份,做預(yù)測(cè)時(shí)需要考慮該季節(jié)因素塞淹。
? ??????????????????????????????????????????????????????????????????????????總結(jié)
本文主要介紹了VIP用戶規(guī)模預(yù)測(cè)的三種方法窟蓝,如需做收入的預(yù)測(cè),可在用戶規(guī)模的基礎(chǔ)上結(jié)合用戶付費(fèi)arpu來(lái)粗略估計(jì)饱普。
預(yù)測(cè)是預(yù)計(jì)未知事件的一門科學(xué)與藝術(shù)运挫,包含采集歷史數(shù)據(jù),它可以是對(duì)未來(lái)的主觀或直覺(jué)的預(yù)期套耕,也可以是使用某些數(shù)學(xué)模型來(lái)外推谁帕,也可以是兩者的綜合。一般來(lái)說(shuō)冯袍,對(duì)業(yè)務(wù)的深入理解并結(jié)合數(shù)據(jù)模型匈挖,并在預(yù)測(cè)過(guò)程中逐步調(diào)優(yōu)碾牌,即可得到較為準(zhǔn)確的預(yù)測(cè)結(jié)果。