數(shù)據(jù)除了數(shù)據(jù)分析的價(jià)值泄朴,另一層價(jià)值就是數(shù)據(jù)挖掘的價(jià)值。
數(shù)據(jù)分析是依賴于人的經(jīng)驗(yàn)及人對(duì)業(yè)務(wù)的理解露氮,依賴人的邏輯思維能力去找到整個(gè)業(yè)務(wù)相關(guān)的信息祖灰,去找到理性且可以指導(dǎo)我們產(chǎn)品優(yōu)化的點(diǎn)。
數(shù)據(jù)挖掘就是從另外一個(gè)維度去發(fā)掘數(shù)據(jù)的價(jià)值沦辙。
我們這里用一個(gè)比較簡(jiǎn)單常見(jiàn)的案例:產(chǎn)品的DAU預(yù)測(cè)夫植。通過(guò)這個(gè)案例,我們可以看到數(shù)據(jù)挖掘的一個(gè)思路油讯。
這里有三條曲線详民,分別代表了三個(gè)產(chǎn)品的DAU,三個(gè)DAU走勢(shì)波動(dòng)比較厲害陌兑,而有一些的周期性比較明顯沈跨,沒(méi)有太多規(guī)律可言。
我們就需要一些比較科學(xué)的方法去預(yù)測(cè)DAU兔综、分析產(chǎn)品的DAU饿凛、分析具體的場(chǎng)景去對(duì)我們的一些產(chǎn)品決策進(jìn)行輔助。
比如說(shuō)這個(gè)場(chǎng)景:
一個(gè)產(chǎn)品公測(cè)沒(méi)多久软驰,公司給的KPI指標(biāo)是產(chǎn)品投放后能夠達(dá)到50萬(wàn)的收益涧窒。事實(shí)上,在產(chǎn)品上線的兩周锭亏,產(chǎn)品的數(shù)據(jù)已經(jīng)很接近50萬(wàn)纠吴,但是一直在45萬(wàn)和47萬(wàn)徘徊。
這個(gè)產(chǎn)品本身沒(méi)有達(dá)到50萬(wàn)DAU的KPI慧瘤,這個(gè)時(shí)候整個(gè)項(xiàng)目組還有一筆預(yù)算戴已,需要去衡量這筆預(yù)算如果全部拿去買量的話,能不能達(dá)成這樣的一個(gè)KPI锅减。
這個(gè)時(shí)候我們需要找到一個(gè)可以科學(xué)決策的依據(jù)糖儡,我們要分析整個(gè)DAU跟新增用戶的關(guān)系,去分析多少錢可以獲得大概多少的市場(chǎng)新增怔匣。
新增和DAU并不是一個(gè)直接的關(guān)系握联,中間通過(guò)留存做了一個(gè)橋接,所以我們需要分析新增和DAU之間的關(guān)系是什么,如果我們能夠得到一個(gè)公式去計(jì)算出來(lái)的話拴疤,就能夠倒推我們需要花多少錢才能夠滿足50萬(wàn)的KPI永部。
為了預(yù)測(cè)這個(gè)DAU呐矾,首先我們需要對(duì)流程做一個(gè)拆解苔埋,我們首先需要定義它。每日登錄用戶蜒犯,就是DAU的定義组橄,只要用戶做了登陸操作,我們就認(rèn)為他是一個(gè)活躍用戶罚随,每天DAU的曲線波動(dòng)非常大玉工。
造成DAU波動(dòng)的因素由這幾個(gè)點(diǎn)構(gòu)成,通常我們把整個(gè)日活的用戶比喻成用戶池淘菩,每天都有流入的用戶遵班,每天都有出去的用戶。所以一個(gè)流入一個(gè)流出形成了數(shù)據(jù)的波動(dòng)潮改,對(duì)于流入的部分我們可以分為三個(gè)部分:昨日留存用戶+日回流用戶+日新進(jìn)用戶狭郑。
分解之后,我們就可以完成一張新進(jìn)用戶的留存表汇在。
表格一共列舉了5天內(nèi)有多少人留下來(lái)翰萨,在后續(xù)20天每天又有多少人留下來(lái)了。我們會(huì)發(fā)現(xiàn)里面的留存率糕殉,是根據(jù)下方示意圖的趨勢(shì)發(fā)展的亩鬼,呈現(xiàn)的是衰減的趨勢(shì)。
然后我們找來(lái)兩個(gè)產(chǎn)品的留存曲線來(lái)擬合這個(gè)衰減現(xiàn)象阿蝶。
大家可以看到這兩個(gè)曲線還是挺有規(guī)律的雳锋,相對(duì)來(lái)說(shuō)也是較為平滑的,這個(gè)時(shí)候我們需要選擇一個(gè)留存模型——冪率分布對(duì)它進(jìn)行預(yù)測(cè)羡洁。
其中:
a為常數(shù)(可簡(jiǎn)化)
b為新進(jìn)留存系數(shù)
x為產(chǎn)品運(yùn)行天數(shù)
如果b的值越大玷过,留存情況就會(huì)越好,因?yàn)閎這個(gè)值決定了曲線的傾斜程度焚廊,比如A產(chǎn)品第一條綠線的b值就要大于紅線。
所以b值就可以反映出產(chǎn)品的用戶留存特征习劫,我們就可以把b定義為新進(jìn)的留存系數(shù)咆瘟,留存系數(shù)可以通過(guò)三個(gè)點(diǎn)決定:
產(chǎn)品的品質(zhì)
用戶的質(zhì)量
運(yùn)營(yíng)的活動(dòng)
在結(jié)合上述理論后,我們就可以從已經(jīng)運(yùn)營(yíng)一段時(shí)間的產(chǎn)品中抓取我們產(chǎn)品的b值诽里,畫(huà)一個(gè)走勢(shì)圖袒餐。
這該產(chǎn)品b值一年來(lái)的走勢(shì)圖。從大的層面來(lái)看,b值的波動(dòng)不是非常的大灸眼,但是波峰和波谷都有相關(guān)運(yùn)營(yíng)活動(dòng)或者版本迭代的干預(yù)卧檐,導(dǎo)致了這個(gè)值的改變。
圖上顯示焰宣,我們?yōu)榱送瓿赡承㎏PI去提高DAU值做的拉小號(hào)的活動(dòng)霉囚,反而導(dǎo)致了b值的下降,就證明拉小號(hào)的活動(dòng)促進(jìn)了DAU的值上升匕积,但用戶質(zhì)量卻下降了盈罐。產(chǎn)品本身的質(zhì)量其實(shí)是比較穩(wěn)定的,你可以衡量它的用戶質(zhì)量闪唆,用戶質(zhì)量其實(shí)就與運(yùn)營(yíng)活動(dòng)質(zhì)量有關(guān)盅粪。
有了這樣的模型之后,我們就可以計(jì)算出把DAU的公式列舉出來(lái)了悄蕾。
大家可以把這個(gè)概念不停拆分下去票顾,累加之后就可以形成DAU公式。我們可以把總的日活數(shù)據(jù)不停地拆帆调,從第一天到第N天留存用戶數(shù)奠骄,就可以得到今日的日活。然后我們?cè)倮眠@個(gè)公式贷帮,去做出我們產(chǎn)品的走勢(shì)圖戚揭。
根據(jù)這樣的情況,我們就可以很好地去預(yù)測(cè)DAU的走勢(shì)撵枢,去對(duì)比實(shí)際日活和預(yù)測(cè)日活的一個(gè)匹配程度民晒。雖然存在一些偏差,但是偏差值也是因?yàn)槭艿交顒?dòng)的影響才發(fā)生的锄禽。
獲取預(yù)測(cè)趨勢(shì)圖之后潜必,我們?cè)偻度雽?shí)際的應(yīng)用中去評(píng)估。
我們回到評(píng)估DAU50萬(wàn)的目標(biāo)上沃但。
從上圖可以看到上面這張圖是日活躍與日新進(jìn)的走勢(shì)關(guān)系磁滚,這些都是不限號(hào)之前的走勢(shì),不限號(hào)之前是比較穩(wěn)定的宵晚,核心玩家一直都是比較穩(wěn)定的垂攘,沒(méi)有什么比較大的變化。中間拐點(diǎn)開(kāi)始是不限號(hào)當(dāng)天出現(xiàn)的淤刃,日新增注冊(cè)用戶自拐點(diǎn)之后一直往下走晒他。
我們代入那個(gè)日活公式后,下方圖的紫色部分就代表我們的預(yù)計(jì)的日活曲線逸贾。最后推算出來(lái)是陨仅,我們需要連續(xù)兩周每天都要有8萬(wàn)的新進(jìn)津滞,才能夠完成50萬(wàn)DAU的指標(biāo)。
這個(gè)數(shù)值所需要的費(fèi)用跟我們實(shí)際的預(yù)算相比差距太大灼伤,因此我們放棄了用50萬(wàn)去投放買量的計(jì)劃触徐。如果差距不大的話,我們才會(huì)選擇投放獲客狐赡。
這次的數(shù)據(jù)挖掘就給了我們此次決策的數(shù)據(jù)支撐撞鹉,告訴了我們這個(gè)決策是不具備可行性的。后來(lái)為了完成目標(biāo)猾警,我們改用了拉小號(hào)的活動(dòng)孔祸,將數(shù)據(jù)快速地推上去。
總結(jié)下來(lái)发皿,數(shù)據(jù)挖掘可以分為三步:
利用歷史數(shù)據(jù)
建立概念模型
預(yù)測(cè)發(fā)展趨勢(shì)崔慧。
更多數(shù)據(jù)分析方法及案例關(guān)注公眾號(hào):數(shù)數(shù)科技
數(shù)數(shù)科技是最專業(yè)的游戲企業(yè)數(shù)據(jù)服務(wù)商,歡迎試用數(shù)數(shù)demo:
https://www.thinkingdata.cn/?source=%E7%9F%A5%E4%B9%8E
讓數(shù)據(jù)價(jià)值觸手可及