作者?葉玎玎
葉玎玎是?GrowingIO的聯(lián)合創(chuàng)始人结借,他也是連續(xù)創(chuàng)業(yè)者貌笨,是企業(yè)協(xié)作工具風(fēng)車(chē)的聯(lián)合創(chuàng)始人拌夏,十多年的工程開(kāi)發(fā)經(jīng)歷和多年的項(xiàng)目管理經(jīng)驗(yàn)慧耍,現(xiàn)在負(fù)責(zé)核心工程開(kāi)發(fā)和技術(shù)實(shí)施。本文是他對(duì)于互聯(lián)網(wǎng)創(chuàng)業(yè)公司數(shù)據(jù)采集和分析的一些思索和心得概龄。
過(guò)去的六七年我一直在企業(yè)服務(wù)領(lǐng)域創(chuàng)業(yè)还惠,使用過(guò)不少分析工具:GA、Mixpanel私杜、Heap 等等蚕键,功能很強(qiáng)大,但是總感覺(jué)少了點(diǎn)什么衰粹。我們看到了PV/UV這樣的概覽性指標(biāo)锣光,但是它們沒(méi)法指導(dǎo)我們做的更好。在通過(guò)這些粗糙的數(shù)據(jù)得到用戶做了什么后寄猩,還要看到他們是怎么做的嫉晶,明白他們?yōu)槭裁醋觥N覀冃枰獙?shí)時(shí)、全量的用戶行為數(shù)據(jù)替废,通過(guò)對(duì)用戶行為整體流程的分析箍铭,找到轉(zhuǎn)化的關(guān)鍵節(jié)點(diǎn)以及用戶流失的核心原因,以此幫助我們對(duì)癥下藥椎镣,找到可執(zhí)行的指標(biāo)诈火,落實(shí)為優(yōu)化行動(dòng)。
今天状答,我想分享的就是我們?cè)谶@方面的一些探索與解決方案冷守。
一. 用戶行為分析的巨大需求
純從數(shù)據(jù)組成的角度來(lái)說(shuō),一個(gè)完善的閉環(huán)數(shù)據(jù)源主要是分成三大塊:第一塊是用戶行為數(shù)據(jù)惊科,第二塊是服務(wù)端日志數(shù)據(jù)拍摇,第三塊是交易 Transaction 數(shù)據(jù)。其中馆截,除了交易數(shù)據(jù)會(huì)經(jīng)常被存儲(chǔ)在離線數(shù)據(jù)庫(kù)中充活,通過(guò) ETL 來(lái)獲取分析以外,行為數(shù)據(jù)和日志數(shù)據(jù)很多時(shí)候都是近似的蜡娶,完備的用戶行為數(shù)據(jù)基本能覆蓋絕大多數(shù)的服務(wù)端日志數(shù)據(jù)混卵,同時(shí)里面包含著很多日志數(shù)據(jù)里面所缺乏的信息。
從技術(shù)發(fā)展角度來(lái)說(shuō)窖张,最近幾年發(fā)展最快的可以說(shuō)是前端幕随,每個(gè)月都會(huì)有很多新的東西出現(xiàn),整體趨勢(shì)是往單頁(yè)應(yīng)用發(fā)展宿接,追求用戶體驗(yàn)赘淮。同時(shí),還有移動(dòng)端應(yīng)用澄阳,也產(chǎn)生著大量的行為數(shù)據(jù)拥知,這些都不會(huì)跟服務(wù)端有過(guò)多交互。
所以碎赢,從應(yīng)用提供商來(lái)說(shuō),我們需要知道屏幕前的人是怎么使用我們的產(chǎn)品的速梗,洞悉用戶行為背后的價(jià)值肮塞。
GrowingIO從去年 12 月 8 號(hào)發(fā)布到現(xiàn)在已經(jīng)過(guò)去幾個(gè)月了,目前有幾百家客戶在使用姻锁。我總結(jié)了一下客戶經(jīng)常問(wèn)我們的分析需求枕赵,大致可以分成三個(gè)場(chǎng)景:
第一個(gè)場(chǎng)景是:我做了一次活動(dòng),我寫(xiě)了一篇文章位隶,我想知道到底效果如何拷窜,有沒(méi)有給我?guī)?lái)足夠的流量,也就是市場(chǎng)營(yíng)銷(xiāo)效果衡量。我們有些客戶篮昧,每年有上百萬(wàn)的市場(chǎng)預(yù)算在 SEM 上赋荆,但是卻完全不知道這些錢(qián)花出去到底帶來(lái)了多少回報(bào)。
第二個(gè)場(chǎng)景是用戶激活流程是否合理懊昨,辛辛苦苦導(dǎo)入了流量窄潭,這些流量有沒(méi)有轉(zhuǎn)化為用戶,注冊(cè)流里面每一步轉(zhuǎn)化了多少酵颁,流逝了多少嫉你,沒(méi)有轉(zhuǎn)化的去了哪里。再在這個(gè)基礎(chǔ)上躏惋,我們應(yīng)該怎么優(yōu)化幽污,優(yōu)化后的效果是怎樣的,這周的轉(zhuǎn)化率比起上周是否有進(jìn)步簿姨,差別是怎么引起的等等油挥。
第三個(gè)場(chǎng)景是這些注冊(cè)的用戶,有沒(méi)有留下來(lái)成為一個(gè)忠誠(chéng)用戶甚至付費(fèi)用戶款熬。留下來(lái)的用戶深寥,是因?yàn)槭裁戳粝聛?lái)的。是否存在一個(gè)魔法數(shù)字贤牛,可以去極大的提高用戶留存惋鹅,比如: LinkedIn 發(fā)現(xiàn)在第一周增加 5 個(gè)社交關(guān)系的用戶留存度很高; Facebook 發(fā)現(xiàn)在第一周增加 10 個(gè)好友的用戶留存度很高殉簸; Twitter 發(fā)現(xiàn)在第一周有 30 個(gè) followers 的用戶留存度很高闰集; Dropbox 發(fā)現(xiàn)在第一周安裝兩個(gè)以上操作系統(tǒng)的用戶留存度很高。 這些都是在留存分析中發(fā)現(xiàn)的魔法數(shù)字般卑。
二. 復(fù)雜而易錯(cuò)的傳統(tǒng)分析方法
歸根結(jié)底武鲁,所有的分析最終都是為了商業(yè)服務(wù),而商業(yè)是為人服務(wù)的蝠检。所以沐鼠,用戶行為分析就是我們需要建立一套基于用戶的行為的分析體系,在了解用戶“誰(shuí)”做了“什么”叹谁,“怎么”做的之外,進(jìn)而明白是“為什么”做焰檩,對(duì)癥下藥憔涉,轉(zhuǎn)化成為優(yōu)化行動(dòng)。
分析是一個(gè)長(zhǎng)時(shí)間優(yōu)化的過(guò)程析苫,需要我們持續(xù)監(jiān)控?cái)?shù)據(jù)的變化兜叨。而數(shù)據(jù)指標(biāo)除了行為數(shù)據(jù)指標(biāo)外還有一類(lèi)穿扳,我們稱之為虛榮指標(biāo),比如 PV国旷、UV 之類(lèi)流量概覽性數(shù)據(jù)矛物,這些指標(biāo)看到了也就看到了,沒(méi)法指導(dǎo)我們做的更好议街。用戶行為數(shù)據(jù)指標(biāo)則是另外一類(lèi)泽谨,比如我們上面介紹的用戶獲取、用戶激活特漩、用戶留存之類(lèi)吧雹,了解這些行為后面都會(huì)對(duì)應(yīng)到一個(gè)優(yōu)化流程涂身,所以也叫做 Actionable Metric雄卷,可執(zhí)行指標(biāo),這也是用戶行為數(shù)據(jù)的魅力蛤售。
那么接下來(lái)丁鹉,我們要開(kāi)始跟蹤用戶行為了,我們要怎么開(kāi)始呢悴能。一般可以分成以下七個(gè)步驟:
1.確定分析場(chǎng)景或目標(biāo)
確定一個(gè)場(chǎng)景揣钦,或者一個(gè)目標(biāo)。比如漠酿,我們發(fā)現(xiàn)很多用戶訪問(wèn)了注冊(cè)頁(yè)面冯凹,但是最終完成注冊(cè)的很少,那么我們的目標(biāo)就是提高注冊(cè)轉(zhuǎn)化率炒嘲,了解為什么用戶沒(méi)有完成注冊(cè)宇姚,是哪一個(gè)步驟擋住用戶了。
2.思考需要了解哪些數(shù)據(jù)
思考哪些數(shù)據(jù)我們需要了解夫凸,幫助我們實(shí)現(xiàn)這個(gè)目標(biāo)浑劳。比如對(duì)于之前的目標(biāo),我們需要拆解從進(jìn)入注冊(cè)頁(yè)面到完成注冊(cè)的每一個(gè)步驟的數(shù)據(jù)夭拌,每一次輸入的數(shù)據(jù)魔熏,同時(shí),完成或者未成為這些步驟的人的特征數(shù)據(jù)啼止。
3.確定誰(shuí)來(lái)負(fù)責(zé)收集數(shù)據(jù)道逗?
誰(shuí)負(fù)責(zé)收集這些數(shù)據(jù),一般是我們工程師出馬献烦。
4.什么時(shí)候評(píng)估和分析?
收集上來(lái)的數(shù)據(jù)如何分析卖词,什么時(shí)候來(lái)評(píng)估采集到的數(shù)據(jù)巩那。
5.如何給出優(yōu)化解決方案吏夯?
發(fā)現(xiàn)問(wèn)題后,怎么來(lái)出解決方案即横。比如噪生,是否在設(shè)計(jì)上改進(jìn),或者是否是工程上的 bug东囚。
6.誰(shuí)負(fù)責(zé)實(shí)現(xiàn)解決方案跺嗽。確定方案的實(shí)施責(zé)任人。
7.如何評(píng)估解決方案的效果页藻?
下一輪數(shù)據(jù)采集和分析桨嫁,回到第一步繼續(xù)迭代。
知易行難份帐。這整個(gè)流程里璃吧,第 2 步到第 4 步是關(guān)鍵。目前傳統(tǒng)的服務(wù)商比如 GA废境、Mixpanel畜挨、友盟所采用的方式我稱之為 Capture 模式。通過(guò)在客戶端埋下確定的點(diǎn)噩凹,采集相關(guān)數(shù)據(jù)到云端巴元,最終在云端做呈現(xiàn)。比如圖中這個(gè)示例驮宴,相信在座的各位應(yīng)該都有寫(xiě)過(guò)類(lèi)似的代碼逮刨。
Capture 模式對(duì)于非探索式分析來(lái)說(shuō),是一個(gè)非常行之有效的方法幻赚。然而禀忆,同時(shí)對(duì)參與整個(gè)流程的人也提出了非常高的要求:
缺點(diǎn)1:依賴經(jīng)驗(yàn)導(dǎo)向
Capture 模式非常依賴人的經(jīng)驗(yàn)和直覺(jué),不是說(shuō)經(jīng)驗(yàn)和直覺(jué)不好落恼,而是有時(shí)我們自己也不知道到底什么是好的箩退,經(jīng)驗(yàn)反而會(huì)成為一個(gè)先入為主的負(fù)擔(dān),我們需要用數(shù)據(jù)來(lái)測(cè)試來(lái)證明佳谦。
缺點(diǎn)2:溝通成本高
另外戴涝,一個(gè)有效的分析結(jié)果,依賴于數(shù)據(jù)的完整性和完備性钻蔑。跟不少企業(yè)溝通后啥刻,不少的吐槽都是“連日志格式都統(tǒng)一不了”,更別提后續(xù)分析了咪笑。這不是具體人的問(wèn)題可帽,更多是協(xié)作溝通的問(wèn)題。參與人越多窗怒,產(chǎn)品經(jīng)理映跟、分析師蓄拣、工程師、運(yùn)營(yíng)等等努隙,每個(gè)人的專業(yè)領(lǐng)域又各不相同球恤,出現(xiàn)誤解太正常了。曾經(jīng)跟我們的 CEO Simon 交流過(guò)荸镊,他在 LinkedIn 帶領(lǐng)數(shù)據(jù)分析部門(mén)的時(shí)候咽斧,LinkedIn 專門(mén)組建了一個(gè)多達(dá) 27 人的埋點(diǎn)團(tuán)隊(duì),每天開(kāi)會(huì)躬存,就是為了統(tǒng)一埋點(diǎn)的格式和位置张惹,經(jīng)常一開(kāi)就是幾個(gè)星期。
缺點(diǎn)3:大量時(shí)間數(shù)據(jù)清洗和數(shù)據(jù)分析代碼侵入
另外优构,由于需求的多變性诵叁,埋點(diǎn)分成多次加入,缺乏統(tǒng)籌設(shè)計(jì)和統(tǒng)一管理钦椭,結(jié)果自然是無(wú)比骯臟拧额。所以我們數(shù)據(jù)工程師還有個(gè)很大的工作是數(shù)據(jù)清洗,手動(dòng)跑 ETL 出報(bào)表彪腔。根據(jù)統(tǒng)計(jì)侥锦,絕大多數(shù)分析工作,百分之七十到八十的時(shí)間是在做數(shù)據(jù)清洗和手動(dòng) ETL德挣,只有百分之二十左右在做真正有業(yè)務(wù)價(jià)值的事情恭垦。另外一方面,作為一個(gè)有潔癖的工程師格嗅,最恨的就是大量的分析代碼侵入了我的業(yè)務(wù)代碼番挺,刪不敢刪,改不敢改屯掖,日積月累玄柏,最終代碼庫(kù)整個(gè)就混亂了。
缺點(diǎn)4:數(shù)據(jù)漏采錯(cuò)踩
以上都還是好的贴铜,最最讓人抓狂的是粪摘,上線了,發(fā)現(xiàn)數(shù)據(jù)采集錯(cuò)了或者漏了绍坝,修正后徘意,又得重新跑一遍流程,一個(gè)星期兩個(gè)星期有過(guò)去了轩褐。這也是為啥椎咧,數(shù)據(jù)分析工作是如此耗時(shí)一般以月計(jì)的原因,非常低效把介。
三. 無(wú)需埋點(diǎn)的數(shù)據(jù)分析原理
在經(jīng)歷了無(wú)數(shù)個(gè)痛苦的夜晚以后邑退,我們決定要換個(gè)思路思考了竹宋,希望能最大限度的降低人為的錯(cuò)誤劳澄,我們稱之為 Record 模式地技。區(qū)別于 Capture 模式,Record 模式是用機(jī)器來(lái)替代人的經(jīng)驗(yàn)秒拔,自動(dòng)地采集用戶在網(wǎng)站或者應(yīng)用里的全量行為數(shù)據(jù)莫矗。因?yàn)樽詣?dòng)化,我們從分析流程的源頭開(kāi)始就控制了數(shù)據(jù)的格式砂缩。
所有數(shù)據(jù)作谚,從業(yè)務(wù)角度出發(fā),劃分為 5 種維度: Who庵芭,行為背后的人妹懒,具有哪些屬性;When双吆,什么時(shí)候觸發(fā)的這個(gè)行為眨唬;Where,城市地區(qū)瀏覽器甚至 GPS 等好乐;What匾竿,也就是內(nèi)容;How蔚万,是怎樣完成的岭妖。基于對(duì)信息的解構(gòu)反璃,保證了數(shù)據(jù)從源頭就是干凈的昵慌,再在此基礎(chǔ)上面,我們完全可以把 ETL 自動(dòng)化淮蜈,需要什么數(shù)據(jù)可以隨時(shí)回溯斋攀。
回到之前流程的第二步到第四步,我們已經(jīng)把參與人從多方減少到基本就一方了礁芦,無(wú)論是產(chǎn)品經(jīng)理蜻韭、分析師還是運(yùn)營(yíng)人員,都可以使用可視化工具來(lái)查詢和分析數(shù)據(jù)柿扣,真正做到所見(jiàn)即所得肖方。不僅是 PC,還支持 iOS未状、Android 和 Hybrid俯画,可以進(jìn)行跨屏的用戶分析。
作為一家用戶行為分析工具提供商司草,GrowingIO要做的并不只是用于內(nèi)部艰垂,還需要適應(yīng)外部成千上萬(wàn)的網(wǎng)站和應(yīng)用泡仗,所以在實(shí)現(xiàn)過(guò)程中我們做了很多探索。
自動(dòng)用戶行為采集
目前我們所接觸的 GUI 程序猜憎,無(wú)論是 Web App娩怎、iOS App 還是 Android App,都是基于兩個(gè)原則胰柑,樹(shù)形結(jié)構(gòu)和事件驅(qū)動(dòng)模型截亦。無(wú)論是 Web 上的 DOM 結(jié)點(diǎn)結(jié)構(gòu),還是 App 上的 UI 控件結(jié)構(gòu)柬讨,都是構(gòu)建好的一顆完整的樹(shù)形結(jié)構(gòu)渲染在頁(yè)面或者屏幕上崩瓤。所以通過(guò)對(duì)樹(shù)結(jié)構(gòu)的監(jiān)控和檢測(cè),我們就可以非常方便地知道哪些結(jié)點(diǎn)發(fā)生了變化踩官,何時(shí)發(fā)生了變化却桶,發(fā)生了什么變化。同時(shí)蔗牡,當(dāng)用戶做了某個(gè)操作颖系,比如鼠標(biāo)點(diǎn)擊、屏幕觸控蛋逾,都會(huì)觸發(fā)一個(gè)事件集晚,綁定了該事件的回調(diào)函數(shù)就會(huì)被觸發(fā)開(kāi)始執(zhí)行∏唬基于此兩點(diǎn)認(rèn)識(shí)偷拔,在 SDK 里面如何實(shí)現(xiàn)無(wú)埋點(diǎn)就比較清楚了。只要能在結(jié)點(diǎn)變化或者事件發(fā)生的時(shí)候觸發(fā)我們定義的函數(shù),那么我就知道事件發(fā)生的多重信息。
數(shù)據(jù)可視化
如何把采集到的數(shù)據(jù)和業(yè)務(wù)目標(biāo)匹配在一起吼畏。我們的解決方案就是我們的可視化工具。剛才已經(jīng)提到任何一個(gè)原子數(shù)據(jù)蛤签,都被拆解成了 5 種不同分類(lèi)的維度。所以栅哀,當(dāng)我們?cè)诳梢暬ぞ呃锩孀銎ヅ鋾r(shí)震肮,也就是對(duì)于不同維度信息的匹配。比如一個(gè)鏈接的點(diǎn)擊留拾,會(huì)匹配到內(nèi)容或者跳轉(zhuǎn)地址也就是 What戳晌,點(diǎn)擊行為也就是 How。還有其在頁(yè)面的定位信息痴柔,比如在樹(shù)形結(jié)構(gòu)中的層次位置沦偎,是否帶一些 id、class 或者 tag,都是用來(lái)做數(shù)據(jù)匹配的信息豪嚎。我們開(kāi)發(fā)了一套智能匹配系統(tǒng)搔驼,通過(guò)對(duì)用戶真實(shí)行為的學(xué)習(xí),建立了一套規(guī)則引擎侈询,用于元素匹配舌涨。也正因?yàn)椴杉降氖侨繑?shù)據(jù),整個(gè)匹配系統(tǒng)有如基因進(jìn)化一般妄荔,既有對(duì)過(guò)去歷史的記憶泼菌,也有順應(yīng)新結(jié)構(gòu)的演進(jìn)變化。
BI 商業(yè)分析
我們?cè)谙到y(tǒng)設(shè)計(jì)過(guò)程中啦租,整個(gè) Data Pipeline 過(guò)程中,數(shù)據(jù)進(jìn)過(guò)處理后荒揣,會(huì)根據(jù)優(yōu)先級(jí)不同篷角,首先通過(guò) Spark Streaming 實(shí)時(shí)的處理已定義數(shù)據(jù),然后每過(guò)一段時(shí)間對(duì)匹配到的數(shù)據(jù)做離線預(yù)聚合系任,多維分析非常靈活恳蹲。
用戶行為數(shù)據(jù)采集的目的是通過(guò)了解用戶過(guò)去做的行為,用來(lái)預(yù)測(cè)未來(lái)發(fā)生的事情俩滥,無(wú)需埋點(diǎn)嘉蕾,隨時(shí)回溯數(shù)據(jù),讓產(chǎn)品經(jīng)理一個(gè)人就可以搞定用戶行為分析的全部流程霜旧。GrowingIO希望能提供一個(gè)簡(jiǎn)單错忱、迅速和規(guī)模化的數(shù)據(jù)分析產(chǎn)品挂据,能極大地簡(jiǎn)化分析流程以清,提交效率,直達(dá)業(yè)務(wù)崎逃。而這一切的基礎(chǔ)掷倔,就是我們從第一天開(kāi)始就一直在研發(fā)的無(wú)埋點(diǎn)智能全量數(shù)據(jù)采集,基于此優(yōu)化產(chǎn)品體驗(yàn)个绍,實(shí)現(xiàn)精細(xì)化運(yùn)營(yíng)勒葱,用數(shù)據(jù)驅(qū)動(dòng)用戶和營(yíng)收的增長(zhǎng)。
關(guān)注微信公眾號(hào)GrowingIO,回復(fù)【增長(zhǎng)】巴柿,獲取全套增長(zhǎng)資料凛虽。
——————————
GrowingIO是新一代基于用戶行為的數(shù)據(jù)分析產(chǎn)品,數(shù)據(jù)采集無(wú)須埋點(diǎn)篮洁,用戶行為數(shù)據(jù)分析更加專業(yè)涩维。登陸www.growingio.com免費(fèi)注冊(cè)申請(qǐng)?jiān)囉茫蛘哧P(guān)注微信GrowingIO獲取更多數(shù)據(jù)分析干貨。
想知道更多的增長(zhǎng)方式和案例瓦阐?您可以觀看互聯(lián)網(wǎng)產(chǎn)品增長(zhǎng)大會(huì)的錄播蜗侈,聽(tīng)聽(tīng)國(guó)內(nèi)通過(guò)低成本預(yù)算獲得幾億用戶的著名公司創(chuàng)始人們?cè)趺凑f(shuō),如餓了么聯(lián)合創(chuàng)始人汪淵睡蟋、觸寶科技聯(lián)合創(chuàng)始人兼任 CEO王佳梁踏幻,WiFi萬(wàn)能鑰匙聯(lián)合創(chuàng)始人張發(fā)有等。
以及一些有過(guò)成功增長(zhǎng)經(jīng)驗(yàn)的專家戳杀,包括陸金所網(wǎng)站產(chǎn)品管理部副總經(jīng)理唐灝该面,《增長(zhǎng)黑客》作者范冰,GrowingIO CEO (前LinkedIn高級(jí)總監(jiān)) 張溪夢(mèng)信卡,吆喝科技CEO(前Google工程師) 王曄隔缀,360奇酷粉絲運(yùn)營(yíng)總監(jiān)類(lèi)延昊,Teambition 增長(zhǎng)團(tuán)隊(duì)負(fù)責(zé)人錢(qián)卓群傍菇,觸寶科技增長(zhǎng)團(tuán)隊(duì)負(fù)責(zé)人楊乘驍猾瘸,昭合投資合伙人(前Movoto公司中國(guó)總經(jīng)理)陳世欣等。
僅需1杯咖啡錢(qián)丢习,無(wú)限次觀看12個(gè)頂級(jí)增長(zhǎng)專家一天的分享錄播牵触,學(xué)會(huì)零成本運(yùn)營(yíng)產(chǎn)品的增長(zhǎng)方法,賺千倍回報(bào)咐低。
點(diǎn)擊http://event.3188.la/323568232或掃描圖中的二維碼進(jìn)入報(bào)名頁(yè)揽思。