第一章 數(shù)據(jù)收集
智能增長(zhǎng)的動(dòng)力源泉來源于數(shù)據(jù),數(shù)據(jù)是一切智能踐行的基礎(chǔ)僚纷。本章就數(shù)據(jù)采集議題進(jìn)行了相關(guān)的回答。最近CTO也一直在提一個(gè)觀點(diǎn),要做到以終為始疚察,任何數(shù)據(jù)采集的需求都要考慮到能否解決用戶的問題,能否能產(chǎn)出最終的運(yùn)營(yíng)指標(biāo)仇奶。如轉(zhuǎn)化率貌嫡、留存率、日活该溯、訂單等等岛抄。指標(biāo)的產(chǎn)出可以按照深入度和優(yōu)先級(jí)分為結(jié)果指標(biāo)和過程指標(biāo)。
結(jié)果指標(biāo)
- 用戶:新用戶數(shù)狈茉、老用戶數(shù)
- 交易:訂單量夫椭、客單價(jià)
- 體驗(yàn):評(píng)分分組、投訴率
過程指標(biāo)
- 用戶注冊(cè):APP下載量氯庆、用戶注冊(cè)量蹭秋、用戶登錄量
- 用戶留存:七日留存扰付、七日轉(zhuǎn)化
數(shù)據(jù)來源
- 用戶端。通常通過埋點(diǎn)技術(shù)收集用戶的行為軌跡信息仁讨,如頁(yè)面的瀏覽羽莺、控件的點(diǎn)擊、資源位的瀏覽等洞豁,基于這些數(shù)據(jù)可以查看用戶的瀏覽軌跡和各個(gè)階段的漏斗轉(zhuǎn)化率盐固,通過調(diào)整頁(yè)面的路徑和控件的部署來提供流量的有效利用,促使流量轉(zhuǎn)化最大化族跛。同時(shí)也能查看指定人群的流量轉(zhuǎn)化率情況闰挡。
- 服務(wù)端。交易數(shù)據(jù)礁哄、支付數(shù)據(jù)的結(jié)果通常是在服務(wù)端產(chǎn)生长酗,可以借助服務(wù)端埋點(diǎn)和數(shù)據(jù)庫(kù)的變更日志(MySql的binlog)收集交易數(shù)據(jù)。
數(shù)據(jù)使用
- BI:運(yùn)營(yíng)活動(dòng)的推廣桐绒、產(chǎn)品的設(shè)計(jì)夺脾、UI模型的改版,通常均需要借助報(bào)表來做相關(guān)的決策分析茉继,報(bào)表可以按照實(shí)時(shí)性分為離線和實(shí)時(shí)兩種咧叭,對(duì)于大部分業(yè)務(wù)場(chǎng)景來說,離線報(bào)表基本上可以滿足需求烁竭。但是對(duì)于一些廣告投放菲茬、運(yùn)營(yíng)活動(dòng)推廣均需要實(shí)時(shí)的查看到相應(yīng)的數(shù)據(jù)效果,實(shí)時(shí)報(bào)表相對(duì)于離線報(bào)表最大的好處就是數(shù)據(jù)及時(shí)性更好派撕,但通常會(huì)犧牲一定的準(zhǔn)確性作為代價(jià)婉弹。
- 標(biāo)簽:最常見的標(biāo)簽系統(tǒng)是用戶標(biāo)簽,用戶在系統(tǒng)進(jìn)行注冊(cè)后通常會(huì)有一個(gè)userid與之對(duì)應(yīng)终吼,系統(tǒng)可以整合平臺(tái)內(nèi)部的所有數(shù)據(jù)為用戶建立一個(gè)畫像機(jī)制镀赌,為后續(xù)的運(yùn)營(yíng)推廣、風(fēng)控际跪、反欺詐等業(yè)務(wù)提供數(shù)據(jù)支撐商佛。另外我們也可以針對(duì)設(shè)備維度、物品維度姆打、商家維度建立相應(yīng)的標(biāo)簽良姆。另外可以利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等手段基于基礎(chǔ)標(biāo)簽數(shù)據(jù)產(chǎn)生一批衍生標(biāo)簽穴肘,比如用戶偏好選擇歇盼、用戶流失概率、用戶轉(zhuǎn)化概率等等评抚。
總之豹缀,在數(shù)據(jù)采集過程中要考慮數(shù)據(jù)的規(guī)范化和易用性伯复,明確具體業(yè)務(wù)方和使用場(chǎng)景,做到數(shù)盡其用邢笙。
第二章 數(shù)據(jù)加工
上一章節(jié)我們討論了數(shù)據(jù)采集的相關(guān)內(nèi)容啸如,原始數(shù)據(jù)通常不能直接用來應(yīng)用,就像原油需要加工精煉后才能支持工業(yè)生產(chǎn)一樣氮惯。原始數(shù)據(jù)通常面臨數(shù)據(jù)格式混亂叮雳、夾雜各種臟數(shù)據(jù)、數(shù)據(jù)定義不一致等多種問題妇汗,需要引入一個(gè)數(shù)據(jù)加工環(huán)節(jié)來把原始數(shù)據(jù)進(jìn)行清洗加工帘不。數(shù)據(jù)的初加工可以從以下幾個(gè)維度來進(jìn)行處理:
- 數(shù)據(jù)格式的統(tǒng)一。日期統(tǒng)一用時(shí)間格式杨箭,金額統(tǒng)一用數(shù)值格式寞焙。
- 數(shù)據(jù)內(nèi)容的統(tǒng)一。比如城市地名統(tǒng)一為“浙江省杭州市”互婿,避免有些地方是“浙江杭州”捣郊,有些地方直接填寫的“杭州”,日期統(tǒng)一為“yyyy-mm-dd hh:MM:ss”等慈参。
- 量綱統(tǒng)一呛牲。金錢統(tǒng)一用分表示。
- 名詞口徑的統(tǒng)一驮配。比如老用戶的定義娘扩、增加率的定義等。
- 不同表相同字段民稱的統(tǒng)一壮锻。用戶id統(tǒng)一簡(jiǎn)寫為uid畜侦,不要出現(xiàn)userid的情況。
數(shù)據(jù)清洗
- 數(shù)據(jù)缺失值的補(bǔ)充躯保。原則:要求正確不強(qiáng)制精確,效率和易用性優(yōu)先澎语。有些用戶標(biāo)簽數(shù)據(jù)也可以借助數(shù)據(jù)挖掘技術(shù)和機(jī)器學(xué)習(xí)的相關(guān)方法來進(jìn)行深度挖掘途事。對(duì)于一些數(shù)值類的數(shù)據(jù),可以采用平均數(shù)或者中位數(shù)來進(jìn)行填充擅羞,中位數(shù)相對(duì)于平均數(shù)有一個(gè)優(yōu)點(diǎn)在于可以避免一些異常點(diǎn)對(duì)整體數(shù)據(jù)的干擾尸变,但是中位數(shù)的計(jì)算相對(duì)來說更加的復(fù)雜。
- 數(shù)據(jù)造假减俏。數(shù)據(jù)造假通常分為數(shù)據(jù)欺詐和數(shù)據(jù)操作兩種召烂,其中數(shù)據(jù)欺詐沒有發(fā)生具體業(yè)務(wù)行為,大部分是機(jī)器人進(jìn)行操作娃承,數(shù)據(jù)操作還是按照業(yè)務(wù)的規(guī)則的來進(jìn)行有偏向性的操作奏夫,比如反復(fù)瀏覽一個(gè)頁(yè)面來提高某個(gè)頁(yè)面的搜索排名怕篷,通過購(gòu)買自己商家的數(shù)據(jù)來提高商店的好評(píng)率,抹黑競(jìng)爭(zhēng)對(duì)手的商鋪排名酗昼。其中數(shù)據(jù)欺詐需要有單獨(dú)的反欺詐團(tuán)隊(duì)負(fù)責(zé)處理廊谓。
1.噪音數(shù)據(jù)的處理。
關(guān)聯(lián)分析
關(guān)聯(lián)分析通常用來分析物品之間的關(guān)聯(lián)度麻削,著名的關(guān)聯(lián)分析案例是購(gòu)買啤酒的用戶有很大概率會(huì)購(gòu)買尿布蒸痹,因此商家可以把尿布和啤酒放在一起增加商品的銷量。
支持度:用戶購(gòu)買某種商品占所有購(gòu)買記錄的比例呛哟。某商店共發(fā)生了10000比交易叠荠,其中有購(gòu)買啤酒的記錄有2000條,那么啤酒的支持度就是0.2
置信度:購(gòu)買A商品的同時(shí)購(gòu)買B商品的條件概率P(B/A)=P(AB)/P(A)
K頻繁項(xiàng):如果A的K個(gè)時(shí)間的支持度大于最小支持度閾值扫责,則稱為A的K頻繁項(xiàng)
Apriori算法
如果A是滿足最小支持度閾值的事件榛鼎,則A的子集一定滿足最小支持度閾值,同理如果一個(gè)A不滿足最小支持度閾值公给,那么其父集合也一定不滿足最小支持度閾值借帘。
算法實(shí)現(xiàn): - 首先初始化一個(gè)L(1)最小1頻繁項(xiàng)。
- 依次構(gòu)建2淌铐、3肺然、...、K項(xiàng)頻繁項(xiàng)
最終得到滿足最小支持度閾值的最大的K頻繁項(xiàng)腿准,記錄為L(zhǎng)k际起,然后計(jì)算Lk的相對(duì)于其真子集的條件概率,記錄條件概率滿足最小置信度的組合吐葱,則稱Lku-》Lk符合強(qiáng)規(guī)則街望。
第三章 數(shù)據(jù)存儲(chǔ)
數(shù)據(jù)經(jīng)過采集、數(shù)據(jù)加工后弟跑,為滿足具體業(yè)務(wù)場(chǎng)景的使用灾前,需要將數(shù)據(jù)存儲(chǔ)起來。公司孟辑、個(gè)人在進(jìn)行場(chǎng)景活動(dòng)時(shí)哎甲,經(jīng)常需要查詢所需的數(shù)據(jù)來為日常的決策提供參考。數(shù)據(jù)存儲(chǔ)的目標(biāo)時(shí)快速響應(yīng)用戶的查詢使用需要饲嗽,兼顧功能和效率的同時(shí)滿足用戶的查詢需求炭玫。
大家必須承認(rèn)沒有一種數(shù)據(jù)存儲(chǔ)模型和數(shù)據(jù)存儲(chǔ)介質(zhì)能夠滿足所有使用場(chǎng)景,需要我們?yōu)樘囟ǖ念I(lǐng)域問題建立合適的數(shù)據(jù)存儲(chǔ)方法貌虾。
我們可以根據(jù)不同的維度來立體審視數(shù)據(jù)存儲(chǔ)吞加。數(shù)據(jù)存儲(chǔ)包含兩個(gè)方面
- 數(shù)據(jù)建模
- 數(shù)據(jù)存儲(chǔ)介質(zhì)
數(shù)據(jù)在進(jìn)行存儲(chǔ)之前,按照公司特定的業(yè)務(wù)場(chǎng)景設(shè)計(jì)匹配度最高的數(shù)據(jù)存儲(chǔ)模型。數(shù)據(jù)存儲(chǔ)模型設(shè)計(jì)可以分為粒度和分層的選取衔憨。
粒度劃分標(biāo)準(zhǔn)
- 時(shí)間范圍的擴(kuò)大和縮小作為劃分的標(biāo)準(zhǔn)
- 空間范圍作為粒度的劃分標(biāo)準(zhǔn)
- 數(shù)據(jù)的智能程度作為劃分的標(biāo)準(zhǔn)
數(shù)據(jù)分層存儲(chǔ)
數(shù)據(jù)分層按照從采集叶圃、加工、應(yīng)用逐步上升的方式分為四層巫财。
臨時(shí)存儲(chǔ)層:原始數(shù)據(jù)存儲(chǔ)層盗似,通常為最原始的采集數(shù)據(jù),比如埋點(diǎn)數(shù)據(jù)平项、業(yè)務(wù)數(shù)據(jù)庫(kù)同步數(shù)據(jù)赫舒,這一層的包含的信息是最全面的,但需要進(jìn)行挖掘產(chǎn)出闽瓢。
數(shù)據(jù)倉(cāng)庫(kù)層:數(shù)據(jù)在這一層次中按照模型進(jìn)行數(shù)據(jù)的的加工接癌、存儲(chǔ),通常會(huì)進(jìn)行數(shù)據(jù)的清洗扣讼,數(shù)據(jù)的一致性處理(數(shù)據(jù)去重缺猛、去噪、數(shù)據(jù)補(bǔ)全椭符、數(shù)據(jù)剔除等)荔燎。同時(shí)數(shù)據(jù)字段的命名和格式遵循一定的規(guī)劃。
數(shù)據(jù)集市層:核心數(shù)據(jù)層销钝,該層存儲(chǔ)的數(shù)據(jù)不在是明細(xì)數(shù)據(jù)有咨,是在上一層的數(shù)據(jù)基礎(chǔ)上,經(jīng)過數(shù)據(jù)的匯總滿足具體業(yè)務(wù)的需求來進(jìn)行數(shù)據(jù)的組織蒸健。
分析應(yīng)用層:分析應(yīng)用層通過是在多個(gè)數(shù)據(jù)主題集市域上匯總的數(shù)據(jù)座享,比如公司的核心報(bào)表,通過是在各個(gè)業(yè)務(wù)線的核心數(shù)據(jù)上進(jìn)行構(gòu)建的似忧。
數(shù)據(jù)存儲(chǔ)介質(zhì)
- HDFS 分布式文件存儲(chǔ)渣叛。存儲(chǔ)數(shù)據(jù)量大、高可靠盯捌、存儲(chǔ)成本低淳衙。訪問延遲大、不利于存儲(chǔ)大量小文件饺著、不支持多用戶操作
- 關(guān)系型數(shù)據(jù)庫(kù)滤祖。數(shù)據(jù)存儲(chǔ)空間有限,數(shù)據(jù)達(dá)到一定量級(jí)的時(shí)候需要進(jìn)行分庫(kù)分表瓶籽。
- NoSQL數(shù)據(jù)庫(kù)。
第四章 數(shù)據(jù)訪問
數(shù)據(jù)訪問方式分為正排索引訪問和倒排索引訪問埂材。正排索引是按照主鍵的方式進(jìn)行數(shù)據(jù)的訪問塑顺,通常Redis、HBase等相關(guān)存儲(chǔ)都是這樣的數(shù)據(jù)訪問方式,另外一種常用的訪問方式是倒排訪問严拒,是指按照某些字段的屬性值來訪問數(shù)據(jù)的方式扬绪,過濾出數(shù)據(jù)中是杭州地區(qū)女性的用戶數(shù)據(jù),通常這樣的數(shù)據(jù)存儲(chǔ)到ElasticSearch中裤唠。
數(shù)據(jù)訪問評(píng)估
數(shù)據(jù)訪問通臣放#可以按照查準(zhǔn)率(準(zhǔn)確率)和查全率(召回率)來進(jìn)行評(píng)估,查詢的條件越精確种蘸,準(zhǔn)確率越高墓赴,但相應(yīng)的召回率會(huì)降低。通過需要在這二者中取得一個(gè)平衡航瞭,學(xué)術(shù)界經(jīng)常用F值來進(jìn)行評(píng)估
F=(a2+1)PR/a2(P+R)诫硕,其中P為準(zhǔn)確率(Precision),R為召回率(Recall )刊侯,a為參數(shù)值章办,a2為a的平方。通常a取值為1滨彻,即我們常說的F1值藕届。
提升訪問效率
- 索引方式。查詢盡量走索引亭饵,通過模糊查詢是不走索引的休偶,比如<> 、!=冬骚、not椅贱、in、like等只冻,另外一些額外函數(shù)也不會(huì)走索引庇麦,比如select * from substr(a) = ‘a(chǎn)’,當(dāng)查詢條件中有多組組合時(shí)也不會(huì)走索引喜德,比如or關(guān)鍵字關(guān)聯(lián)的多個(gè)過濾條件山橄。
- in方式改為exists方式。select * from a where a.id in (select b.id from b)改為select * from a exists (select b.id from b where b.id = a.id)
- 復(fù)制表結(jié)果不要采用額外消耗性能的方式舍悯。create table a as select * from b where 1 != 0
第五章 生命周期模型
生命周期模型常常用來衡量用戶航棱、商戶、公司活動(dòng)的生長(zhǎng)規(guī)律的一種描述信息萌衬。生命周期模型描述了實(shí)體從開始到結(jié)束的各個(gè)階段的狀態(tài)變更饮醇,人們通過掌握各個(gè)階段的變化狀況來整合評(píng)估實(shí)體的健康狀態(tài),下面我們從用戶生命周期和商戶生命周期模型來介紹有關(guān)的概念秕豫、運(yùn)營(yíng)策略和價(jià)值朴艰,用于精準(zhǔn)刻畫用戶和商業(yè)平臺(tái)的動(dòng)態(tài)關(guān)系观蓄。
用戶生命周期模型
用戶生命周期一般按照順序可以分為考察期、形成期祠墅、發(fā)展期侮穿、成熟期、衰退期和流失期毁嗦。運(yùn)營(yíng)活動(dòng)的目的是盡可能延遲用戶的生命周期亲茅,我們可以通過流失率或者留存率來判斷一個(gè)用戶的平均生命周期。
用戶生命周期=1/(1- 留存率)
比如某個(gè)平臺(tái)的月留存率為50%狗准,我們可以計(jì)算出用戶生命周期1/(1-0.5)=2月克锣。
用戶生命價(jià)值
盈利=用戶生命價(jià)值-用戶獲取成本-運(yùn)營(yíng)成本
通過從三個(gè)方面來看用戶的生命價(jià)值,分別是用戶數(shù)驶俊、留存率娶耍、客單價(jià)。我們可以分別為留存率饼酿、增加率榕酒、客單價(jià)建立相關(guān)機(jī)器學(xué)習(xí)模型,來判斷哪些用戶的留存率高故俐,比如資料完善的用戶相對(duì)于不完善的用戶留存率要高很高想鹰,運(yùn)營(yíng)人員可以推廣活動(dòng)促使用戶完善個(gè)人資料信息。
商戶生命周期模型
商戶生命周期模型分為孕育期药版、發(fā)展期辑舷、成熟期、維持期槽片、瓶頸期
孕育期:有利用拓展平臺(tái)的品類何缓,提高用戶感受服務(wù)的覆蓋率。
發(fā)展期:用戶流量開始增加还栓,有利用用戶引流碌廓,提升用戶的體驗(yàn)。
成熟期:有充足的用戶剩盒,有利于為平臺(tái)帶來收益谷婆。
維持期:已經(jīng)有大量的活躍用戶,平臺(tái)可以借助這些活躍用戶拓展其他品類商品的銷售辽聊,提高整個(gè)平臺(tái)的盈利能力纪挎。
瓶頸期:商戶的發(fā)展遇到了瓶頸,這時(shí)候更多的是幫助平臺(tái)去總結(jié)分析遇到的問題跟匆,借鑒經(jīng)驗(yàn)异袄,找到解決方案
第六章 RFM模型
產(chǎn)品的更迭和運(yùn)營(yíng)活動(dòng)的持續(xù)開展,常常需要對(duì)整個(gè)一段周期內(nèi)的策略運(yùn)作做評(píng)估玛臂。根據(jù)最新的模型評(píng)估效果進(jìn)行下一階段新的策略制定隙轻。RFM模型在傳統(tǒng)營(yíng)銷行業(yè)得到了廣泛的應(yīng)用實(shí)踐埠帕,提供了一套通用的框架對(duì)用戶的生命周期行為進(jìn)行合理的解釋。
Recency:表示用戶最近一段消費(fèi)實(shí)踐距離現(xiàn)在有多遠(yuǎn)
Frequency:表示用戶最近一段時(shí)間的消費(fèi)次數(shù)
Monetary:表示用戶最近一段時(shí)間的消費(fèi)金額
上面所說的一段時(shí)間常常要結(jié)合具體的產(chǎn)品形態(tài)玖绿,有些低頻的商業(yè)活動(dòng)選取的時(shí)間需要相對(duì)長(zhǎng)一些,比如一個(gè)季度甚至一年叁巨。根據(jù)三個(gè)維度的劃分斑匪,我們可以得到一系列的方格。R1F1M1表示高質(zhì)量?jī)r(jià)值用戶锋勺。運(yùn)營(yíng)人員可以真對(duì)特定的人群開展最適配的運(yùn)營(yíng)方案蚀瘸,驅(qū)動(dòng)整個(gè)運(yùn)營(yíng)活動(dòng)和產(chǎn)品設(shè)計(jì)朝著公司當(dāng)前時(shí)期重點(diǎn)關(guān)注的指標(biāo)上來。
RFM模型在傳統(tǒng)企業(yè)具有很強(qiáng)的針對(duì)性庶橱,當(dāng)今的互聯(lián)網(wǎng)時(shí)代上傳統(tǒng)的RFM模型就顯得有點(diǎn)格格不入贮勃。如果每個(gè)維度細(xì)分為5個(gè)區(qū)間,那一共就有125個(gè)方格苏章,代表125個(gè)不同的人群寂嘉,如果更進(jìn)一步新分,用戶群里會(huì)急劇膨脹枫绅。有如下集中方式可以解決此類問題
- 聚類分析泉孩,不再簡(jiǎn)單的按照維度進(jìn)行區(qū)分,設(shè)計(jì)合適的距離函數(shù)來對(duì)用戶群里進(jìn)行聚類并淋,把有限的資源投入到潛力更大寓搬、影響力更高的用戶群里上來。
- 降維處理县耽【渑纾可以按照一定的系數(shù)累加各個(gè)指標(biāo)的影響力,最終綜合得到一個(gè)低維兔毙,乃至一維的指標(biāo)
用戶行為分析
RFM的群里劃分也給我們提供了一種新的視角來研究用戶的行為軌跡和挖掘用戶價(jià)值唾琼。 - 定格分析法。瞄定一個(gè)具體的象限瞒御,分析這個(gè)象限人群的屬性情況父叙,挖掘出近期哪些屬性對(duì)用戶的轉(zhuǎn)化有巨大的影響
- 時(shí)間演化分析。選取一個(gè)具體的人群肴裙,按照時(shí)間的維度來跟蹤這批用戶的活動(dòng)動(dòng)向趾唱,找出影響這些用戶行為差異化背后的用戶標(biāo)簽。