? ? ? ?數(shù)據(jù)分析是所有pm評(píng)測(cè)產(chǎn)品功能策略效果的重要方法仗扬,通常pm每天起床后第一件要做的事情,就是查看數(shù)據(jù)蕾额,掌握昨天產(chǎn)品動(dòng)態(tài)早芭,并且隨時(shí)可能面臨拷問三連擊“為什么跌了?怎么修復(fù)诅蝶?什么時(shí)候修復(fù)退个?”,然后開啟分析定位問題的一天调炬。數(shù)據(jù)監(jiān)控體系作為問題分析的基石语盈,地位至關(guān)重要,筆者以推薦產(chǎn)品為例缰泡,談?wù)勅绾未_定評(píng)測(cè)指標(biāo)刀荒,建立一套完善的數(shù)據(jù)監(jiān)控體系。
? ? ? ?數(shù)據(jù)指標(biāo)體系的目的是監(jiān)督推薦系統(tǒng)是否是“一個(gè)好的推薦系統(tǒng)”棘钞,而什么是一個(gè)好的推薦系統(tǒng)缠借,根據(jù)筆者的經(jīng)驗(yàn)與理解,對(duì)“好的推薦系統(tǒng)”的定義為:“從數(shù)據(jù)算法到方案形成閉環(huán)宜猜,擁有學(xué)習(xí)更新能力泼返,滿足準(zhǔn)確性侧纯、實(shí)時(shí)性幅聘、新穎性、穩(wěn)定性要求,短期與產(chǎn)品發(fā)展階段和目標(biāo)指向一致窟坐,長(zhǎng)期穩(wěn)定健康卿啡,再拔高一點(diǎn)钠右,能形成正確價(jià)值觀的推薦系統(tǒng)”邪意。
? ? ? ?數(shù)據(jù)指標(biāo)就是將目標(biāo)拆解量化,轉(zhuǎn)化為可統(tǒng)計(jì)便于查看的數(shù)據(jù)丽蝎。她跟獨(dú)立產(chǎn)品類似猎拨,并不是由零散的字段和數(shù)據(jù)點(diǎn)構(gòu)成,需要統(tǒng)籌規(guī)劃屠阻,形成體系红省,并且根據(jù)需要不斷迭代。
? ? ? ?數(shù)據(jù)指標(biāo)體系的展示方式多樣国觉,可以利用第三方平臺(tái)吧恃,公司數(shù)據(jù)平臺(tái)或者簡(jiǎn)單的數(shù)據(jù)報(bào)表形式;更新周期通常為日更麻诀。
? ? ? ?一個(gè)好的數(shù)據(jù)指標(biāo)體系痕寓,既要有抽象指標(biāo),能快速了解整體情況蝇闭,又要有具象指標(biāo)呻率,方便初步定為問題出現(xiàn)的位置或者環(huán)節(jié),以便進(jìn)一步追蹤呻引。
? ? ? ?針對(duì)推薦系統(tǒng)礼仗,大家都熟知項(xiàng)亮在《推薦系統(tǒng)實(shí)戰(zhàn)》中講述的推薦系統(tǒng)評(píng)測(cè)十大指標(biāo):
用戶滿意度:適用的實(shí)驗(yàn)方法為用戶調(diào)查法與在線測(cè)試法,區(qū)別于統(tǒng)計(jì)指標(biāo)逻悠,度量用戶滿意度元践。
預(yù)測(cè)準(zhǔn)確度:度量一個(gè)推薦系統(tǒng)活著推薦算法預(yù)測(cè)用戶行為的能力,這個(gè)指標(biāo)時(shí)最重要的推薦系統(tǒng)離線評(píng)測(cè)指標(biāo)童谒。
覆蓋率:描述一個(gè)推薦系統(tǒng)對(duì)物品常委的發(fā)掘能力单旁,最簡(jiǎn)單的定義為推薦系統(tǒng)能夠推薦出來的物品占總物品集合的比例。
多樣性:為滿足用戶廣泛的興趣饥伊,推薦列表需要能夠覆蓋用戶不同的興趣領(lǐng)域象浑,多樣性描述了推薦列表中物品兩兩之間的不相似性。
新穎性:衡量推薦系統(tǒng)推薦用戶以前沒聽說過的物品的能力撵渡。
驚喜度:區(qū)別于新穎性融柬,指的是推薦結(jié)果和用戶歷史興趣不相似死嗦,但卻讓用戶覺得滿意的能力趋距,目前沒有什么工人的驚喜度指標(biāo)定義方法,只有一種定性的度量方式越除。
信任度:衡量推薦系統(tǒng)是否得到用戶信任节腐,增加用戶和推薦系統(tǒng)交互的能力外盯,智能通過問卷調(diào)查的方式獲得。
實(shí)時(shí)性:包括兩個(gè)方面翼雀,一是推薦系統(tǒng)需要實(shí)時(shí)地更新推薦列表來滿足用戶新的行為變化饱苟,第二方面時(shí)推薦系統(tǒng)需要能夠?qū)⑿录尤胂到y(tǒng)的物品推薦給用戶。
健壯性:度量推薦系統(tǒng)抗攻擊能力的評(píng)測(cè)指標(biāo)狼渊,通過比較攻擊前后推薦列表的相似度評(píng)測(cè)算法的健壯性箱熬。
商業(yè)目標(biāo):度量推薦系統(tǒng)服務(wù)商業(yè)盈利目標(biāo)的能力的評(píng)測(cè)指標(biāo)。
? ? ? ?這十個(gè)指標(biāo)高度的概括的推薦系統(tǒng)的衡量指標(biāo)狈邑,具有抽象性城须,需以此為基礎(chǔ),將這些指標(biāo)具化米苹,跟自己的業(yè)務(wù)糕伐、產(chǎn)品結(jié)合起來落地實(shí)現(xiàn)。
一.根據(jù)推薦系統(tǒng)架構(gòu)制定相應(yīng)指標(biāo)
? ? ? ?一個(gè)推薦系統(tǒng)蘸嘶,至少分為數(shù)據(jù)層良瞧、召回層、排序?qū)友党⒅嘏判驅(qū)右约皹I(yè)務(wù)層褥蚯。根據(jù)系統(tǒng)框架制定各層指標(biāo)是建立完善的數(shù)據(jù)指標(biāo)體系的思路。
? ? ? ?數(shù)據(jù)層拆分為用戶畫像况增、物品畫像和用戶行為數(shù)據(jù)遵岩,數(shù)據(jù)的準(zhǔn)確性、完整性不僅僅決定一個(gè)推薦系統(tǒng)是否能夠良好運(yùn)轉(zhuǎn)巡通,同時(shí)也是產(chǎn)品其他模塊以及運(yùn)營(yíng)依賴的重要底層數(shù)據(jù)尘执,針對(duì)數(shù)據(jù)層的指標(biāo)可以單獨(dú)拿出來作為一個(gè)獨(dú)立的區(qū)別于推薦系統(tǒng)、服務(wù)與整個(gè)產(chǎn)品的模塊分析宴凉,這里暫不展開誊锭。
召回層
作為物品初步過濾的模塊,最主要的衡量指標(biāo)就是召回率弥锄。
召回率:召回的相關(guān)物品/數(shù)據(jù)庫(kù)內(nèi)的相關(guān)物品總量丧靡。
? ? ? ?召回率在策略里出現(xiàn)頻率之高大家早就明白,但在實(shí)際操作過程中需要區(qū)分整體召回與各算法各數(shù)據(jù)庫(kù)的召回籽暇。
? ? ? ?召回層會(huì)應(yīng)用到多種方法以及策略温治,每一種方法和策略都需要對(duì)應(yīng)的召回率,以此衡量每種算法的召回能力戒悠。
? ? ? ?物品在進(jìn)入推薦系統(tǒng)之前已經(jīng)根據(jù)不同維度的特征劃分至不同的物品庫(kù)內(nèi)熬荆,例如地域庫(kù)、新庫(kù)绸狐、熱庫(kù)等卤恳,每個(gè)庫(kù)的商品召回情況也需要監(jiān)控累盗。
覆蓋率:除召回率,仍需考慮召回商品的全面性突琳,可利用用戶畫像的用戶興趣特征與召回商品分類目分品牌匹配對(duì)比若债,衡量推薦召回商品的豐富程度。下文會(huì)提到拆融,召回率覆蓋率等指標(biāo)貫穿整個(gè)策略始終蠢琳,不僅可以衡量離線數(shù)據(jù),線上同樣需要镜豹。
排序?qū)?/b>
排序?qū)訉?duì)物品進(jìn)行打分排序挪凑,是純粹依賴算法的排序,會(huì)應(yīng)用到大量機(jī)器學(xué)習(xí)深度學(xué)習(xí)算法逛艰,評(píng)測(cè)指標(biāo)是算法特有的躏碳,應(yīng)用于模型的不同環(huán)節(jié),其最終目的仍然是衡量算法模型對(duì)物品排序的準(zhǔn)確率散怖,常見的指標(biāo)有:
AUC:統(tǒng)計(jì)和機(jī)器學(xué)習(xí)里面重要模型評(píng)價(jià)指標(biāo)菇绵,只能用于而分類模型的評(píng)價(jià),不過對(duì)于類似LR等對(duì)物品打分的回歸模型镇眷,本質(zhì)作用還是分類咬最,依然使用auc,auc值等于roc曲線下面積欠动,完全隨機(jī)狀態(tài)下永乌,auc值=0.5。
MAE:即平均絕對(duì)誤差具伍,計(jì)算預(yù)測(cè)評(píng)分和真實(shí)評(píng)分的差異翅雏。
RMSE:即均方根誤差,與MAE思路類似人芽,對(duì)每個(gè)絕對(duì)誤差首先做了平方望几,所以對(duì)比較大的絕對(duì)誤差有更重的懲罰。
重排序?qū)樱?/b>
? ? ? ?排序?qū)邮抢盟惴▽?duì)召回物品進(jìn)行打分排序萤厅,完全依賴算法的排序并不一定完全符合業(yè)務(wù)要求與用戶體驗(yàn)橄抹,例如:當(dāng)前排序結(jié)果是否滿足用戶體驗(yàn)的新穎性,是否滿足各類物品的均衡性惕味,是否符合當(dāng)前產(chǎn)品發(fā)展階段某些流量?jī)A斜策略楼誓。重排序就是在當(dāng)前排序的基礎(chǔ)上對(duì)排序進(jìn)行調(diào)整,以滿足以上目的名挥。常用做法有打散疟羹、去重、部分物品打壓降權(quán)或者提升加權(quán)、隨機(jī)等阁猜。
排序的目的重點(diǎn)在算法預(yù)估準(zhǔn)確,重排序的目的重點(diǎn)在用戶體驗(yàn)蹋艺。
新穎性:借助用戶畫像剃袍,用戶興趣特征,如興趣品牌捎谨、類目以及其他興趣標(biāo)簽與非興趣商品對(duì)比民效,衡量推薦系統(tǒng)挖掘用戶潛在興趣的能力。這里的指標(biāo)也是指離線指標(biāo)涛救。
業(yè)務(wù)層:
? ? ? ?業(yè)務(wù)層是推薦產(chǎn)品直面用戶的第一線畏邢,推薦系統(tǒng)將結(jié)果呈現(xiàn)給用戶,收集用戶信息检吆,接受用戶反饋舒萎,從而不斷調(diào)整自己的計(jì)算,實(shí)現(xiàn)自我更新的閉環(huán)蹭沛。
? ? ? ?推薦系統(tǒng)最終目的指向業(yè)務(wù)臂寝,所以推薦系統(tǒng)的大部分指標(biāo)體系都在業(yè)務(wù)層體現(xiàn)。數(shù)據(jù)指標(biāo)體系的框架也由業(yè)務(wù)邏輯演化而來摊灭,如產(chǎn)品的核心指標(biāo)咆贬,活躍留存等,如漏斗模型帚呼,它廣泛的應(yīng)用與流量監(jiān)控掏缎、產(chǎn)品目標(biāo)轉(zhuǎn)化等日常數(shù)據(jù)監(jiān)控工作,同樣適用于推薦系統(tǒng)煤杀,將各數(shù)據(jù)分層監(jiān)控眷蜈。以電商行業(yè)為例,用戶訪問推薦產(chǎn)品模塊是轉(zhuǎn)化的第一步沈自,購(gòu)買是轉(zhuǎn)化的最終目的端蛆。
? ? ? ?轉(zhuǎn)化漏斗:訪問-點(diǎn)擊-收藏/加車-購(gòu)買。每一層都可以從pv酥泛、uv量拆分今豆,如有必要可監(jiān)控用戶或者物品去重?cái)?shù)據(jù)。
? ? ? ?將這些維度的數(shù)據(jù)交叉統(tǒng)計(jì)柔袁,獲得所需要的數(shù)據(jù)呆躲。
推薦整體指標(biāo):活躍、留存捶索。
規(guī)模指標(biāo):pv插掂、uv、商品曝光、點(diǎn)擊數(shù)量等辅甥。
轉(zhuǎn)化率指標(biāo):點(diǎn)擊轉(zhuǎn)化率酝润、收藏轉(zhuǎn)化率、加車轉(zhuǎn)化率璃弄、下單轉(zhuǎn)化率要销。其中純商品維度的曝光點(diǎn)擊數(shù)據(jù),即ctr夏块,是推薦產(chǎn)品重要監(jiān)控?cái)?shù)據(jù)疏咐。
質(zhì)量指標(biāo):人均點(diǎn)擊商品數(shù)、人均收藏商品數(shù)脐供、人均加車數(shù)量浑塞、人均訂單量、人均gmv政己、客單價(jià)酌壕。
推薦數(shù)據(jù)與全站數(shù)據(jù)對(duì)比指標(biāo):推薦點(diǎn)擊占全站點(diǎn)擊比例、推薦訂單占全站訂單比例歇由、推薦gmv占全站gmv比例仅孩。
針對(duì)問題重點(diǎn)監(jiān)控指標(biāo):如無(wú)點(diǎn)擊行為占比等。
線上消耗資源情況指標(biāo):資源消耗占比等印蓖。
在召回層以及排序?qū)犹岬降母采w率與新穎性指標(biāo)辽慕,線上依然需要。
覆蓋率指標(biāo)(線上):按照商品類目赦肃、品牌分別統(tǒng)計(jì)線上消耗與商品庫(kù)內(nèi)數(shù)量對(duì)比溅蛉,監(jiān)控推薦系統(tǒng)是否有效避免馬太效應(yīng),是一個(gè)穩(wěn)定全面他宛,可以長(zhǎng)期發(fā)展的健康系統(tǒng)船侧。
新穎性指標(biāo)(線上):越收越窄是推薦算法一個(gè)弊端,重排序?qū)拥碾S機(jī)策略正式為了解決算法收窄問題厅各,新穎性指標(biāo)借助用戶畫像镜撩,用戶興趣特征,如興趣品牌队塘、類目以及其他興趣標(biāo)簽與非興趣商品對(duì)比袁梗,衡量推薦系統(tǒng)新穎性。
其他指標(biāo):打擊低俗內(nèi)容指標(biāo)憔古,反作弊指標(biāo)等遮怜。
? ? ? ?指標(biāo)的定義也是不斷優(yōu)化完善的,以點(diǎn)擊率為例鸿市,一個(gè)用戶點(diǎn)擊進(jìn)入商品詳情頁(yè)锯梁,迅速返回即碗,與點(diǎn)擊進(jìn)入詳情頁(yè),瀏覽至最底部陌凳,其行為反應(yīng)用戶對(duì)此商品的興趣程度是不一樣的剥懒,前者屬于無(wú)效點(diǎn)擊,后者則為有效點(diǎn)擊合敦,計(jì)算點(diǎn)擊率時(shí)使用的是后者行為初橘,視頻行業(yè)如youtube,已經(jīng)在迭代中將“點(diǎn)擊播放行為”更改為“有效瀏覽行為”蛤肌,數(shù)據(jù)采集和指標(biāo)制定的準(zhǔn)確度壁却,可見一斑批狱。
然后確定數(shù)據(jù)維度
時(shí)間維度:天裸准,月
用戶維度:高價(jià)值用戶推薦數(shù)據(jù),非高價(jià)值用戶推薦數(shù)據(jù)赔硫、新用戶推薦數(shù)據(jù)炒俱、老用戶推薦數(shù)據(jù)等。
終端維度:ios爪膊、安卓权悟、小程序、h5推盛、pc
二.單一指標(biāo)與綜合指標(biāo)
? ? ? ?當(dāng)衡量指標(biāo)非常多的情況下峦阁,制定核心指標(biāo)與輔助指標(biāo)是一種指標(biāo)分層的方法。
? ? ? ?以電商行業(yè)為例耘成,雖然最終目的是購(gòu)買榔昔,影響購(gòu)買的因素太多,非推薦系統(tǒng)所能單獨(dú)影響瘪菌,因此一般把點(diǎn)擊層指標(biāo)作為核心指標(biāo)撒会,也就是大家非常熟悉的CTR。核心指標(biāo)的選取并不是固定不變的师妙,也可選取其他指標(biāo)作為衡量標(biāo)準(zhǔn)诵肛,據(jù)筆者所知,很多公司也會(huì)選取例如“人均點(diǎn)擊次數(shù)”或者“推薦點(diǎn)擊占全站點(diǎn)擊比例”作為衡量推薦效果默穴,指導(dǎo)優(yōu)化迭代的核心指標(biāo)怔檩。任意一層或者模塊都可以制定核心指標(biāo)與輔助指標(biāo)。
? ? ? ?但同樣應(yīng)該明確蓄诽,推薦系統(tǒng)非常復(fù)雜珠洗,任何單一指標(biāo)都很難作為衡量推薦系統(tǒng)好壞的指標(biāo),需要結(jié)合全部指標(biāo)進(jìn)行綜合評(píng)估若专。
三.長(zhǎng)期指標(biāo)與短期指標(biāo)
? ? ? 長(zhǎng)期指標(biāo)與短期指標(biāo)反應(yīng)的是推薦系統(tǒng)的長(zhǎng)期目標(biāo)與短期目標(biāo)许蓖,例如長(zhǎng)期目標(biāo)是提升活躍度,保證推薦系統(tǒng)健康運(yùn)轉(zhuǎn),短期目標(biāo)為提升轉(zhuǎn)化膊爪,把數(shù)據(jù)做起來自阱。不同的目標(biāo)對(duì)應(yīng)不同的策略,指標(biāo)也要相應(yīng)調(diào)整米酬。
四.數(shù)據(jù)指標(biāo)與人工抽樣評(píng)測(cè)
? ? ? ?數(shù)據(jù)指標(biāo)再詳細(xì)沛豌,都無(wú)法替代人工抽樣評(píng)測(cè)。根據(jù)曹博士的頭條算法分享中提到的幾點(diǎn)很好的陳述的理由赃额。
?線上試驗(yàn)平臺(tái)智能通過指標(biāo)變化推測(cè)用戶體驗(yàn)
?數(shù)據(jù)指標(biāo)和用戶體驗(yàn)存在差異
?重要改進(jìn)需要人工評(píng)估二次確認(rèn)
? ? ? ?已經(jīng)以上步驟加派,一個(gè)初步的數(shù)據(jù)指標(biāo)體系就搭建好了,可以開始愉快的分析工作了跳芳。但這項(xiàng)工作并非一勞永逸的事情芍锦,后續(xù)仍然需要不斷的優(yōu)化完善,路漫漫飞盆,盡求索娄琉。
參考:
《推薦系統(tǒng)實(shí)踐》
《推薦系統(tǒng)評(píng)級(jí)指標(biāo)綜述_朱郁筱》
《今日頭條推薦算法原理全文詳解》
蕭飯飯,搜索推薦產(chǎn)品經(jīng)理吓歇,WX:xiao-xiao1991孽水,歡迎大家一同探討,共同進(jìn)步~