引言
指標作為業(yè)務和數(shù)據(jù)的結合噪径,是數(shù)據(jù)統(tǒng)計的基礎满败,也是量化業(yè)務效果的依據(jù)降允。如何避免指標統(tǒng)計使用過程中出現(xiàn)的指標名稱混亂爆侣,指標不唯一萍程?同時做好數(shù)據(jù)有序地和有結構地分類組織和存儲,避免底層數(shù)據(jù)的重復建設兔仰,數(shù)據(jù)統(tǒng)計來源的不唯一茫负。本文重點介紹了如何根據(jù)業(yè)務過程來定義原子指標,根據(jù)原子指標和修飾詞的結合來定義相關派生指標乎赴,同時做好指標的規(guī)范命名忍法。
1、背景介紹
指標是指將業(yè)務單元細分后量化的度量值榕吼,它使得業(yè)務目標可描述饿序、可度量、可拆解羹蚣。而指標體系的搭建是最為重要的原探,將直接影響「產(chǎn)生→處理→存儲→計算→應用」的全流程。而在實際的使用過程中出現(xiàn)了以下問題:① 對于同一業(yè)務場景顽素,各部門會用不同的指標來衡量咽弦;② 對于同一指標的計算,不同的時間點去統(tǒng)計胁出,統(tǒng)計來源和方式會有差異型型。
具體來說,要做到以下幾點:1)規(guī)范維度和量度命名全蝶,確保唯一性闹蒜,命名規(guī)則要盡量做到明確、通用抑淫、易懂绷落;2)對確認維度或量度,統(tǒng)一計算口徑始苇,避免歧義嘱函;3)涵蓋盡可能多的核心維度和量度,以此為基礎推動數(shù)據(jù)建設埂蕊,確保指標字典里覆蓋的維度都可區(qū)分往弓,指標都可統(tǒng)計疏唾;4)基于指標字典,將核心維度和量度注入元數(shù)據(jù)中心函似,接入指標提取工具槐脏,后續(xù)實現(xiàn)不需要寫sql即可完成自助查詢及分析需求,搭建數(shù)據(jù)自助分析的基礎撇寞。
因此要提供標準化的顿天、共享的、數(shù)據(jù)服務能力蔑担,降低數(shù)據(jù)互通成本牌废,釋放計算、存儲啤握、人力等資源鸟缕,以消除業(yè)務和技術之痛。數(shù)據(jù)體系架構如下:
業(yè)務板塊:如果業(yè)務產(chǎn)品比較多排抬,且彼此之間的指標或者重疊性比較少的懂从,可單獨分開。
規(guī)范定義:設計出一套數(shù)據(jù)規(guī)范的命名體系蹲蒲。
模型設計:以維度建模理論為基礎番甩,基于維度建模總線架構届搁,構建一致性的維度和事實缘薛。
數(shù)據(jù)體系架構
2 指標的規(guī)范定義
指標的規(guī)范定義,以維度建模作為理論基礎卡睦,構建總線矩陣宴胧,劃分和定義數(shù)據(jù)域、業(yè)務過程么翰、維度牺汤、度量/原子指標辽旋、修飾類型浩嫌、修飾詞、時間周期补胚、派生指標等码耐。
指標的規(guī)范定義
①數(shù)據(jù)域
指面向業(yè)務分析,將業(yè)務過程或者維度進行抽象的集合溶其。其中骚腥,業(yè)務過程可以概括為一個個不拆分的行為事件,在業(yè)務過程之下瓶逃,可以定義指標束铭;維度廓块,是度量的環(huán)境,如買家下單事件契沫,買家是維度带猴。為了保障整個體系的生命力,數(shù)據(jù)域是需要抽象提煉懈万,并且長期維護更新的拴清,但不輕易變動。
②業(yè)務過程
指企業(yè)的業(yè)務活動事件会通,如口予,下單、支付涕侈、退款都是業(yè)務過程沪停。其中,業(yè)務過程不可拆分驾凶。
③時間周期
用來明確統(tǒng)計的時間范圍或者時間點牙甫,如最近30天、自然周调违、截止當日等窟哺。
④修飾類型
是對修飾詞的一種抽象劃分。修飾類型從屬于某個業(yè)務域技肩,如日志域的訪問終端類型涵蓋無線端且轨、PC端等修飾詞。
⑤修飾詞
指的是統(tǒng)計維度以外指標的業(yè)務場景限定抽象虚婿,修飾詞屬于一種修飾類型旋奢,如在日志域的訪問終端類型下,有修飾詞無線端然痊、PC端等至朗。
⑥度量/原子指標
原子指標和度量含義相同,基于某一業(yè)務事件行為下的度量剧浸,是業(yè)務定義中不可再拆分的指標锹引,具有明確業(yè)務含義的名稱,如支付金額唆香。
⑦維度
維度是度量的環(huán)境嫌变,用來反映業(yè)務的一類屬性,這類屬性的集合構成一個維度躬它,也可以稱為實體對象腾啥。維度屬于一個數(shù)據(jù)域,如地理維度(其中包括國家、地區(qū)倘待、省市等)疮跑、時間維度(其中包括年、季凸舵、月祸挪、周、日等級別內(nèi)容)贞间。
⑧維度屬性
維度屬性隸屬于一個維度贿条,如地理維度里面的國家名稱、國家ID增热、省份名稱等都屬于維度屬性整以。
⑨派生指標
派生指標=1個原子指標+多個修飾詞(可選)+時間周期【穑可以理解為原子指標業(yè)務統(tǒng)計范圍的圈定公黑。如原子指標:支付金額,最近1天海外買家支付金額則為派生指標摄咆。
派生指標又分以下三種類型:
事務型指標:是指對業(yè)務活動進行衡量的指標凡蚜。例如,新增注冊會員數(shù)吭从、訂單支付金額朝蜘,這類指標需要維護原子指標以及修飾詞,在此基礎上創(chuàng)建派生指標涩金。
存量型指標:是指對實體對象(如商品谱醇、會員)某些狀態(tài)的統(tǒng)計,例如商品總數(shù)步做、注冊會員總數(shù)副渴,這類指標需要維護原子指標以及修飾詞,在此基礎上創(chuàng)建派生指標全度,對應的時間周期一般為“歷史截止當前某個時間”煮剧。
復合型指標:是在事務性指標和存量型指標的基礎上復合成的。例如将鸵,瀏覽UV-下單買家數(shù)轉(zhuǎn)化率勉盅。復合型指標的規(guī)則:
比率型:創(chuàng)建原子指標,如CTR咨堤、瀏覽UV-下單買家數(shù)轉(zhuǎn)化率菇篡、滿意率等漩符。例如一喘,“最近1天店鋪首頁CTR”,原子指標為“CTR”,時間周期為“最近1天”凸克,修飾類型為“頁面類型”议蟆,修飾詞為“店鋪首頁”。
比例型:創(chuàng)建原子指標萎战,如百分比咐容、占比。例如蚂维,“最近1天無線支付金額占比”戳粒,原子指標為“支付金額占比”,修飾類型為“終端類型”虫啥,修飾詞為“無線”蔚约。
變化量型:不創(chuàng)建原子指標,增加修飾詞涂籽,在此基礎上創(chuàng)建派生指標苹祟。例如,“最近1天訂單支付金額上1天變化量”评雌,原子指標為“訂單支付金額”树枫, 時間周期為“最近1天”,修飾類型為“統(tǒng)計方法”景东,修飾詞為“上1天變化量”砂轻。
變化率型:創(chuàng)建原子指標,例如斤吐,“最近7天海外買家支付金額上7天變化率”舔清,原子指標為“支付金額變化率”,修飾類型為“買家地域”曲初,修飾詞為“海外買家”体谒。
統(tǒng)計型(均值、分位數(shù)等):不創(chuàng)建原子指標臼婆,增加修飾詞抒痒,在此基礎上創(chuàng)建派生指標菱阵;在修飾類型“統(tǒng)計方法”下增加修飾詞终蒂,如人均、日均肯污、行業(yè)平均等颁独。例如彩届,“自然月日均UV”,原子指標為 “UV”誓酒,修飾類型為“統(tǒng)計方法”樟蠕,修飾詞為“日均”贮聂。
3 指標管理的功能實現(xiàn)
為了實現(xiàn)指標管理,需考慮的底層信息:
指標管理功能設計
部分前臺界面展示:
原子指標功能界面
派生指標功能界面
4 數(shù)據(jù)的使用框架
在對指標進行規(guī)范定義與管理的基礎上寨辩,可以此推動底層事實表以及維表的建設吓懈,保證數(shù)據(jù)統(tǒng)計的數(shù)據(jù)源唯一以及計算口徑統(tǒng)一。同時靡狞,通過指標和修飾詞的結合耻警,便于業(yè)務人員進行自助分析與使用數(shù)據(jù),降低數(shù)據(jù)獲取的效率甸怕,從而產(chǎn)生有價值的結論甘穿,輔助決策,充分發(fā)揮數(shù)據(jù)的價值梢杭。
數(shù)據(jù)分析使用框架
總結
本文總結了如何基于業(yè)務來劃分業(yè)務過程扒磁,從而涉及對應的原子指標,在與維度結合的基礎上創(chuàng)建派生指標式曲,建設成規(guī)范統(tǒng)一的數(shù)據(jù)指標體系妨托。以此推動數(shù)據(jù)統(tǒng)計來源的唯一性,并接入指標提取工具吝羞,后續(xù)業(yè)務完成自助查詢及分析需求兰伤,搭建數(shù)據(jù)自助分析的基礎。
本書部分內(nèi)容根據(jù)阿里巴巴數(shù)據(jù)技術以及產(chǎn)品部的《大數(shù)據(jù)之路 阿里巴巴大數(shù)據(jù)實踐》讀書筆記而展開钧排,歡迎大家一起交流敦腔。