基于Apache-doris怎么構建數(shù)據(jù)中臺(七)-數(shù)據(jù)指標管理

指標體系定義

指標體系是將零散單點的具有相互聯(lián)系的指標,系統(tǒng)化的組織起來,通過單點看全局椅贱,通過全局解決單點的問題。它主要由指標和體系兩部分組成只冻。

指標是指將業(yè)務單元細分后量化的度量值庇麦,它使得業(yè)務目標可描述、可度量喜德、可拆解山橄,它是業(yè)務和數(shù)據(jù)的結合,是統(tǒng)計的基礎舍悯,也是量化效果的重要依據(jù)航棱。

指標主要分為結果型和過程型:

  • 結果型指標 用于衡量用戶發(fā)生某個動作后所產(chǎn)生的結果,通常是延后知道的萌衬,很難進行干預饮醇。結果型指標更多的是監(jiān)控數(shù)據(jù)異常,或者是監(jiān)控某個場景下用戶需求是否被滿足
  • 過程型指標 用戶在做某個動作時候所產(chǎn)生的指標秕豫,可以通過某些運營策略來影響這個過程指標朴艰,從而影響最終的結果,過程型指標更加關注用戶的需求為什么被滿足或沒被滿足

體系是由不同的維度組成混移,而維度是指用戶觀察祠墅、思考與表述某事物的“思維角度”,維度是指標體系的核心歌径,沒有維度毁嗦,單純說指標是沒有任何意義的。

維度主要分為定性維度和定量維度回铛,定性維度狗准,主要是偏文字描述類如城市芯急、性別、職業(yè)等;定量維度驶俊,主要是數(shù)值類描述如收入娶耍、年齡等,對定量維度需要做數(shù)值分組處理

什么是數(shù)據(jù)指標

不是所有的數(shù)據(jù)都叫指標饼酿,指標必須對業(yè)務有參考價值榕酒。數(shù)據(jù)指標是針對業(yè)務需求,使用收集手段故俐,直接獲得或者間接計算出來的一系列統(tǒng)計數(shù)據(jù)想鹰。

數(shù)據(jù)指標貫穿整個設計流程,解釋用戶行為和業(yè)務變化药版,為設計提供依據(jù)辑舷,對結果加以驗證

數(shù)據(jù)指標是數(shù)據(jù)化管理的核心內容之一,從事數(shù)據(jù)工作的同學相信都經(jīng)歷過以下場景:

  • 經(jīng)營分析匯報會上槽片,產(chǎn)品和運營的匯報內容都包含了App MAU指標何缓,但是數(shù)據(jù)卻不一樣,老板:“什么情況还栓,誰的數(shù)據(jù)是準的碌廓!”
  • 數(shù)據(jù)可視化平臺上,經(jīng)營概況頁面上有一個指標叫券后營收剩盒,營銷概況有一個指標叫優(yōu)惠券抵扣營收谷婆,兩個指標什么關系呢,數(shù)據(jù)相同(指標口徑一樣辽聊,名稱不一樣)纪挎。
  • 數(shù)據(jù)產(chǎn)品上很多指標看名稱并不理解指標含義,指標文檔維護跟匆、線下傳播异袄,想確認一個指標的統(tǒng)計邏輯要幾經(jīng)周轉。

指標管理模塊核心包括基礎信息和技術信息管理贾铝,衍生信息包括關聯(lián)指標隙轻、關聯(lián)應用管理」缚基礎信息對應的就是指標的業(yè)務信息,由業(yè)務人員填寫敛瓷,主要包括指標名稱叁巨、業(yè)務分類、統(tǒng)計頻率呐籽、精度锋勺、單位蚀瘸、指標類型、指標定義庶橱、計算邏輯贮勃、分析方法、影響因素苏章、分析維度等信息寂嘉;基礎信息中還有一個比較重要的部分是監(jiān)控配置,主要是配置指標的有效波動范圍區(qū)間枫绅、同環(huán)比波動區(qū)間等泉孩,監(jiān)控指標數(shù)據(jù)的正常運行。

技術信息構成比較復雜并淋,包括數(shù)據(jù)類型寓搬、指標代碼,但是核心部分是指標與模型的綁定關系县耽,通過使用演進形成了當前系統(tǒng)兩類綁定關系:綁定物理模型和構建虛擬模型句喷。綁定物理模型是指標與模型管理中的物理模型字段綁定,并配置對應的計算公式兔毙,或還包含一些額外的高級配置脏嚷,如二次計算、模型過濾條件等瞒御;創(chuàng)建虛擬模型是通過已有指標和其對應的物理模型父叙,具體步驟首先配置已有指標的計算方式或指標維度的過濾,然后選擇指標已綁定的物理模型肴裙,形成一個虛擬模型趾唱,虛擬模型的分析維度就是所選指標基礎模型的公共維度。

衍生信息中的關聯(lián)指標蜻懦、關聯(lián)應用管理甜癞,是為了方便觀察指標被那些其他指標和數(shù)據(jù)應用使用,這是因為指標技術信息采用了嚴格權限控制宛乃,一旦被使用為了保證線上的運行安全是禁止變更的悠咱,只有解綁并審核通過后才可以編輯,所以這些衍生信息就是方便管理人員使用

為什么需要數(shù)據(jù)指標體系

img
  1. 相同指標名稱征炼,口徑不一致
  2. 相同口徑析既,指標名稱不一致
  3. 不同限定詞,描述相同事實過程的指標谆奥,相同事實部分口徑不一致
  4. 指標口徑描述不一致
  5. 指標命名難以理解
  6. 指標數(shù)據(jù)來源及計算邏輯描述不清楚
img

1. 同名不同義

指標名稱相同眼坏,統(tǒng)計口徑不一致,缺少命名規(guī)范限制酸些。

不同業(yè)務僅從自己部門出發(fā)宰译,缺少全局視角檐蚜,如財務口徑的營收要嚴格按照嚴謹?shù)倪壿嬘嬎銓嵤諏嵏兜拿恳环皱X,而產(chǎn)品/運營端則更多考慮轉化效果沿侈,但在各自的KPI監(jiān)控報表中闯第,都把指標命名為營收。

2. 同義不同名

指標統(tǒng)一邏輯一致缀拭,但不同產(chǎn)品命名不一致咳短,不同階段、或不同業(yè)務方/產(chǎn)品經(jīng)理對指標命名不同智厌,導致在不同數(shù)據(jù)產(chǎn)品頁面诲泌,同一指標不同名。

3. 口徑不清晰

只是同義詞再復述一遍铣鹏,如活躍用戶數(shù):訪問用戶數(shù)敷扫。

4. 命名難理解

表意不清模棱兩可,或過于專業(yè)化僅指標創(chuàng)建人才可以懂诚卸。例如轉化率指標葵第,有創(chuàng)單轉化率、成單轉化率合溺,直接叫轉化率可讀性就非常差卒密。

5. 邏輯不準確

指標口徑描述有誤,例如UV指標棠赛,口徑描述為“按照設備ID去重”哮奇,實際上不同平臺去重邏輯并不一致,如微信小程序按照UnionID去重睛约、APP按照DeviceID去重鼎俘,PC和H5按照loginkey去重。

6. 數(shù)據(jù)難追溯

數(shù)據(jù)產(chǎn)品指標數(shù)據(jù)來源缺少直觀的鏈路追蹤能力辩涝,指標數(shù)據(jù)異常問題排查通過翻代碼去看數(shù)據(jù)來源贸伐,路徑長、耗時久怔揩,早上業(yè)務反饋指標問題捉邢,排查出結論后可能一上午就過去了。

7. 數(shù)據(jù)質量差

指標管理常見的問題綜合在一起商膊,往往會導致業(yè)務對數(shù)據(jù)指標的信任度大打折扣伏伐,發(fā)現(xiàn)數(shù)據(jù)波動后,第一反應是先和數(shù)據(jù)部門確認數(shù)據(jù)是不是有問題翘狱,而不是去考慮業(yè)務上有何變動

數(shù)據(jù)指標的構成

img

數(shù)據(jù)指標的組成:

img
img

數(shù)據(jù)指標體系構建方法論

img
img

數(shù)據(jù)指標管理系統(tǒng)設計思路

img

1)建立指標生產(chǎn)協(xié)同機制秘案,指標的誕生要經(jīng)過需求申請、審核潦匈、數(shù)據(jù)開發(fā)阱高、上線應用流程,收口指標創(chuàng)建過程茬缩,避免指標建設的隨意性帶來的“污染”赤惊。

2)制定指標命名、口徑說明規(guī)范凰锡,按照原子指標+業(yè)務限定+統(tǒng)計維度的方式未舟,將規(guī)則集成到平臺內,通過系統(tǒng)規(guī)則來把控指標輸出掂为。

3)指標字典線上化裕膀,解決線下文檔管理指標存在的共享難、更新不及時勇哗、權限管控缺失等問題昼扛。

4)指標數(shù)據(jù)邏輯綁定,即除了維護指標的業(yè)務元數(shù)據(jù)外欲诺,還要建立指標的技術元數(shù)據(jù)抄谐,指標數(shù)據(jù)從哪個模型、哪個字段扰法、何種計算邏輯得到蛹含。

5)指標輸出,指標管理最大的價值還是為數(shù)據(jù)產(chǎn)品提供數(shù)據(jù)輸出

指標系統(tǒng)數(shù)據(jù)開發(fā)塞颁,是指標的統(tǒng)一入口浦箱,通過定義原子、派生和復合指標祠锣,明確指標業(yè)務口徑和技術口徑酷窥,解決指標定義不一致、口徑不一致和數(shù)據(jù)來源不一致的問題锤岸,實現(xiàn)規(guī)范定義竖幔,助力數(shù)據(jù)模型規(guī)范設計。

  1. 指標按業(yè)務過程劃分主題管理(最多支持兩級)
  2. 指標定義(原子指標是偷、派生指標拳氢,符合指標)
  3. 指標修飾詞管理
  4. 指標查看:查看指標定義,指標數(shù)據(jù)生產(chǎn)鏈路蛋铆、指標關聯(lián)數(shù)據(jù)表馋评,指標使用(后續(xù)支持單個指標接口無代碼訪問)

數(shù)據(jù)指標管理的名字解釋

img

指標主題域管理

指標主題域的構建是根據(jù)業(yè)務過程來創(chuàng)建,和數(shù)倉主題域管理感念一致刺啦,統(tǒng)一采用一套叫數(shù)據(jù)主題域留特,沒有指標主題域這個概念,指標是掛在某個數(shù)據(jù)主題域下。

指標修飾詞管理

修飾詞是統(tǒng)計維度以外指標的業(yè)務場景限定抽象蜕青,修飾詞屬于一種修飾類型苟蹈,如在日志域的訪問終端類型下,有修飾詞APP右核、PC端等

提供統(tǒng)一的指標修飾詞管理維護慧脱。

指標管理

包括基礎信息、技術信息和衍生信息贺喝,由不同角色進行維護管理菱鸥。

  • 基礎信息對應指標的業(yè)務信息,由業(yè)務管理人員躏鱼、數(shù)據(jù)產(chǎn)品或BI分析師維護氮采,主要包括歸屬信息(業(yè)務板塊、數(shù)據(jù)域染苛、業(yè)務過程)鹊漠,基本信息(指標名稱、指標英文名稱殖侵、指標定義贸呢、統(tǒng)計算法說明、指標類型(去重拢军、非去重))楞陷,業(yè)務場景信息(分析維度,場景描述)茉唉;
  • 技術信息對應指標的物理模型信息固蛾,由數(shù)據(jù)研發(fā)進行維護,主要包括對應物理表及字段信息度陆;
  • 衍生信息對應關聯(lián)派生或衍生指標信息艾凯、關聯(lián)數(shù)據(jù)應用和業(yè)務場景信息,便于用戶查詢指標被哪些其它指標和數(shù)據(jù)應用使用懂傀,提供指標血緣分析追查數(shù)據(jù)來源的能力趾诗。

原子指標定義歸屬信息 + 基本信息 + 業(yè)務場景信息

派生指標定義時間周期 + 修飾詞集合 + 原子指標

修飾類型主要包含類型說明、統(tǒng)計算法說明蹬蚁、數(shù)據(jù)源(可選)

img

指標明細

img

3.5.5 指標體系圖譜模型

數(shù)據(jù)指標建模流程

在數(shù)據(jù)指標體系搭建項目啟動前恃泪,需要與各業(yè)務方詳細了解具體業(yè)務、梳理清楚關鍵業(yè)務流程犀斋。需求采集可分為定量贝乎、定性采集兩種類型。

根據(jù)對業(yè)務需求叽粹、各個模塊的業(yè)務流程進行分析览效,進行數(shù)據(jù)域的劃分却舀。數(shù)據(jù)域劃分按照業(yè)務過程或者業(yè)務板塊的功能模塊劃分。依據(jù)實際業(yè)務過程進行歸納锤灿、抽象得出數(shù)據(jù)域挽拔。

梳理了業(yè)務域、數(shù)據(jù)域衡招、業(yè)務過程的整體框架之后篱昔,開始針對指標規(guī)范進行設計每强,完成總線矩陣設計始腾。把行為不同的業(yè)務處理過程,即事實空执,在交叉點上打上標記表示該業(yè)務處理過程與該維度相關這個矩陣浪箭,稱為總線矩陣總線架構和一致性維度、一致性事實共同組成了Kimball的多維體系結構的基礎

img

3.5.7 數(shù)據(jù)指標開發(fā)評審流程

img

3.5.8 指標生產(chǎn)及加工

提供可視化的數(shù)據(jù)指標生產(chǎn)加工管理工具辨绊,并可以監(jiān)控指標生產(chǎn)的過程奶栖,將指標的生產(chǎn)無縫的和任務調度系統(tǒng)進行融合,為數(shù)據(jù)指標的數(shù)據(jù)質量提供質量保證

img

指標生產(chǎn):

img

指標生產(chǎn)血緣關系:

img

數(shù)據(jù)指標示例

img
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末门坷,一起剝皮案震驚了整個濱河市淳地,隨后出現(xiàn)的幾起案子商模,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 206,214評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件劝评,死亡現(xiàn)場離奇詭異,居然都是意外死亡环疼,警方通過查閱死者的電腦和手機娩井,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,307評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來锦茁,“玉大人攘轩,你說我怎么就攤上這事÷肓” “怎么了度帮?”我有些...
    開封第一講書人閱讀 152,543評論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長稿存。 經(jīng)常有香客問我笨篷,道長,這世上最難降的妖魔是什么挠铲? 我笑而不...
    開封第一講書人閱讀 55,221評論 1 279
  • 正文 為了忘掉前任冕屯,我火速辦了婚禮,結果婚禮上拂苹,老公的妹妹穿的比我還像新娘安聘。我一直安慰自己痰洒,他們只是感情好,可當我...
    茶點故事閱讀 64,224評論 5 371
  • 文/花漫 我一把揭開白布浴韭。 她就那樣靜靜地躺著丘喻,像睡著了一般。 火紅的嫁衣襯著肌膚如雪念颈。 梳的紋絲不亂的頭發(fā)上泉粉,一...
    開封第一講書人閱讀 49,007評論 1 284
  • 那天,我揣著相機與錄音榴芳,去河邊找鬼嗡靡。 笑死,一個胖子當著我的面吹牛窟感,可吹牛的內容都是我干的讨彼。 我是一名探鬼主播,決...
    沈念sama閱讀 38,313評論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼柿祈,長吁一口氣:“原來是場噩夢啊……” “哼哈误!你這毒婦竟也來了?” 一聲冷哼從身側響起躏嚎,我...
    開封第一講書人閱讀 36,956評論 0 259
  • 序言:老撾萬榮一對情侶失蹤蜜自,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后卢佣,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體重荠,經(jīng)...
    沈念sama閱讀 43,441評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,925評論 2 323
  • 正文 我和宋清朗相戀三年珠漂,在試婚紗的時候發(fā)現(xiàn)自己被綠了晚缩。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,018評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡媳危,死狀恐怖荞彼,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情待笑,我是刑警寧澤鸣皂,帶...
    沈念sama閱讀 33,685評論 4 322
  • 正文 年R本政府宣布,位于F島的核電站暮蹂,受9級特大地震影響寞缝,放射性物質發(fā)生泄漏。R本人自食惡果不足惜仰泻,卻給世界環(huán)境...
    茶點故事閱讀 39,234評論 3 307
  • 文/蒙蒙 一荆陆、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧集侯,春花似錦被啼、人聲如沸帜消。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,240評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽泡挺。三九已至,卻和暖如春命浴,著一層夾襖步出監(jiān)牢的瞬間娄猫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 31,464評論 1 261
  • 我被黑心中介騙來泰國打工生闲, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留媳溺,地道東北人。 一個月前我還...
    沈念sama閱讀 45,467評論 2 352
  • 正文 我出身青樓跪腹,卻偏偏與公主長得像褂删,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子冲茸,可洞房花燭夜當晚...
    茶點故事閱讀 42,762評論 2 345

推薦閱讀更多精彩內容