數(shù)據(jù)cpjl修煉手冊3

3.5 數(shù)據(jù)管理系統(tǒng)

在對業(yè)務預測時桂躏,我們需要建立合適的模型,把歷史數(shù)據(jù)輸入模型中川陆,進行預測剂习,然后與真實數(shù)據(jù)對比,不斷參數(shù)調優(yōu)改進模型较沪。這時候鳞绕,數(shù)據(jù)的準確性和完整性等因素確實很重要。如果數(shù)據(jù)質量出現(xiàn)問題尸曼,就會導致結果偏差很大们何,甚至是錯誤的,也就是所謂的“垃圾進控轿,垃圾出”

從各方面把控數(shù)據(jù)質量冤竹,前面介紹的建立指標字典就是保障數(shù)據(jù)可讀性的基礎拂封。如果數(shù)據(jù)的可讀性非常差,就會浪費很多的時間來分析數(shù)據(jù)鹦蠕,更嚴重的是在大數(shù)據(jù)平臺中冒签,難以滿足各種業(yè)務應用場景下的需求與決策支持。

在過去钟病、現(xiàn)在和未來镣衡,無論影響數(shù)據(jù)質量的因素發(fā)生什么樣的變化,保證數(shù)據(jù)質量永遠都是業(yè)務使用必須解決的問題档悠。因此,對于數(shù)據(jù)產(chǎn)品經(jīng)理來說望浩,建立一個數(shù)據(jù)管理系統(tǒng)辖所,對公司的業(yè)務發(fā)展顯得至關重要

3.5.1數(shù)據(jù)管理系統(tǒng)的質量檢測

數(shù)據(jù)管理系統(tǒng)側重于從時效性和數(shù)據(jù)一致性兩大質量方向保證數(shù)據(jù)的可讀性磨德。

1.數(shù)據(jù)倉庫的數(shù)據(jù)時效性檢查

明確每天的每一個層級缘回、每一個數(shù)據(jù)表的最早和最晚生成時間,發(fā)現(xiàn)影響當天數(shù)據(jù)生成延誤的數(shù)據(jù)表典挑,并能夠通過數(shù)據(jù)管理系統(tǒng)回答以下問題:

當天MySQL表和Hive表中的核心指標是何時生成的酥宴?

有哪些表的產(chǎn)出時間比預期時間延遲了

任務延遲的原因是由哪幾張表造成的您觉?

瓶頸在哪里拙寡?優(yōu)化哪幾層?哪幾張表可以提高核心指標等的生成時間琳水?

2.數(shù)據(jù)倉庫的數(shù)據(jù)一致性檢查

通過數(shù)據(jù)一致性檢查肆糕,在數(shù)據(jù)質量視圖的展現(xiàn)下,我們可以快速了解存在依賴關系的數(shù)據(jù)表的分維度數(shù)據(jù)變化情況在孝。

因此诚啃,大數(shù)據(jù)管理系統(tǒng)項目需要做的事情主要分為以下幾步:

第一步,建立數(shù)據(jù)依賴引擎私沮,實現(xiàn)依賴圖譜始赎。依賴圖譜用于構建數(shù)據(jù)倉庫表之間的分層級依賴關系,然后存入MySQL表并能支持可視化展現(xiàn)仔燕。

第二步造垛,計算數(shù)據(jù)準備情況。各個表涨享、各個分區(qū)的數(shù)據(jù)準備就緒時間按天筋搏、小時級進行匯總。根據(jù)Hive 倉庫的Meta信息可以獲取Hive表各個分區(qū)的創(chuàng)建時間厕隧,根據(jù)創(chuàng)建時間確定數(shù)據(jù)的實效性奔脐,用來分析展現(xiàn)每天俄周、每小時的狀態(tài)和瓶頸。如果需要對MySQL進行驗證則通過SQL語句查詢的方式獲取對應時間在MySQL中是否存在髓迎。

第三步峦朗,建立數(shù)據(jù)計算引擎。根據(jù)定義的小時級指標排龄、天級別指標規(guī)則波势,結合數(shù)據(jù)表各個分區(qū)的準備就緒時間,調用Spark SQL計算核心指標橄维。

第四步尺铣,建立數(shù)據(jù)比較引擎。根據(jù)表和表之間核心指標的關系争舞、表和表之間的規(guī)則進行比較驗證凛忿。例如,A==B竞川,A+B==C店溢,B/A < 0.95等邏輯判斷。

3.5.2數(shù)據(jù)管理系統(tǒng)的功能

數(shù)據(jù)管理系統(tǒng)的功能主要分為數(shù)據(jù)流管理委乌、任務管理床牧、數(shù)據(jù)管理三大功能。

數(shù)據(jù)流管理遭贸,也可以叫血緣分析戈咳。單從字面上來看,它屬于一種數(shù)據(jù)關系的分析壕吹,用來解釋數(shù)據(jù)之間相互影響的一種描述除秀。數(shù)據(jù)流管理,對于當前大數(shù)據(jù)背景下的數(shù)據(jù)治理具有十分重要的意義算利,它能讓你快速了解數(shù)據(jù)組成結構册踩,并制定有效的管理方式。

例如效拭,有一天暂吉,我們發(fā)現(xiàn)大數(shù)據(jù)分析平臺某個業(yè)務指標的數(shù)據(jù)沒有產(chǎn)出,就要去查看到底哪里出了問題缎患,是數(shù)據(jù)集市里的表慕的、主題層的表還是基礎層的表出了問題。而在更多的時候挤渔,數(shù)據(jù)集市的表會依賴多張表肮街,那么這個排查問題的過程就會變得很麻煩,而且很浪費時間判导。

數(shù)據(jù)血緣關系會首先通過指標對應的庫表關系嫉父,找出它所屬的表沛硅,再根據(jù)計算關系找到計算過程中與它有關聯(lián)的表,最終把整個鏈路上的相關表展現(xiàn)出來绕辖。

任務管理會對每天的任務執(zhí)行情況進行管理摇肌,展現(xiàn)每張表的任務完成時間、任務延時情況以及延時的原因等仪际,一旦任務出現(xiàn)問題围小,可以快速聯(lián)系到數(shù)據(jù)表的負責人。同時树碱,能夠方便查看每張表的依賴關系肯适、完成時長的歷史情況以及表的字段信息,讓整個大數(shù)據(jù)分析平臺變得清晰易懂

數(shù)據(jù)管理功能會展現(xiàn)數(shù)據(jù)倉庫表的信息成榜,包括所屬數(shù)據(jù)庫疹娶、存儲類型、負責人伦连、產(chǎn)出狀態(tài)、數(shù)據(jù)庫地址钳垮、標簽惑淳、備注、所屬業(yè)務組等饺窿,并可進行查看和編輯操作歧焦。

以上只是數(shù)據(jù)管理系統(tǒng)應該具備的最基礎的三大功能,還可以加入數(shù)據(jù)接入中的集群管理功能肚医、數(shù)據(jù)指標字典管理等绢馍。

四、大數(shù)據(jù)分析平臺實踐

隨著公司業(yè)務的不斷發(fā)展肠套,公司會積累大量各種類型的數(shù)據(jù)舰涌,這些海量數(shù)據(jù)如果沒有得到有效的分析和利用,那么便不會對業(yè)務產(chǎn)生該有的價值你稚。

通過大數(shù)據(jù)分析平臺的名字就可以看出瓷耙,它是由大數(shù)據(jù)+分析構成的,其實在大數(shù)據(jù)出現(xiàn)之前刁赖,BI(Business Intelligence搁痛,商業(yè)智能)就已經(jīng)存在很久了,兩者是緊密關聯(lián)的宇弛、相輔相成的鸡典。

在大數(shù)據(jù)時代,企業(yè)會積累大量的數(shù)據(jù)枪芒,有前端的埋點數(shù)據(jù)彻况,也有各種業(yè)務數(shù)據(jù)谁尸,通過前面介紹的數(shù)據(jù)倉庫和大數(shù)據(jù)管理系統(tǒng)等方式,已經(jīng)可以對數(shù)據(jù)進行有效的存儲和管理了疗垛。然而症汹,這些海量的數(shù)據(jù)并沒有得到有效的統(tǒng)計分析和展現(xiàn),并沒有對業(yè)務形成有價值的數(shù)據(jù)支撐贷腕。

5.1 大數(shù)據(jù)分析平臺應用實戰(zhàn)

按照大數(shù)據(jù)分析平臺的版本迭代路線背镇,講一下大數(shù)據(jù)分析平臺建設的四個階段:可拓展的報表分析平臺(V1.0版本)、自助式分析平臺(V2.0版本)泽裳、智能化分析平臺(V3.0版本)瞒斩、業(yè)務場景分析平臺(V4.0版本)

5.1.1可拓展的報表分析平臺

提起報表分析平臺涮总,很多人還停留在后端接口查詢數(shù)據(jù)庫數(shù)據(jù)胸囱、前端頁面展現(xiàn)數(shù)據(jù)這種傳統(tǒng)的定制化的報表分析平臺上。確實瀑梗,公司在業(yè)務規(guī)模不大和人力不足的情況下烹笔,可以實現(xiàn)這種原始的報表分析平臺,更準確地說抛丽,應該是指標展現(xiàn)頁面谤职。可是亿鲜,這種傳統(tǒng)的方式太定制化了允蜈,沒有任何的可拓展性,如果增加一個指標蒿柳,前端和后端代碼修改的成本都比較高饶套,可以毫不夸張地說,前者就像還停留在冷兵器時代的軍隊垒探,只能招兵買馬妓蛮、堆積人力,辛苦和艱難程度可想而知圾叼。

為了提高大數(shù)據(jù)分析平臺的可擴展性仔引,終于找到了用實現(xiàn)QueryAdapter的方式解決問題,具體的方式就是通過前端配置JSON褐奥,并在API層下添加QueryAdapter層把API的接口翻譯成相應的SQL咖耘,然后通過SQL查詢具體的數(shù)據(jù)庫,進一步提高前端的擴展性和報表的靈活性撬码。上面的這一過程可以用如圖5-2所示的架構實現(xiàn)儿倒。

5.1.2自助式分析平臺

隨著業(yè)務人員的需求的多樣性不斷增加,數(shù)據(jù)分析師和產(chǎn)品經(jīng)理的業(yè)務需求應接不暇,而且有很大的溝通成本夫否,面對上面的痛點彻犁,就需要為業(yè)務人員實現(xiàn)一個他們自己能夠快速、方便搭建報表的平臺凰慈。

自助式分析功能主要包含創(chuàng)建數(shù)據(jù)源汞幢、創(chuàng)建單圖、創(chuàng)建看板

5.1.3智能化分析平臺

一個完善的大數(shù)據(jù)分析平臺微谓,不僅僅是單純展現(xiàn)數(shù)據(jù)的森篷,更不是一些業(yè)務常用報表的羅列,還要能夠為數(shù)據(jù)分析師豺型、業(yè)務人員提供更多對數(shù)據(jù)的洞察仲智,讓數(shù)據(jù)更加智能化。例如姻氨,可以支持對數(shù)據(jù)進行多維度下鉆钓辆、單圖之間數(shù)據(jù)聯(lián)動、對數(shù)據(jù)異常點進行標注肴焊、指標異常檢測等功能前联,可以讓使用人員方便、快捷地分析更精細的業(yè)務場景娶眷,實現(xiàn)從更多維度的數(shù)據(jù)出發(fā)去了解業(yè)務似嗤,讓數(shù)據(jù)發(fā)揮更立體的價值。

5.1.3業(yè)務場景分析平臺

大數(shù)據(jù)分析平臺要更方便地服務于不同的業(yè)務場景進行數(shù)據(jù)分析茂浮,整理數(shù)據(jù)報告是數(shù)據(jù)分析師必不可少的工作,無論是周報壳咕、月報席揽,還是新版本表現(xiàn)的分析報告,都需要在圍繞報告目標的基礎上谓厘,對數(shù)據(jù)整理幌羞、分析并提煉要點,最后形成一份有指導意義竟稳、易讀且美觀的數(shù)據(jù)報告属桦。而這些報告,就是每個業(yè)務場景都會沉淀下來的一套固定的分析思路和分析架構他爸,這套固定的分析架構就可以放在平臺上實現(xiàn)聂宾,例如渠道分析、用戶留存分析诊笤、用戶活躍分析及日常的周月報等系谐。通過分析模板,我們可以方便、智能地查看分析數(shù)據(jù)纪他,提高效率鄙煤。

5.2移動端大數(shù)據(jù)平臺

對于一款移動端大數(shù)據(jù)分析平臺而言,我們可以從產(chǎn)品定位茶袒、數(shù)據(jù)內容梯刚、產(chǎn)品結構、整體架構設計薪寓、其他一些局部細節(jié)問題等方面考慮設計亡资。

1.產(chǎn)品定位

首先,它主要滿足管理層和各方業(yè)務人員看數(shù)據(jù)的需求预愤,因為這里面有一部分人經(jīng)常出差在外沟于,比較依賴于移動端獲取信息。

2.數(shù)據(jù)內容

數(shù)據(jù)內容一般都是根據(jù)每個公司的業(yè)務情況設計的植康,即用戶以什么樣的思路使用旷太,看什么樣的數(shù)據(jù)。數(shù)據(jù)內容決定了產(chǎn)品如何組織目錄結構销睁,決定了產(chǎn)品業(yè)務上的指標架構供璧。

3.產(chǎn)品結構

移動端的大數(shù)據(jù)分析平臺,由于屏幕尺寸和操作的限制冻记,要注意頁面的樣式和一些控件是與PC端很不一樣的睡毒,主要以展現(xiàn)為主、操作為輔冗栗,要注意產(chǎn)品的功能性和易用性演顾。在設計上,要遵循“Less is more”的原則隅居,化繁為簡钠至,讓用戶快速高效地獲取數(shù)據(jù)。

4.整體架構設計

系統(tǒng)的導航結構和頁面的基本元素胎源,構成了大數(shù)據(jù)分析平臺的實體和結構棉钧。

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市涕蚤,隨后出現(xiàn)的幾起案子宪卿,更是在濱河造成了極大的恐慌,老刑警劉巖万栅,帶你破解...
    沈念sama閱讀 207,113評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件佑钾,死亡現(xiàn)場離奇詭異,居然都是意外死亡烦粒,警方通過查閱死者的電腦和手機次绘,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,644評論 2 381
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人邮偎,你說我怎么就攤上這事管跺。” “怎么了禾进?”我有些...
    開封第一講書人閱讀 153,340評論 0 344
  • 文/不壞的土叔 我叫張陵豁跑,是天一觀的道長。 經(jīng)常有香客問我泻云,道長艇拍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,449評論 1 279
  • 正文 為了忘掉前任宠纯,我火速辦了婚禮卸夕,結果婚禮上,老公的妹妹穿的比我還像新娘婆瓜。我一直安慰自己快集,他們只是感情好,可當我...
    茶點故事閱讀 64,445評論 5 374
  • 文/花漫 我一把揭開白布廉白。 她就那樣靜靜地躺著个初,像睡著了一般。 火紅的嫁衣襯著肌膚如雪猴蹂。 梳的紋絲不亂的頭發(fā)上院溺,一...
    開封第一講書人閱讀 49,166評論 1 284
  • 那天,我揣著相機與錄音磅轻,去河邊找鬼珍逸。 笑死,一個胖子當著我的面吹牛聋溜,可吹牛的內容都是我干的谆膳。 我是一名探鬼主播,決...
    沈念sama閱讀 38,442評論 3 401
  • 文/蒼蘭香墨 我猛地睜開眼勤婚,長吁一口氣:“原來是場噩夢啊……” “哼摹量!你這毒婦竟也來了涤伐?” 一聲冷哼從身側響起馒胆,我...
    開封第一講書人閱讀 37,105評論 0 261
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎凝果,沒想到半個月后祝迂,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,601評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡器净,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 36,066評論 2 325
  • 正文 我和宋清朗相戀三年型雳,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 38,161評論 1 334
  • 序言:一個原本活蹦亂跳的男人離奇死亡纠俭,死狀恐怖沿量,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情冤荆,我是刑警寧澤朴则,帶...
    沈念sama閱讀 33,792評論 4 323
  • 正文 年R本政府宣布,位于F島的核電站钓简,受9級特大地震影響乌妒,放射性物質發(fā)生泄漏。R本人自食惡果不足惜外邓,卻給世界環(huán)境...
    茶點故事閱讀 39,351評論 3 307
  • 文/蒙蒙 一撤蚊、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧损话,春花似錦侦啸、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,352評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至豪诲,卻和暖如春顶捷,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背屎篱。 一陣腳步聲響...
    開封第一講書人閱讀 31,584評論 1 261
  • 我被黑心中介騙來泰國打工服赎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人交播。 一個月前我還...
    沈念sama閱讀 45,618評論 2 355
  • 正文 我出身青樓重虑,卻偏偏與公主長得像,于是被迫代替她去往敵國和親秦士。 傳聞我的和親對象是個殘疾皇子缺厉,可洞房花燭夜當晚...
    茶點故事閱讀 42,916評論 2 344

推薦閱讀更多精彩內容