|0x00 數(shù)據(jù)資產(chǎn)的重要性
在最近幾年的業(yè)務(wù)發(fā)展中讼育,數(shù)據(jù)都是各大公司建設(shè)的“寵兒”,幾乎所有的業(yè)務(wù)都圍繞數(shù)據(jù)展開沃缘,其重要性堪比信息化時代的“石油”舅锄。因此鞭达,大多數(shù)的公司都會建設(shè)自己的數(shù)據(jù)資產(chǎn)平臺,一方面是為了做一些諸如統(tǒng)一數(shù)據(jù)口徑一類的基礎(chǔ)工作皇忿,另一方面也是為了深入挖掘數(shù)據(jù)的價值畴蹭,為企業(yè)帶來高額的利潤回報。
回看過去的發(fā)展歷史鳍烁,圍繞著數(shù)據(jù)的采集叨襟、建設(shè)、管理和應(yīng)用幔荒,已經(jīng)基本形成了體系化的建設(shè)方法糊闽。運營在做定價的時候,需要數(shù)據(jù)的支持铺峭;財務(wù)在評估預(yù)算的時候墓怀,需要數(shù)據(jù)的支持汽纠;法務(wù)在判定風險時卫键,同樣需要數(shù)據(jù)的支持…… 同時,隨著企業(yè)發(fā)展的進行虱朵,數(shù)據(jù)口徑的統(tǒng)一需要對數(shù)據(jù)進行治理莉炉;成本的管理需要對數(shù)據(jù)進行治理钓账;支持業(yè)務(wù)的增多需要對數(shù)據(jù)進行治理…… 凡此種種,當我們?nèi)鄙倭藬?shù)據(jù)資產(chǎn)門戶的時候絮宁,很多的治理和查詢工作梆暮,便很容易產(chǎn)生亂子。
某些意義上绍昂,數(shù)據(jù)資產(chǎn)的整理啦粹,是一種“臟活累活”,需要持續(xù)的維護和迭代窘游,但做好之后唠椭,其發(fā)揮的價值,也是非常大的忍饰,只不過這種價值需要依附于別的項目才能體現(xiàn)出來贪嫂。
因此,本文簡單介紹一種整理數(shù)據(jù)資產(chǎn)的方法艾蓝,供大家交流力崇,篇幅不長,介紹思路更多一些赢织。
|0x01 數(shù)據(jù)的整理
其實數(shù)據(jù)的整理亮靴,用“運營”的思路來講,更像是“品類規(guī)劃”于置。只有把類目和索引做到了台猴,全局層面便有了可視化的基礎(chǔ),后續(xù)資產(chǎn)的整理和歸類俱两,也會有科學(xué)的指引饱狂。
像比較大一點的互聯(lián)網(wǎng)公司,業(yè)務(wù)通常不是單一的宪彩,因此如何仿照類目的思路休讳,將一、二尿孔、三級索引做好俊柔,就是一個關(guān)鍵點和難點。
從消費者的視角活合,可以根據(jù)行為偏好雏婶、互動行為、個人屬性白指、社交關(guān)系等方面構(gòu)建類目留晚,行為偏好又可以分為購買行為、點擊行為告嘲、瀏覽行為错维,等等奖地;從業(yè)務(wù)的視角,可以根據(jù)電商赋焕、金融参歹、社交、媒體等業(yè)務(wù)屬性構(gòu)建類目隆判,電商又可以分為B2C犬庇、C2C、B2B2C等不同的業(yè)務(wù)模式侨嘀;從部門的視角械筛,又可以根據(jù)XX事業(yè)部這種方式來建設(shè),然后一級一級細分到具體負責的團隊飒炎÷裼矗總之,根據(jù)某一種分類的原則郎汪,將一二三級類目做完整赤赊,通常情況下可以很快的定位到需要的數(shù)據(jù)。
當然煞赢,只有類目也是不行的抛计,這時候支持一個基本的搜索功能,將業(yè)務(wù)名照筑、表名吹截、字段名、屬性名等做成模糊匹配的方法凝危,供用戶搜索和查詢波俄,便可以支持絕大多數(shù)的自行查詢場景。
當然蛾默,因為表或者字段的展示格式都是固定的懦铺,因此搜索的結(jié)果可以做到非常的美觀,配合手工打上的標簽支鸡,90%以上的場景都可以支持用戶自定義查詢冬念。
總結(jié)一下,資產(chǎn)的導(dǎo)航牧挣,適合以“類目”的方式進行組織急前,以搜索的方式配合使用,展示的接口以樹形最佳瀑构,配合標簽等個性化的內(nèi)容裆针,可以最大程度上滿足查詢訴求。
|0x02 數(shù)據(jù)的獲取和使用
當用戶查詢到需要使用的數(shù)據(jù)時,下一步便是如何獲取和使用數(shù)據(jù)据块。在通常的技術(shù)場景下码邻,研發(fā)的同學(xué)只需要申請對應(yīng)的表權(quán)限既可以獲得折剃。
但現(xiàn)在是有三種情況另假,我們需要分別看獲取的方式:
一種是這種數(shù)據(jù)不適合直接開放底表,因為權(quán)限隔離的緣故怕犁,不能把所有權(quán)限開放出去边篮,這時候就需要有資產(chǎn)分離的功能,也就是根據(jù)適用范圍申請數(shù)據(jù)奏甫;
一種是非技術(shù)的同學(xué)申請戈轿,通常直接給一個表也是不知道怎么用的,可能給一個數(shù)據(jù)看板阵子,或者是申請一個數(shù)據(jù)集思杯,更合適一些,非研發(fā)的同學(xué)挠进,可以使用報表工具自行配置色乾。當然這種場景可以支持的數(shù)據(jù)查詢能力會比較有限,需要盡可能的將報表的門戶建設(shè)做好之后领突,再開放出去暖璧;
一種是有明確數(shù)據(jù)安全場景的訴求,比如最近剛出臺的“個保法”君旦,對于用戶隱私的數(shù)據(jù)監(jiān)管非常嚴格澎办,這時候就需要配套有對應(yīng)的法務(wù)審批或者是其他的數(shù)據(jù)安全接口人審批,這里的流程也是要單獨設(shè)置的金砍。
但不論哪種方式局蚀,都少不了完善的數(shù)據(jù)使用流程,這其實是屬于“流程管理”的范疇恕稠,系統(tǒng)通常會默認指定審批人至会,但如果有特殊的需要,比如“個保法”谱俭,通常也需要能夠自行設(shè)定審批流程奉件。
總結(jié)一下,數(shù)據(jù)的獲取昆著,根據(jù)場景和使用人的不同县貌,提供數(shù)據(jù)表、字段或者是報表等多種方式凑懂,同時要配合有相應(yīng)的權(quán)限審批和資產(chǎn)分離的功能煤痕。
|0xFF 數(shù)據(jù)的治理
數(shù)據(jù)的治理也是一項比較重要但繁瑣的工作。因為數(shù)據(jù)資產(chǎn)的錄入,通常是人來維護的摆碉,那么相同的指標塘匣,錄入多次的時候,用戶以哪次為準呢巷帝?這就是最典型維護難題忌卤,因此,在錄入或者自動更新數(shù)據(jù)的時候楞泼,提供一些提示性的功能驰徊,或者通過“精品”、“臨時”等標簽予以區(qū)分堕阔,也是一種可行的思路棍厂。
因而,通常情況下超陆,技術(shù)提供的公共資產(chǎn)牺弹,一般以公共層的數(shù)據(jù)為準,只有明確使用場景的情況下时呀,ADS才會被提供出來张漂。
接下來,就是針對龐大的數(shù)據(jù)資產(chǎn)退唠,構(gòu)建自動化的診斷和分析功能了鹃锈,關(guān)于如何用數(shù)據(jù)來治理資產(chǎn),參考個人之前的文章《數(shù)據(jù)資產(chǎn)治理概要:用數(shù)據(jù)來治理數(shù)據(jù)》瞧预。標準化的治理之前屎债,通常需要有全局的數(shù)據(jù)資產(chǎn)視圖,才能制定出明確的目標垢油、范圍和結(jié)果盆驹。
最后,數(shù)據(jù)資產(chǎn)的使用滩愁,通常也是需要有穩(wěn)定性的治理躯喇,比如每個表或者某一份數(shù)據(jù),更新的頻率硝枉、每次更新的時間等廉丽,都需要有說明提供給使用者,而開發(fā)來維護顯然是不現(xiàn)實的妻味,因此通過監(jiān)控Hadoop集群的運行結(jié)果來自動更新正压,就是一種不錯的方法。同時责球,一些執(zhí)行明顯偏慢但又使用者非常多的數(shù)據(jù)焦履,也可以有相應(yīng)的預(yù)警郵件提供給使用者拓劝。
數(shù)據(jù)資產(chǎn)的管理,底層也是基于數(shù)倉建模嘉裤、數(shù)據(jù)平臺郑临、元數(shù)據(jù)標準、質(zhì)量監(jiān)控等基礎(chǔ)的機制屑宠,配合組織的審批厢洞、管理等標準,最終才能服務(wù)于頂層戰(zhàn)略侨把。