銀行數(shù)據(jù)倉(cāng)庫(kù)體系實(shí)踐(2)--系統(tǒng)架構(gòu)

????????UML對(duì)系統(tǒng)架構(gòu)的定義是:系統(tǒng)的組織結(jié)構(gòu)热监,包括系統(tǒng)分解的組成部分捺弦,它們的關(guān)聯(lián)性,交互孝扛,機(jī)制和指導(dǎo)原則列吼,例如對(duì)系統(tǒng)群就是定義各子系統(tǒng)的功能和職責(zé),如貸款系統(tǒng)群可能分為進(jìn)件申請(qǐng)苦始、核額寞钥、交易賬務(wù)、貸后管理陌选、管理臺(tái)等子系統(tǒng)理郑,對(duì)于系統(tǒng)就是定義各模塊的功能和層次,例如管理臺(tái)包括權(quán)限管理咨油、用戶管理您炉、交易管理、逾期管理臼勉、統(tǒng)計(jì)分析等功能邻吭。

? ? ? ?技術(shù)架構(gòu)是指從技術(shù)實(shí)現(xiàn)層面描述系統(tǒng),主要是根據(jù)系統(tǒng)架構(gòu)組成部分確定每層使用什么技術(shù)框架宴霸,例如中間件囱晴、WebService等。

? ? ? ?那對(duì)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)群具體可以分為哪些部分以及他們的具體實(shí)現(xiàn)技術(shù)如何呢瓢谢?以下是銀行數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)功能圖:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖2.1

????????1畸写、數(shù)據(jù)源:主要是指行內(nèi)交易系統(tǒng)、外部采購(gòu)或合作的第三方數(shù)據(jù)等3類氓扛、包括結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化的數(shù)據(jù)枯芬,結(jié)構(gòu)化數(shù)據(jù)主要是存儲(chǔ)在各個(gè)行內(nèi)系統(tǒng)數(shù)據(jù)庫(kù)中的表數(shù)據(jù)论笔,非結(jié)構(gòu)化數(shù)據(jù)包括圖片、語音千所、文檔等類型的數(shù)據(jù)狂魔。

????????2、數(shù)據(jù)采集:即如何將數(shù)據(jù)從數(shù)據(jù)源獲取到數(shù)據(jù)倉(cāng)庫(kù)中淫痰,就是我們常說的ETL隨著數(shù)據(jù)倉(cāng)庫(kù)功能的發(fā)展這部分不僅僅包括批量數(shù)據(jù)獲取還包括實(shí)時(shí)數(shù)據(jù)流以及數(shù)據(jù)庫(kù)數(shù)據(jù)實(shí)時(shí)采集:

? ? ? (1)?????批量采集:主要包括從數(shù)據(jù)源獲取大批量的數(shù)據(jù)最楷,這是銀行數(shù)據(jù)倉(cāng)庫(kù)主要的數(shù)據(jù)采集方式,批量采集的采集數(shù)據(jù)頻率較低待错,一般是每日凌晨獲取上一天的數(shù)據(jù)籽孙,有些場(chǎng)景也可以每小時(shí)采集一次,由于采集的數(shù)據(jù)量一般較大火俄,對(duì)數(shù)據(jù)源也有IO的影響犯建,因此不建議采集頻率太高。批量采集需要支持從關(guān)系型數(shù)據(jù)庫(kù)瓜客、內(nèi)存數(shù)據(jù)庫(kù)适瓦、文件中批量獲取并加載到數(shù)據(jù)倉(cāng)庫(kù)中。

?????????在技術(shù)實(shí)現(xiàn)中忆家,批量采集工具需要能支持多種數(shù)據(jù)源的采集和加載犹菇,批量采集可選擇的工具較多,可以采用商業(yè)化軟件如IBM的DATASTAGE以及INFORMATICA公司的INFORMATICA芽卿,也可以采用開源的SQOOP和KETTLE。也可以采用各關(guān)系型數(shù)據(jù)庫(kù)以及HADOOP自帶的文件導(dǎo)出和導(dǎo)入功能胳搞。

????????(2)?????實(shí)時(shí)采集:指實(shí)時(shí)同步源系統(tǒng)的數(shù)據(jù)庫(kù)數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)卸例,這樣可以在數(shù)據(jù)倉(cāng)庫(kù)中實(shí)時(shí)分析數(shù)據(jù)。實(shí)時(shí)采集通過專門的工具監(jiān)控源系統(tǒng)數(shù)據(jù)庫(kù)日志進(jìn)行數(shù)據(jù)同步肌毅,數(shù)據(jù)源系統(tǒng)無需改造筷转,這種采集方式針對(duì)數(shù)據(jù)統(tǒng)計(jì)時(shí)效性非常高的場(chǎng)景。

在技術(shù)實(shí)現(xiàn)中悬而,實(shí)時(shí)采集工具需要支持從多種類型數(shù)據(jù)源到多種類型目標(biāo)數(shù)據(jù)庫(kù)的實(shí)時(shí)同步呜舒,這塊商業(yè)化軟件比較成熟,如ORACLE的GOLDENGATE笨奠、IBM的InfoSphere Change Data Capture等軟件袭蝗。開源軟件中kettle也支持?jǐn)?shù)據(jù)庫(kù)實(shí)時(shí)同步,但需要在源表增加時(shí)間戳字段般婆。

????????(3)?????數(shù)據(jù)流采集:即通過Queue的方式從數(shù)據(jù)源系統(tǒng)獲得數(shù)據(jù)流消息到腥,數(shù)據(jù)倉(cāng)庫(kù)實(shí)時(shí)獲取Queue中的消息進(jìn)行實(shí)時(shí)數(shù)據(jù)流計(jì)算。這種數(shù)據(jù)采集方式也是面向統(tǒng)計(jì)時(shí)效非常高的場(chǎng)景蔚袍,需要數(shù)據(jù)源系統(tǒng)增加實(shí)時(shí)發(fā)送消息的功能乡范。

????????在技術(shù)實(shí)現(xiàn)中,由于數(shù)據(jù)流計(jì)算在互聯(lián)網(wǎng)公司使用廣泛,涌現(xiàn)出許多優(yōu)秀的開源軟件晋辆,如開源的KAFKA渠脉、ROCKETQUEUE等QUEUE工具,可以支持實(shí)時(shí)監(jiān)控文件瓶佳、數(shù)據(jù)庫(kù)的變化并將變化數(shù)據(jù)發(fā)送到QUEUE中的開源軟件FLUME连舍。對(duì)于MYSQL也可以通過BINLOG和SHYIKO監(jiān)控MYSQL日志,將數(shù)據(jù)變化發(fā)送到QUEUE中涩哟,那在商業(yè)化軟件中IBM的MQ是各銀行經(jīng)常使用的中間件索赏。

????????3、數(shù)據(jù)存儲(chǔ)/計(jì)算:數(shù)據(jù)存儲(chǔ)計(jì)算是數(shù)據(jù)倉(cāng)庫(kù)的主要功能贴彼。數(shù)據(jù)存儲(chǔ)主要指結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的按格式存儲(chǔ)潜腻,計(jì)算指基于存儲(chǔ)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)、匯總器仗、數(shù)值計(jì)算等批量處理融涣、實(shí)時(shí)流計(jì)算和復(fù)雜的機(jī)器學(xué)習(xí)。

????????實(shí)時(shí)流計(jì)算主要指對(duì)大規(guī)模流動(dòng)數(shù)據(jù)在不斷變化的過程中實(shí)時(shí)地進(jìn)行分析精钮,比如實(shí)時(shí)展示目前銀行所有轉(zhuǎn)賬的筆數(shù)和匯總金額威鹿。需要將每筆轉(zhuǎn)賬進(jìn)行不斷計(jì)算。目前在銀行中應(yīng)用場(chǎng)景還較少轨香,但隨著互聯(lián)網(wǎng)渠道的發(fā)展后續(xù)也將出現(xiàn)更多的應(yīng)用場(chǎng)景忽你。

????????機(jī)器學(xué)習(xí)是專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能臂容,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善科雳,簡(jiǎn)單來說就是通過數(shù)據(jù)來發(fā)現(xiàn)規(guī)律,累積經(jīng)驗(yàn)脓杉,并對(duì)新的數(shù)據(jù)進(jìn)行分類或預(yù)測(cè)糟秘。比如通過學(xué)習(xí)近1年的上證指數(shù)及交易量的變化來預(yù)測(cè)明天的上證指數(shù)。目前炒的人工智能球散、深度學(xué)習(xí)也是屬于機(jī)器學(xué)習(xí)范圍尿赚。目前銀行在風(fēng)控、反欺詐蕉堰、精準(zhǔn)營(yíng)銷等方面也逐步在使用多種機(jī)器學(xué)習(xí)算法來提高成功率凌净。

????????由于數(shù)據(jù)倉(cāng)庫(kù)是銀行的數(shù)據(jù)樞紐,銀行的所有業(yè)務(wù)數(shù)據(jù)都會(huì)在數(shù)據(jù)倉(cāng)庫(kù)保留嘁灯,因此數(shù)據(jù)量較大泻蚊,一般小銀行數(shù)據(jù)量在TB級(jí),股份制銀行大概在PB級(jí)丑婿,國(guó)有大銀行在ZB級(jí)性雄。因此存儲(chǔ)和計(jì)算的的可擴(kuò)展性没卸、性能都很重要。那在目前銀行中數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)和計(jì)算一般采用MPP數(shù)據(jù)庫(kù)(大規(guī)模并行數(shù)據(jù)庫(kù))和HADOOP相結(jié)合的技術(shù)方案秒旋。

????????(1)?????MPP數(shù)據(jù)庫(kù):主要是面向結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)约计、批量計(jì)算和機(jī)器學(xué)習(xí)。在HADOOP出現(xiàn)前迁筛,商用的MPP數(shù)據(jù)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)的主流技術(shù)平臺(tái)煤蚌,它使用簡(jiǎn)單,同時(shí)具有超大規(guī)模計(jì)算能力和良好的計(jì)算性能细卧、擴(kuò)展性尉桩。如TERADATA公司的TERADATA數(shù)據(jù)庫(kù)、ORACLE公司的ORACLE一體機(jī)贪庙、IBM的NETEZZA一體機(jī)蜘犁。其中TERADATA公司的TERADATA數(shù)據(jù)庫(kù)在早期是一枝獨(dú)秀,我國(guó)國(guó)有大銀行的數(shù)據(jù)倉(cāng)庫(kù)最早建立時(shí)大部分都采用了TERADATA數(shù)據(jù)庫(kù)止邮。近年來ORACLE的EXADATA市場(chǎng)占有率也逐步提升这橙,開源的MPP數(shù)據(jù)庫(kù)最有名的是由商業(yè)轉(zhuǎn)為開源GREENPLUM,目前騰訊云的TIBASE导披、阿里云的HybridDB for PostgreSQL都是基于GREENPLUM優(yōu)化的屈扎。

????????(2)?????HADOOP平臺(tái):HADOOP平臺(tái)支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算。由于MPP數(shù)據(jù)庫(kù)價(jià)格高撩匕,且擴(kuò)展性也有一定局限鹰晨。很難滿足互聯(lián)網(wǎng)公司超大數(shù)據(jù)量及非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算需求,因此HADOOP軟件生態(tài)體系應(yīng)運(yùn)而生并發(fā)展越來越成熟滑沧,成為互聯(lián)網(wǎng)公司大數(shù)據(jù)處理的標(biāo)配平臺(tái)并村。2015年左右,隨著HADOOP平臺(tái)的完善及商用(商用版本如華為滓技、星環(huán)科技;開源版本如CLOUDERA棚潦、Hortonworks)令漂,銀行也逐步使用HADOOP平臺(tái)和MPP數(shù)據(jù)一起作為數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)和計(jì)算平臺(tái)。其中批量計(jì)算一般使用HIVE和SPARK丸边,流計(jì)算一般使用STORM和SPARKSTREAMING叠必,機(jī)器學(xué)習(xí)可以采用HADOOP生態(tài)的SPARKMLLIB、MAHOUT妹窖,也可以使用TENSORFLOW纬朝、SAS、R等支持HADOOP平臺(tái)專門的機(jī)器學(xué)習(xí)工具骄呼,目前許多公司在研發(fā)推出的人工智能平臺(tái)(機(jī)器學(xué)習(xí)建模平臺(tái))也都把HADOOP平臺(tái)作為數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)共苛,如第四范式判没、星環(huán)科技等。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖2.2

????????4隅茎、數(shù)據(jù)服務(wù):數(shù)據(jù)服務(wù)主要指如何為銀行其它系統(tǒng)提供數(shù)據(jù)服務(wù)澄峰,隨著數(shù)據(jù)倉(cāng)庫(kù)體系的發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)不僅僅能按批量的方式提供數(shù)據(jù)計(jì)算結(jié)果辟犀,還可以實(shí)時(shí)提供數(shù)據(jù)服務(wù)俏竞。

????????(1)?????批量接口:按約定的接口方式將數(shù)據(jù)批量提供給數(shù)據(jù)應(yīng)用系統(tǒng),一般每天1次堂竟,可以按文件的方式放到約定的服務(wù)器魂毁,也可以通過數(shù)據(jù)采集部分提到的ETL工具直接將數(shù)據(jù)同步到應(yīng)用系統(tǒng)的數(shù)據(jù)庫(kù)中。

????????(2)?????在線查詢:提供實(shí)時(shí)查詢的接口出嘹,并發(fā)布到銀行交易總線席楚,由其他業(yè)務(wù)系統(tǒng)或數(shù)據(jù)系統(tǒng)實(shí)時(shí)調(diào)用,比如銀行的每年的賬單總結(jié)(類似支付寶每年賬單)一般由數(shù)據(jù)倉(cāng)庫(kù)根據(jù)每個(gè)客戶1年的交易流水疚漆,統(tǒng)計(jì)出轉(zhuǎn)賬酣胀、消費(fèi)、收入等數(shù)據(jù)并提供給渠道系統(tǒng)如手機(jī)銀行娶聘、網(wǎng)上銀行進(jìn)行展示闻镶。那在技術(shù)實(shí)現(xiàn)方面,接口服務(wù)開發(fā)一般按各行的開發(fā)規(guī)范來實(shí)現(xiàn)丸升,如web service或http+xml铆农,大部分銀行使用JAVA進(jìn)行開發(fā),如果接口TPS不高狡耻,一般的MPP數(shù)據(jù)庫(kù)也足夠支持墩剖,無需進(jìn)行數(shù)據(jù)移動(dòng),如果TPS比較高夷狰,可以將數(shù)據(jù)加工結(jié)果放到HADOOP HBASE進(jìn)行數(shù)據(jù)存儲(chǔ)和查詢岭皂。

????????(3)?????實(shí)時(shí)同步:實(shí)時(shí)同步主要是實(shí)時(shí)數(shù)據(jù)流計(jì)算后將結(jié)果實(shí)時(shí)同步給數(shù)據(jù)使用系統(tǒng),同時(shí)將結(jié)果發(fā)布到QUEUE中沼头,由目標(biāo)系統(tǒng)進(jìn)行訂閱爷绘,實(shí)時(shí)獲取。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖2.3

????????5进倍、數(shù)據(jù)應(yīng)用:數(shù)據(jù)應(yīng)用主要是將數(shù)據(jù)通過數(shù)據(jù)服務(wù)提供給各應(yīng)用系統(tǒng)土至,由各系統(tǒng)進(jìn)行數(shù)據(jù)分析和成果展示。那主要有以下幾類:

????????(1)?????數(shù)據(jù)應(yīng)用系統(tǒng):主要指使用數(shù)據(jù)的系統(tǒng)猾昆,在銀行包括客戶關(guān)系管理陶因、管理會(huì)計(jì)、績(jī)效管理垂蜗、新資本協(xié)議系統(tǒng)群等數(shù)據(jù)系統(tǒng)楷扬,也包括核心解幽、貸款等交易系統(tǒng)。

????????(2)?????報(bào)表平臺(tái):報(bào)表平臺(tái)能將數(shù)據(jù)快速展示成圖表毅否、能通過建立數(shù)據(jù)立方體(CUBE)提供數(shù)據(jù)鉆取(向上或向下變換數(shù)據(jù)分析維度)功能,方便業(yè)務(wù)人員快速查詢和分析數(shù)據(jù)。那報(bào)表工具目前商用的比較成熟,展示也更美觀,常見的有COGNOS、潤(rùn)乾報(bào)表炫刷、TABLEAU等锄奢,開源的報(bào)表工具功能較弱书在,常用的有birt、ireport甚垦、jasperreport、KYLIN(基于hadoop建立CUBE)等侄非。

????????(3)?????分析探索:有的銀行也叫數(shù)據(jù)實(shí)驗(yàn)室或分析集市骇钦,主要指提供給業(yè)務(wù)人員自行分析的平臺(tái)窥翩,銀行業(yè)務(wù)部門的分析人員經(jīng)常使用SQL自行分析數(shù)據(jù),也會(huì)使用SAS或R鳞仙、PYTHON進(jìn)行數(shù)據(jù)挖掘寇蚊,隨著AI技術(shù)的深入,也逐步在嘗試TENSORFLOW等深度學(xué)習(xí)的工具來分析銀行數(shù)據(jù)棍好。由于數(shù)據(jù)分析工作時(shí)間不固定仗岸,且消耗計(jì)算資源較大,因此一般都是單獨(dú)給業(yè)務(wù)人員搭建一套或多套的分析環(huán)境借笙,每套環(huán)境包括HADOOP或數(shù)據(jù)庫(kù)作為數(shù)據(jù)存儲(chǔ)扒怖,SAS、R业稼、TENSORFLOW等作為分析引擎盗痒。同時(shí)還需要定期(一般T+1)更新分析環(huán)境的數(shù)據(jù),提高數(shù)據(jù)分析的及時(shí)性低散。

????????6俯邓、調(diào)度平臺(tái):調(diào)度平臺(tái)主要進(jìn)行各數(shù)據(jù)采集骡楼、加載、計(jì)算作業(yè)的任務(wù)編排和自動(dòng)運(yùn)行稽鞭,比如并行調(diào)度作業(yè)A鸟整、B、C朦蕴,都結(jié)束后調(diào)度作業(yè)D篮条;調(diào)度平臺(tái)需要支持多操作系統(tǒng)、可運(yùn)行多種類型腳本或程序梦重,并具有良好的擴(kuò)展性和可用性兑燥,調(diào)度平臺(tái)不僅僅調(diào)度數(shù)據(jù)倉(cāng)庫(kù)的加工作業(yè),也需要調(diào)度各數(shù)據(jù)類系統(tǒng)的數(shù)據(jù)處理任務(wù)琴拧。使各系統(tǒng)作業(yè)能無縫銜接降瞳,將數(shù)據(jù)從源系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)、到數(shù)據(jù)應(yīng)用系統(tǒng)和數(shù)據(jù)結(jié)果應(yīng)用全流程串聯(lián)起來蚓胸。一般的銀行的調(diào)度平臺(tái)每天調(diào)度的作業(yè)上萬個(gè)挣饥,一些大行每天調(diào)度任務(wù)數(shù)十萬個(gè),因此一個(gè)穩(wěn)定沛膳、高效扔枫、易操作的調(diào)度系統(tǒng)不可缺少。目前調(diào)度工具比較多锹安,商業(yè)化的有IBM CONTROL-M短荐、先進(jìn)數(shù)通的MOIA等,開源的如azkaban叹哭、OOZIE等忍宋,由于調(diào)度系統(tǒng)需要調(diào)度各系統(tǒng)并和行內(nèi)的監(jiān)控系統(tǒng)進(jìn)行集成,因此實(shí)施時(shí)需要一定的客戶化工作风罩。

????????7糠排、運(yùn)維監(jiān)控:主要對(duì)數(shù)據(jù)倉(cāng)庫(kù)體系中各系統(tǒng)進(jìn)行技術(shù)監(jiān)控以及調(diào)度作業(yè)監(jiān)控,ETL工具超升、MPP數(shù)據(jù)庫(kù)以及HADOOP體系軟件都帶有監(jiān)控工具入宦,但還是需要進(jìn)行一些客戶化工作和各銀行自有監(jiān)控體系相結(jié)合,在統(tǒng)一界面進(jìn)行監(jiān)控室琢、預(yù)警乾闰、按優(yōu)先級(jí)進(jìn)行生產(chǎn)問題處理。

????????8盈滴、數(shù)據(jù)管理:那數(shù)據(jù)倉(cāng)庫(kù)有那么多數(shù)據(jù)汹忠,我們?cè)趺粗佬枰臄?shù)據(jù)在哪里?數(shù)據(jù)質(zhì)量怎么樣?某一個(gè)數(shù)據(jù)字段發(fā)生變化會(huì)有什么影響宽菜?那就需要對(duì)數(shù)據(jù)進(jìn)行管理或者治理,數(shù)據(jù)管理就是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)竿报、數(shù)據(jù)定義铅乡、數(shù)據(jù)質(zhì)量進(jìn)行管理,確保數(shù)據(jù)的規(guī)范性烈菌、及時(shí)性阵幸、可追溯性,主要包括以下幾個(gè)方面:

????????(1)數(shù)據(jù)標(biāo)準(zhǔn):數(shù)據(jù)標(biāo)準(zhǔn)是指制定和推廣應(yīng)用統(tǒng)一的數(shù)據(jù)分類分級(jí)芽世、記錄格式及轉(zhuǎn)換等標(biāo)準(zhǔn)挚赊,簡(jiǎn)單說就是定義各數(shù)據(jù)表字段的格式及代碼值,例如貨幣種類定義10位長(zhǎng)度济瓢,其中USD表示美元荠割、CNY表示人民幣……那數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)該是銀行整體的標(biāo)準(zhǔn),適用于全行的所有系統(tǒng)旺矾,但由于各系統(tǒng)建設(shè)時(shí)已經(jīng)各有定義蔑鹦,所有一般數(shù)據(jù)標(biāo)準(zhǔn)都在數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行標(biāo)準(zhǔn)化,將各源系統(tǒng)字段代碼轉(zhuǎn)換到數(shù)據(jù)標(biāo)準(zhǔn)定義的字段代碼箕宙,即數(shù)據(jù)倉(cāng)庫(kù)的字段代碼嚎朽。那數(shù)據(jù)標(biāo)準(zhǔn)系統(tǒng)主要是定義了各字段的類型、長(zhǎng)度柬帕、精度哟忍、代碼值以及源系統(tǒng)字段代碼值轉(zhuǎn)換到數(shù)據(jù)標(biāo)準(zhǔn)代碼值的映射關(guān)系。

????????(2)元數(shù)據(jù)管理:元數(shù)據(jù)指描述數(shù)據(jù)的數(shù)據(jù)陷寝,比如數(shù)據(jù)表和數(shù)據(jù)字段的定義以及關(guān)系锅很,那在元數(shù)據(jù)中除了查詢數(shù)據(jù)倉(cāng)庫(kù)中各表和字段的定義外,最重要的還有兩個(gè)功能:血緣分析和影響分析盼铁。血緣分析指字段X是由哪些源表字段按什么規(guī)則加工而成的粗蔚,也就是說字段X的“祖宗”是誰;那影響分析指字段X變化了饶火,比如增加了字段長(zhǎng)度或字段含義發(fā)生了變化鹏控,那會(huì)影響到后續(xù)哪些字段,也就是字段X的“子孫”是誰肤寝;那這兩個(gè)功能在日常數(shù)據(jù)分析中使用較多当辐,特別是影響分析,源系統(tǒng)已采集的表結(jié)構(gòu)有變化就會(huì)需要分析影響并進(jìn)行同步修改鲤看。

????????(3)數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量是指數(shù)據(jù)的可用性缘揪、標(biāo)準(zhǔn)規(guī)范性、正確性的檢查以及數(shù)據(jù)質(zhì)量整改的管理流程。由于數(shù)據(jù)源系統(tǒng)因?yàn)槿斯や浫霕?biāo)準(zhǔn)不清晰找筝、錄入差錯(cuò)蹈垢、系統(tǒng)異常等原因?qū)е聰?shù)據(jù)差錯(cuò),例如企業(yè)類型字段應(yīng)該填寫大袖裕、中曹抬、小微3種類型,客戶經(jīng)理對(duì)認(rèn)定的標(biāo)準(zhǔn)不清晰將中型企業(yè)填寫為了大型企業(yè)急鳄。例如對(duì)公客戶地址大部分字段都沒有填寫谤民;那如何發(fā)現(xiàn)這些數(shù)據(jù)質(zhì)量問題并通過一系列流程進(jìn)行數(shù)據(jù)修改,提高數(shù)據(jù)準(zhǔn)確性和可用性就是數(shù)據(jù)質(zhì)量需要做的事情疾宏。因此數(shù)據(jù)質(zhì)量不僅僅是一個(gè)系統(tǒng)张足、許多數(shù)據(jù)檢驗(yàn)規(guī)則,還有一整套數(shù)據(jù)修改和管理的流程坎藐。

????????以下是平臺(tái)各部分的技術(shù)參考實(shí)現(xiàn)为牍,數(shù)據(jù)管理的系統(tǒng)、運(yùn)維系統(tǒng)由于客戶化程度較高就暫不提供參考:

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖2.4

? ? ? ?目前各種云平臺(tái)已經(jīng)也提供了數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)服務(wù)顺饮,那從技術(shù)功能吵聪、性能、可擴(kuò)展性上可以滿足銀行的需求兼雄,但由于銀行的用戶數(shù)據(jù)相當(dāng)敏感和重要吟逝,數(shù)據(jù)安全非常重要。短時(shí)間看赦肋,銀行數(shù)據(jù)倉(cāng)庫(kù)上共有云還不太現(xiàn)實(shí)块攒,但在銀行引入私有云及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)組件是現(xiàn)階段更可能實(shí)現(xiàn)的方式。

????????以上是銀行數(shù)據(jù)倉(cāng)庫(kù)的整體架構(gòu)佃乘,也可供其他各行業(yè)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)參考囱井,謝謝!

? ? ? ?接下來將繼續(xù)銀行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)架構(gòu)的介紹趣避,如大家有興趣可關(guān)注微信公眾號(hào):煉數(shù)士

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末庞呕,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子程帕,更是在濱河造成了極大的恐慌住练,老刑警劉巖,帶你破解...
    沈念sama閱讀 219,039評(píng)論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件愁拭,死亡現(xiàn)場(chǎng)離奇詭異讲逛,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)岭埠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,426評(píng)論 3 395
  • 文/潘曉璐 我一進(jìn)店門盏混,熙熙樓的掌柜王于貴愁眉苦臉地迎上來蔚鸥,“玉大人,你說我怎么就攤上這事许赃≈古纾” “怎么了?”我有些...
    開封第一講書人閱讀 165,417評(píng)論 0 356
  • 文/不壞的土叔 我叫張陵图焰,是天一觀的道長(zhǎng)启盛。 經(jīng)常有香客問我,道長(zhǎng)技羔,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,868評(píng)論 1 295
  • 正文 為了忘掉前任卧抗,我火速辦了婚禮藤滥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘社裆。我一直安慰自己拙绊,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,892評(píng)論 6 392
  • 文/花漫 我一把揭開白布泳秀。 她就那樣靜靜地躺著标沪,像睡著了一般。 火紅的嫁衣襯著肌膚如雪嗜傅。 梳的紋絲不亂的頭發(fā)上金句,一...
    開封第一講書人閱讀 51,692評(píng)論 1 305
  • 那天,我揣著相機(jī)與錄音吕嘀,去河邊找鬼违寞。 笑死,一個(gè)胖子當(dāng)著我的面吹牛偶房,可吹牛的內(nèi)容都是我干的趁曼。 我是一名探鬼主播,決...
    沈念sama閱讀 40,416評(píng)論 3 419
  • 文/蒼蘭香墨 我猛地睜開眼棕洋,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼挡闰!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起掰盘,我...
    開封第一講書人閱讀 39,326評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤摄悯,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后庆杜,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體射众,經(jīng)...
    沈念sama閱讀 45,782評(píng)論 1 316
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,957評(píng)論 3 337
  • 正文 我和宋清朗相戀三年晃财,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了叨橱。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片典蜕。...
    茶點(diǎn)故事閱讀 40,102評(píng)論 1 350
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖罗洗,靈堂內(nèi)的尸體忽然破棺而出愉舔,到底是詐尸還是另有隱情,我是刑警寧澤伙菜,帶...
    沈念sama閱讀 35,790評(píng)論 5 346
  • 正文 年R本政府宣布轩缤,位于F島的核電站,受9級(jí)特大地震影響贩绕,放射性物質(zhì)發(fā)生泄漏火的。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,442評(píng)論 3 331
  • 文/蒙蒙 一淑倾、第九天 我趴在偏房一處隱蔽的房頂上張望馏鹤。 院中可真熱鬧,春花似錦娇哆、人聲如沸湃累。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,996評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽治力。三九已至,卻和暖如春勃黍,著一層夾襖步出監(jiān)牢的瞬間宵统,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,113評(píng)論 1 272
  • 我被黑心中介騙來泰國(guó)打工溉躲, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留榜田,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,332評(píng)論 3 373
  • 正文 我出身青樓锻梳,卻偏偏與公主長(zhǎng)得像箭券,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子疑枯,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,044評(píng)論 2 355

推薦閱讀更多精彩內(nèi)容