????????UML對(duì)系統(tǒng)架構(gòu)的定義是:系統(tǒng)的組織結(jié)構(gòu)热监,包括系統(tǒng)分解的組成部分捺弦,它們的關(guān)聯(lián)性,交互孝扛,機(jī)制和指導(dǎo)原則列吼,例如對(duì)系統(tǒng)群就是定義各子系統(tǒng)的功能和職責(zé),如貸款系統(tǒng)群可能分為進(jìn)件申請(qǐng)苦始、核額寞钥、交易賬務(wù)、貸后管理陌选、管理臺(tái)等子系統(tǒng)理郑,對(duì)于系統(tǒng)就是定義各模塊的功能和層次,例如管理臺(tái)包括權(quán)限管理咨油、用戶管理您炉、交易管理、逾期管理臼勉、統(tǒng)計(jì)分析等功能邻吭。
? ? ? ?技術(shù)架構(gòu)是指從技術(shù)實(shí)現(xiàn)層面描述系統(tǒng),主要是根據(jù)系統(tǒng)架構(gòu)組成部分確定每層使用什么技術(shù)框架宴霸,例如中間件囱晴、WebService等。
? ? ? ?那對(duì)于數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)群具體可以分為哪些部分以及他們的具體實(shí)現(xiàn)技術(shù)如何呢瓢谢?以下是銀行數(shù)據(jù)倉(cāng)庫(kù)的系統(tǒng)功能圖:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖2.1
????????1畸写、數(shù)據(jù)源:主要是指行內(nèi)交易系統(tǒng)、外部采購(gòu)或合作的第三方數(shù)據(jù)等3類氓扛、包括結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化的數(shù)據(jù)枯芬,結(jié)構(gòu)化數(shù)據(jù)主要是存儲(chǔ)在各個(gè)行內(nèi)系統(tǒng)數(shù)據(jù)庫(kù)中的表數(shù)據(jù)论笔,非結(jié)構(gòu)化數(shù)據(jù)包括圖片、語音千所、文檔等類型的數(shù)據(jù)狂魔。
????????2、數(shù)據(jù)采集:即如何將數(shù)據(jù)從數(shù)據(jù)源獲取到數(shù)據(jù)倉(cāng)庫(kù)中淫痰,就是我們常說的ETL隨著數(shù)據(jù)倉(cāng)庫(kù)功能的發(fā)展這部分不僅僅包括批量數(shù)據(jù)獲取還包括實(shí)時(shí)數(shù)據(jù)流以及數(shù)據(jù)庫(kù)數(shù)據(jù)實(shí)時(shí)采集:
? ? ? (1)?????批量采集:主要包括從數(shù)據(jù)源獲取大批量的數(shù)據(jù)最楷,這是銀行數(shù)據(jù)倉(cāng)庫(kù)主要的數(shù)據(jù)采集方式,批量采集的采集數(shù)據(jù)頻率較低待错,一般是每日凌晨獲取上一天的數(shù)據(jù)籽孙,有些場(chǎng)景也可以每小時(shí)采集一次,由于采集的數(shù)據(jù)量一般較大火俄,對(duì)數(shù)據(jù)源也有IO的影響犯建,因此不建議采集頻率太高。批量采集需要支持從關(guān)系型數(shù)據(jù)庫(kù)瓜客、內(nèi)存數(shù)據(jù)庫(kù)适瓦、文件中批量獲取并加載到數(shù)據(jù)倉(cāng)庫(kù)中。
?????????在技術(shù)實(shí)現(xiàn)中忆家,批量采集工具需要能支持多種數(shù)據(jù)源的采集和加載犹菇,批量采集可選擇的工具較多,可以采用商業(yè)化軟件如IBM的DATASTAGE以及INFORMATICA公司的INFORMATICA芽卿,也可以采用開源的SQOOP和KETTLE。也可以采用各關(guān)系型數(shù)據(jù)庫(kù)以及HADOOP自帶的文件導(dǎo)出和導(dǎo)入功能胳搞。
????????(2)?????實(shí)時(shí)采集:指實(shí)時(shí)同步源系統(tǒng)的數(shù)據(jù)庫(kù)數(shù)據(jù)到數(shù)據(jù)倉(cāng)庫(kù)卸例,這樣可以在數(shù)據(jù)倉(cāng)庫(kù)中實(shí)時(shí)分析數(shù)據(jù)。實(shí)時(shí)采集通過專門的工具監(jiān)控源系統(tǒng)數(shù)據(jù)庫(kù)日志進(jìn)行數(shù)據(jù)同步肌毅,數(shù)據(jù)源系統(tǒng)無需改造筷转,這種采集方式針對(duì)數(shù)據(jù)統(tǒng)計(jì)時(shí)效性非常高的場(chǎng)景。
在技術(shù)實(shí)現(xiàn)中悬而,實(shí)時(shí)采集工具需要支持從多種類型數(shù)據(jù)源到多種類型目標(biāo)數(shù)據(jù)庫(kù)的實(shí)時(shí)同步呜舒,這塊商業(yè)化軟件比較成熟,如ORACLE的GOLDENGATE笨奠、IBM的InfoSphere Change Data Capture等軟件袭蝗。開源軟件中kettle也支持?jǐn)?shù)據(jù)庫(kù)實(shí)時(shí)同步,但需要在源表增加時(shí)間戳字段般婆。
????????(3)?????數(shù)據(jù)流采集:即通過Queue的方式從數(shù)據(jù)源系統(tǒng)獲得數(shù)據(jù)流消息到腥,數(shù)據(jù)倉(cāng)庫(kù)實(shí)時(shí)獲取Queue中的消息進(jìn)行實(shí)時(shí)數(shù)據(jù)流計(jì)算。這種數(shù)據(jù)采集方式也是面向統(tǒng)計(jì)時(shí)效非常高的場(chǎng)景蔚袍,需要數(shù)據(jù)源系統(tǒng)增加實(shí)時(shí)發(fā)送消息的功能乡范。
????????在技術(shù)實(shí)現(xiàn)中,由于數(shù)據(jù)流計(jì)算在互聯(lián)網(wǎng)公司使用廣泛,涌現(xiàn)出許多優(yōu)秀的開源軟件晋辆,如開源的KAFKA渠脉、ROCKETQUEUE等QUEUE工具,可以支持實(shí)時(shí)監(jiān)控文件瓶佳、數(shù)據(jù)庫(kù)的變化并將變化數(shù)據(jù)發(fā)送到QUEUE中的開源軟件FLUME连舍。對(duì)于MYSQL也可以通過BINLOG和SHYIKO監(jiān)控MYSQL日志,將數(shù)據(jù)變化發(fā)送到QUEUE中涩哟,那在商業(yè)化軟件中IBM的MQ是各銀行經(jīng)常使用的中間件索赏。
????????3、數(shù)據(jù)存儲(chǔ)/計(jì)算:數(shù)據(jù)存儲(chǔ)計(jì)算是數(shù)據(jù)倉(cāng)庫(kù)的主要功能贴彼。數(shù)據(jù)存儲(chǔ)主要指結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的按格式存儲(chǔ)潜腻,計(jì)算指基于存儲(chǔ)的數(shù)據(jù)進(jìn)行關(guān)聯(lián)、匯總器仗、數(shù)值計(jì)算等批量處理融涣、實(shí)時(shí)流計(jì)算和復(fù)雜的機(jī)器學(xué)習(xí)。
????????實(shí)時(shí)流計(jì)算主要指對(duì)大規(guī)模流動(dòng)數(shù)據(jù)在不斷變化的過程中實(shí)時(shí)地進(jìn)行分析精钮,比如實(shí)時(shí)展示目前銀行所有轉(zhuǎn)賬的筆數(shù)和匯總金額威鹿。需要將每筆轉(zhuǎn)賬進(jìn)行不斷計(jì)算。目前在銀行中應(yīng)用場(chǎng)景還較少轨香,但隨著互聯(lián)網(wǎng)渠道的發(fā)展后續(xù)也將出現(xiàn)更多的應(yīng)用場(chǎng)景忽你。
????????機(jī)器學(xué)習(xí)是專門研究計(jì)算機(jī)怎樣模擬或?qū)崿F(xiàn)人類的學(xué)習(xí)行為,以獲取新的知識(shí)或技能臂容,重新組織已有的知識(shí)結(jié)構(gòu)使之不斷改善科雳,簡(jiǎn)單來說就是通過數(shù)據(jù)來發(fā)現(xiàn)規(guī)律,累積經(jīng)驗(yàn)脓杉,并對(duì)新的數(shù)據(jù)進(jìn)行分類或預(yù)測(cè)糟秘。比如通過學(xué)習(xí)近1年的上證指數(shù)及交易量的變化來預(yù)測(cè)明天的上證指數(shù)。目前炒的人工智能球散、深度學(xué)習(xí)也是屬于機(jī)器學(xué)習(xí)范圍尿赚。目前銀行在風(fēng)控、反欺詐蕉堰、精準(zhǔn)營(yíng)銷等方面也逐步在使用多種機(jī)器學(xué)習(xí)算法來提高成功率凌净。
????????由于數(shù)據(jù)倉(cāng)庫(kù)是銀行的數(shù)據(jù)樞紐,銀行的所有業(yè)務(wù)數(shù)據(jù)都會(huì)在數(shù)據(jù)倉(cāng)庫(kù)保留嘁灯,因此數(shù)據(jù)量較大泻蚊,一般小銀行數(shù)據(jù)量在TB級(jí),股份制銀行大概在PB級(jí)丑婿,國(guó)有大銀行在ZB級(jí)性雄。因此存儲(chǔ)和計(jì)算的的可擴(kuò)展性没卸、性能都很重要。那在目前銀行中數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)和計(jì)算一般采用MPP數(shù)據(jù)庫(kù)(大規(guī)模并行數(shù)據(jù)庫(kù))和HADOOP相結(jié)合的技術(shù)方案秒旋。
????????(1)?????MPP數(shù)據(jù)庫(kù):主要是面向結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)约计、批量計(jì)算和機(jī)器學(xué)習(xí)。在HADOOP出現(xiàn)前迁筛,商用的MPP數(shù)據(jù)庫(kù)是數(shù)據(jù)倉(cāng)庫(kù)的主流技術(shù)平臺(tái)煤蚌,它使用簡(jiǎn)單,同時(shí)具有超大規(guī)模計(jì)算能力和良好的計(jì)算性能细卧、擴(kuò)展性尉桩。如TERADATA公司的TERADATA數(shù)據(jù)庫(kù)、ORACLE公司的ORACLE一體機(jī)贪庙、IBM的NETEZZA一體機(jī)蜘犁。其中TERADATA公司的TERADATA數(shù)據(jù)庫(kù)在早期是一枝獨(dú)秀,我國(guó)國(guó)有大銀行的數(shù)據(jù)倉(cāng)庫(kù)最早建立時(shí)大部分都采用了TERADATA數(shù)據(jù)庫(kù)止邮。近年來ORACLE的EXADATA市場(chǎng)占有率也逐步提升这橙,開源的MPP數(shù)據(jù)庫(kù)最有名的是由商業(yè)轉(zhuǎn)為開源GREENPLUM,目前騰訊云的TIBASE导披、阿里云的HybridDB for PostgreSQL都是基于GREENPLUM優(yōu)化的屈扎。
????????(2)?????HADOOP平臺(tái):HADOOP平臺(tái)支持結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和計(jì)算。由于MPP數(shù)據(jù)庫(kù)價(jià)格高撩匕,且擴(kuò)展性也有一定局限鹰晨。很難滿足互聯(lián)網(wǎng)公司超大數(shù)據(jù)量及非結(jié)構(gòu)化數(shù)據(jù)的計(jì)算需求,因此HADOOP軟件生態(tài)體系應(yīng)運(yùn)而生并發(fā)展越來越成熟滑沧,成為互聯(lián)網(wǎng)公司大數(shù)據(jù)處理的標(biāo)配平臺(tái)并村。2015年左右,隨著HADOOP平臺(tái)的完善及商用(商用版本如華為滓技、星環(huán)科技;開源版本如CLOUDERA棚潦、Hortonworks)令漂,銀行也逐步使用HADOOP平臺(tái)和MPP數(shù)據(jù)一起作為數(shù)據(jù)倉(cāng)庫(kù)的存儲(chǔ)和計(jì)算平臺(tái)。其中批量計(jì)算一般使用HIVE和SPARK丸边,流計(jì)算一般使用STORM和SPARKSTREAMING叠必,機(jī)器學(xué)習(xí)可以采用HADOOP生態(tài)的SPARKMLLIB、MAHOUT妹窖,也可以使用TENSORFLOW纬朝、SAS、R等支持HADOOP平臺(tái)專門的機(jī)器學(xué)習(xí)工具骄呼,目前許多公司在研發(fā)推出的人工智能平臺(tái)(機(jī)器學(xué)習(xí)建模平臺(tái))也都把HADOOP平臺(tái)作為數(shù)據(jù)存儲(chǔ)和計(jì)算平臺(tái)共苛,如第四范式判没、星環(huán)科技等。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖2.2
????????4隅茎、數(shù)據(jù)服務(wù):數(shù)據(jù)服務(wù)主要指如何為銀行其它系統(tǒng)提供數(shù)據(jù)服務(wù)澄峰,隨著數(shù)據(jù)倉(cāng)庫(kù)體系的發(fā)展,數(shù)據(jù)倉(cāng)庫(kù)不僅僅能按批量的方式提供數(shù)據(jù)計(jì)算結(jié)果辟犀,還可以實(shí)時(shí)提供數(shù)據(jù)服務(wù)俏竞。
????????(1)?????批量接口:按約定的接口方式將數(shù)據(jù)批量提供給數(shù)據(jù)應(yīng)用系統(tǒng),一般每天1次堂竟,可以按文件的方式放到約定的服務(wù)器魂毁,也可以通過數(shù)據(jù)采集部分提到的ETL工具直接將數(shù)據(jù)同步到應(yīng)用系統(tǒng)的數(shù)據(jù)庫(kù)中。
????????(2)?????在線查詢:提供實(shí)時(shí)查詢的接口出嘹,并發(fā)布到銀行交易總線席楚,由其他業(yè)務(wù)系統(tǒng)或數(shù)據(jù)系統(tǒng)實(shí)時(shí)調(diào)用,比如銀行的每年的賬單總結(jié)(類似支付寶每年賬單)一般由數(shù)據(jù)倉(cāng)庫(kù)根據(jù)每個(gè)客戶1年的交易流水疚漆,統(tǒng)計(jì)出轉(zhuǎn)賬酣胀、消費(fèi)、收入等數(shù)據(jù)并提供給渠道系統(tǒng)如手機(jī)銀行娶聘、網(wǎng)上銀行進(jìn)行展示闻镶。那在技術(shù)實(shí)現(xiàn)方面,接口服務(wù)開發(fā)一般按各行的開發(fā)規(guī)范來實(shí)現(xiàn)丸升,如web service或http+xml铆农,大部分銀行使用JAVA進(jìn)行開發(fā),如果接口TPS不高狡耻,一般的MPP數(shù)據(jù)庫(kù)也足夠支持墩剖,無需進(jìn)行數(shù)據(jù)移動(dòng),如果TPS比較高夷狰,可以將數(shù)據(jù)加工結(jié)果放到HADOOP HBASE進(jìn)行數(shù)據(jù)存儲(chǔ)和查詢岭皂。
????????(3)?????實(shí)時(shí)同步:實(shí)時(shí)同步主要是實(shí)時(shí)數(shù)據(jù)流計(jì)算后將結(jié)果實(shí)時(shí)同步給數(shù)據(jù)使用系統(tǒng),同時(shí)將結(jié)果發(fā)布到QUEUE中沼头,由目標(biāo)系統(tǒng)進(jìn)行訂閱爷绘,實(shí)時(shí)獲取。
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖2.3
????????5进倍、數(shù)據(jù)應(yīng)用:數(shù)據(jù)應(yīng)用主要是將數(shù)據(jù)通過數(shù)據(jù)服務(wù)提供給各應(yīng)用系統(tǒng)土至,由各系統(tǒng)進(jìn)行數(shù)據(jù)分析和成果展示。那主要有以下幾類:
????????(1)?????數(shù)據(jù)應(yīng)用系統(tǒng):主要指使用數(shù)據(jù)的系統(tǒng)猾昆,在銀行包括客戶關(guān)系管理陶因、管理會(huì)計(jì)、績(jī)效管理垂蜗、新資本協(xié)議系統(tǒng)群等數(shù)據(jù)系統(tǒng)楷扬,也包括核心解幽、貸款等交易系統(tǒng)。
????????(2)?????報(bào)表平臺(tái):報(bào)表平臺(tái)能將數(shù)據(jù)快速展示成圖表毅否、能通過建立數(shù)據(jù)立方體(CUBE)提供數(shù)據(jù)鉆取(向上或向下變換數(shù)據(jù)分析維度)功能,方便業(yè)務(wù)人員快速查詢和分析數(shù)據(jù)。那報(bào)表工具目前商用的比較成熟,展示也更美觀,常見的有COGNOS、潤(rùn)乾報(bào)表炫刷、TABLEAU等锄奢,開源的報(bào)表工具功能較弱书在,常用的有birt、ireport甚垦、jasperreport、KYLIN(基于hadoop建立CUBE)等侄非。
????????(3)?????分析探索:有的銀行也叫數(shù)據(jù)實(shí)驗(yàn)室或分析集市骇钦,主要指提供給業(yè)務(wù)人員自行分析的平臺(tái)窥翩,銀行業(yè)務(wù)部門的分析人員經(jīng)常使用SQL自行分析數(shù)據(jù),也會(huì)使用SAS或R鳞仙、PYTHON進(jìn)行數(shù)據(jù)挖掘寇蚊,隨著AI技術(shù)的深入,也逐步在嘗試TENSORFLOW等深度學(xué)習(xí)的工具來分析銀行數(shù)據(jù)棍好。由于數(shù)據(jù)分析工作時(shí)間不固定仗岸,且消耗計(jì)算資源較大,因此一般都是單獨(dú)給業(yè)務(wù)人員搭建一套或多套的分析環(huán)境借笙,每套環(huán)境包括HADOOP或數(shù)據(jù)庫(kù)作為數(shù)據(jù)存儲(chǔ)扒怖,SAS、R业稼、TENSORFLOW等作為分析引擎盗痒。同時(shí)還需要定期(一般T+1)更新分析環(huán)境的數(shù)據(jù),提高數(shù)據(jù)分析的及時(shí)性低散。
????????6俯邓、調(diào)度平臺(tái):調(diào)度平臺(tái)主要進(jìn)行各數(shù)據(jù)采集骡楼、加載、計(jì)算作業(yè)的任務(wù)編排和自動(dòng)運(yùn)行稽鞭,比如并行調(diào)度作業(yè)A鸟整、B、C朦蕴,都結(jié)束后調(diào)度作業(yè)D篮条;調(diào)度平臺(tái)需要支持多操作系統(tǒng)、可運(yùn)行多種類型腳本或程序梦重,并具有良好的擴(kuò)展性和可用性兑燥,調(diào)度平臺(tái)不僅僅調(diào)度數(shù)據(jù)倉(cāng)庫(kù)的加工作業(yè),也需要調(diào)度各數(shù)據(jù)類系統(tǒng)的數(shù)據(jù)處理任務(wù)琴拧。使各系統(tǒng)作業(yè)能無縫銜接降瞳,將數(shù)據(jù)從源系統(tǒng)到數(shù)據(jù)倉(cāng)庫(kù)、到數(shù)據(jù)應(yīng)用系統(tǒng)和數(shù)據(jù)結(jié)果應(yīng)用全流程串聯(lián)起來蚓胸。一般的銀行的調(diào)度平臺(tái)每天調(diào)度的作業(yè)上萬個(gè)挣饥,一些大行每天調(diào)度任務(wù)數(shù)十萬個(gè),因此一個(gè)穩(wěn)定沛膳、高效扔枫、易操作的調(diào)度系統(tǒng)不可缺少。目前調(diào)度工具比較多锹安,商業(yè)化的有IBM CONTROL-M短荐、先進(jìn)數(shù)通的MOIA等,開源的如azkaban叹哭、OOZIE等忍宋,由于調(diào)度系統(tǒng)需要調(diào)度各系統(tǒng)并和行內(nèi)的監(jiān)控系統(tǒng)進(jìn)行集成,因此實(shí)施時(shí)需要一定的客戶化工作风罩。
????????7糠排、運(yùn)維監(jiān)控:主要對(duì)數(shù)據(jù)倉(cāng)庫(kù)體系中各系統(tǒng)進(jìn)行技術(shù)監(jiān)控以及調(diào)度作業(yè)監(jiān)控,ETL工具超升、MPP數(shù)據(jù)庫(kù)以及HADOOP體系軟件都帶有監(jiān)控工具入宦,但還是需要進(jìn)行一些客戶化工作和各銀行自有監(jiān)控體系相結(jié)合,在統(tǒng)一界面進(jìn)行監(jiān)控室琢、預(yù)警乾闰、按優(yōu)先級(jí)進(jìn)行生產(chǎn)問題處理。
????????8盈滴、數(shù)據(jù)管理:那數(shù)據(jù)倉(cāng)庫(kù)有那么多數(shù)據(jù)汹忠,我們?cè)趺粗佬枰臄?shù)據(jù)在哪里?數(shù)據(jù)質(zhì)量怎么樣?某一個(gè)數(shù)據(jù)字段發(fā)生變化會(huì)有什么影響宽菜?那就需要對(duì)數(shù)據(jù)進(jìn)行管理或者治理,數(shù)據(jù)管理就是對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)竿报、數(shù)據(jù)定義铅乡、數(shù)據(jù)質(zhì)量進(jìn)行管理,確保數(shù)據(jù)的規(guī)范性烈菌、及時(shí)性阵幸、可追溯性,主要包括以下幾個(gè)方面:
????????(1)數(shù)據(jù)標(biāo)準(zhǔn):數(shù)據(jù)標(biāo)準(zhǔn)是指制定和推廣應(yīng)用統(tǒng)一的數(shù)據(jù)分類分級(jí)芽世、記錄格式及轉(zhuǎn)換等標(biāo)準(zhǔn)挚赊,簡(jiǎn)單說就是定義各數(shù)據(jù)表字段的格式及代碼值,例如貨幣種類定義10位長(zhǎng)度济瓢,其中USD表示美元荠割、CNY表示人民幣……那數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)該是銀行整體的標(biāo)準(zhǔn),適用于全行的所有系統(tǒng)旺矾,但由于各系統(tǒng)建設(shè)時(shí)已經(jīng)各有定義蔑鹦,所有一般數(shù)據(jù)標(biāo)準(zhǔn)都在數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行標(biāo)準(zhǔn)化,將各源系統(tǒng)字段代碼轉(zhuǎn)換到數(shù)據(jù)標(biāo)準(zhǔn)定義的字段代碼箕宙,即數(shù)據(jù)倉(cāng)庫(kù)的字段代碼嚎朽。那數(shù)據(jù)標(biāo)準(zhǔn)系統(tǒng)主要是定義了各字段的類型、長(zhǎng)度柬帕、精度哟忍、代碼值以及源系統(tǒng)字段代碼值轉(zhuǎn)換到數(shù)據(jù)標(biāo)準(zhǔn)代碼值的映射關(guān)系。
????????(2)元數(shù)據(jù)管理:元數(shù)據(jù)指描述數(shù)據(jù)的數(shù)據(jù)陷寝,比如數(shù)據(jù)表和數(shù)據(jù)字段的定義以及關(guān)系锅很,那在元數(shù)據(jù)中除了查詢數(shù)據(jù)倉(cāng)庫(kù)中各表和字段的定義外,最重要的還有兩個(gè)功能:血緣分析和影響分析盼铁。血緣分析指字段X是由哪些源表字段按什么規(guī)則加工而成的粗蔚,也就是說字段X的“祖宗”是誰;那影響分析指字段X變化了饶火,比如增加了字段長(zhǎng)度或字段含義發(fā)生了變化鹏控,那會(huì)影響到后續(xù)哪些字段,也就是字段X的“子孫”是誰肤寝;那這兩個(gè)功能在日常數(shù)據(jù)分析中使用較多当辐,特別是影響分析,源系統(tǒng)已采集的表結(jié)構(gòu)有變化就會(huì)需要分析影響并進(jìn)行同步修改鲤看。
????????(3)數(shù)據(jù)質(zhì)量:數(shù)據(jù)質(zhì)量是指數(shù)據(jù)的可用性缘揪、標(biāo)準(zhǔn)規(guī)范性、正確性的檢查以及數(shù)據(jù)質(zhì)量整改的管理流程。由于數(shù)據(jù)源系統(tǒng)因?yàn)槿斯や浫霕?biāo)準(zhǔn)不清晰找筝、錄入差錯(cuò)蹈垢、系統(tǒng)異常等原因?qū)е聰?shù)據(jù)差錯(cuò),例如企業(yè)類型字段應(yīng)該填寫大袖裕、中曹抬、小微3種類型,客戶經(jīng)理對(duì)認(rèn)定的標(biāo)準(zhǔn)不清晰將中型企業(yè)填寫為了大型企業(yè)急鳄。例如對(duì)公客戶地址大部分字段都沒有填寫谤民;那如何發(fā)現(xiàn)這些數(shù)據(jù)質(zhì)量問題并通過一系列流程進(jìn)行數(shù)據(jù)修改,提高數(shù)據(jù)準(zhǔn)確性和可用性就是數(shù)據(jù)質(zhì)量需要做的事情疾宏。因此數(shù)據(jù)質(zhì)量不僅僅是一個(gè)系統(tǒng)张足、許多數(shù)據(jù)檢驗(yàn)規(guī)則,還有一整套數(shù)據(jù)修改和管理的流程坎藐。
????????以下是平臺(tái)各部分的技術(shù)參考實(shí)現(xiàn)为牍,數(shù)據(jù)管理的系統(tǒng)、運(yùn)維系統(tǒng)由于客戶化程度較高就暫不提供參考:
? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖2.4
? ? ? ?目前各種云平臺(tái)已經(jīng)也提供了數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)服務(wù)顺饮,那從技術(shù)功能吵聪、性能、可擴(kuò)展性上可以滿足銀行的需求兼雄,但由于銀行的用戶數(shù)據(jù)相當(dāng)敏感和重要吟逝,數(shù)據(jù)安全非常重要。短時(shí)間看赦肋,銀行數(shù)據(jù)倉(cāng)庫(kù)上共有云還不太現(xiàn)實(shí)块攒,但在銀行引入私有云及數(shù)據(jù)倉(cāng)庫(kù)技術(shù)組件是現(xiàn)階段更可能實(shí)現(xiàn)的方式。
????????以上是銀行數(shù)據(jù)倉(cāng)庫(kù)的整體架構(gòu)佃乘,也可供其他各行業(yè)數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)設(shè)計(jì)參考囱井,謝謝!
? ? ? ?接下來將繼續(xù)銀行數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)架構(gòu)的介紹趣避,如大家有興趣可關(guān)注微信公眾號(hào):煉數(shù)士