銀行業(yè)一直走在數(shù)字化轉型的前沿邀桑,客戶畫像壁畸、精準營銷、反欺詐等幾乎所有的業(yè)務都與數(shù)據(jù)息息相關太抓,而在這些業(yè)務背后做支撐的就是銀行的大數(shù)據(jù)平臺走敌。首屆 Kylin Data Summit 特別邀請了建信金融科技的架構團隊技術總監(jiān)朱志逗噩,為大家分享銀行大數(shù)據(jù)架構的演變過程异雁、未來展望和深度思考。朱志先生長期從事信息技術規(guī)劃项炼、架構管理示绊、大數(shù)據(jù)分析平臺研發(fā)面褐、數(shù)據(jù)及技術標準化等工作。
以下內容整理自朱志先生的現(xiàn)場演講
銀行大數(shù)據(jù)的過去與現(xiàn)在
建設銀行長期以來持續(xù)關注著大數(shù)據(jù)行業(yè)技術和趨勢的發(fā)展。跟隨著數(shù)據(jù)技術的不斷更新摄杂,建設銀行每年都會同步更新自己的路線圖析恢。建行一邊在數(shù)據(jù)驅動映挂,一邊應用驅動,不斷地找新亮點來突破我們自己的行業(yè)帽撑。
在兩三年前亏拉,建行就把數(shù)據(jù)和敏捷開發(fā)結合在一起及塘,實現(xiàn)了一個內部的數(shù)據(jù)應用。當很多人還需要大量頁面開發(fā)來實現(xiàn)儀表盤功能時芳肌,建行就已經(jīng)實現(xiàn)了用一個很小團隊亿笤,支撐全行所有人在手機上使用數(shù)據(jù)槽驶,所有數(shù)據(jù)像同花順股票一樣可以定制掂铐,不需要開發(fā),而且可以支撐幾十萬用戶的訪問爆班。
回看過去辱姨,從數(shù)據(jù)倉庫一體機雨涛,到Hadoop崛起,到今天進入了一個混沌狀態(tài)凉泄,沒有人知道大數(shù)據(jù)未來后众。但是在我們看來颅拦,我們期待未來一定會有一個技術能夠突破出來距帅,變成指數(shù)級增長。
整個過程其實是大數(shù)據(jù)架構演進的過程陡蝇,從開始 INMON 和 KIMBALL 不斷地爭吵痊臭,賣一體機的非常喜歡 INMON 哮肚。做服務的人喜歡 KIMBALL 登夫,可以快速啟動一個數(shù)據(jù)項目。他倆打架打了30年允趟,銀行就在他們爭論中演進了30年恼策。一直走到有一天谷歌寫了三篇著名的關于分布式的論文。這三篇論文是一個基點潮剪,而把這個文章給放大出來的人涣楷,是Doug Cutting。而最近新一輪的混亂是誰引起的狮斗?James Dixon,Pentaho 的 CTO弧蝇,他提出了Data Lake碳褒。
從事架構工作一直要回答路線之爭。對于銀行業(yè)來說看疗,未來到底是數(shù)據(jù)湖還是數(shù)據(jù)倉庫沙峻?數(shù)據(jù)湖會不會替代數(shù)據(jù)倉庫? Gartner 還提出了 Data Hub两芳。這就是我們今天面臨的現(xiàn)狀摔寨,我們迫切希望盡早突破這種混沌,走到未來一個指數(shù)級的數(shù)據(jù)區(qū)間怖辆。
Data Lake 根據(jù)數(shù)據(jù)不同的時效性是复,可以更方便進行業(yè)務洞察,有了這樣的架構竖螃。Data Hub 淑廊,我發(fā)現(xiàn)跟我們十幾年前 ODS 差不多,多了個云數(shù)據(jù)斑鼻。各方面的爭論太多了蒋纬,Gartner 又提出了一個詞叫? Logical Data? Warehouse,希望能夠統(tǒng)一這些路線坚弱。而關于這些路線之爭深刻困擾著架構工程師們蜀备,目前建行在內部走成了如下圖這個結構,Data Hub在建行內部叫數(shù)據(jù)復制組件荒叶,可以由業(yè)務人員自己定制將數(shù)據(jù)碾阁,將數(shù)據(jù)復制到指定位置,因此有些工程師將開始失業(yè)了些楣。
同時脂凶,我們也還在使用傳統(tǒng)的數(shù)據(jù)倉庫宪睹,因為銀行有大量監(jiān)管的東西沒法替代。但是整個數(shù)據(jù)探索蚕钦,就是所謂的數(shù)據(jù)湖在不斷地增長亭病,所以最后走成了今天這個樣子。但我覺得還是個陷阱嘶居,因為這里面耗費了大量的資源和人力罪帖。
前進中遇到的困難
一起看下面這張圖,我們從問題和數(shù)據(jù)兩個維度看邮屁,什么樣的東西應該用什么架構整袁。我們發(fā)現(xiàn)創(chuàng)新與探索適用于未知的問題和未知的數(shù)據(jù),用 Data Lake 更合適佑吝;而左下角已知數(shù)據(jù)和已知問題用Data? Warehouse用容易一些坐昙。Gartner 發(fā)布了一個更復雜的圖,但是現(xiàn)實情況并不是這么具有邏輯性芋忿。在銀行業(yè)大家都知道炸客,銀行業(yè)非常依賴外包,無論是外包盗飒,還是互聯(lián)網(wǎng)嚷量,大家都很想做to B業(yè)務。
在to B 業(yè)務領域內逆趣,很多一體機廠商喊了非常多年 TCO蝶溶,實際在甲方做決定時,沒有人能拿出TCO這個數(shù)據(jù)宣渗。新技術的演進很快抖所,從一體機到 Hadoop、Spark痕囱、Flink 再到 Kylin田轧。但無論技術怎么進步,我發(fā)現(xiàn)我們的外包廠商只會寫SQL鞍恢。我們做了非常多SQL傻粘,沉淀了20 年,業(yè)務部門不會為過去的努力買單帮掉,我們所有新技術似乎只能做新的業(yè)務場景弦悉,這就是我們今天乃至過去五六年,作為銀行業(yè)的架構師所面臨的窘境蟆炊。
這個窘境怎么解決呢稽莉?我們做過一個嘗試。這個架構圖展示了建行如何去做一個混合的數(shù)據(jù)架構涩搓。我們面對外包服務人員寫的 SQL污秆,隨意挑出一個 SQL 語句可以打五到六頁 A4 紙大小劈猪,我們想方設法地把一個 SQL 語句從一個技術搬到另外一個技術,比如常見的就是比如說 Teradata? 搬到 SQL Server良拼, SQL Server搬到Oracle战得,Oracle搬到 Greenplum,還想搬到Hadoop上将饺。
當遷移到 Hadoop 的時候問題就來了贡避。我們分析這些SQL痛黎,分析完了以后看起來很漂亮予弧,其實沒有用。我們做了大量的解釋語句湖饱,我們付出的慘痛代價得到了一個教訓掖蛤。當技術的基礎邏輯改變的時候,我們不應該翻譯SQL井厌,這個只會牽絆住我們蚓庭。當我們簡單保持邏輯,把 SQL 語句從一個地方翻譯到另外一個地方仅仆,遭遇了更大的挑戰(zhàn)器赞,數(shù)據(jù)IO遇到很大挑戰(zhàn),數(shù)據(jù)血緣關系上碰到了挑戰(zhàn)墓拜,數(shù)據(jù)整個時間窗口碰到挑戰(zhàn)港柜,包括數(shù)據(jù)性能也碰到挑戰(zhàn)。保持業(yè)務一致性咳榜,其實犧牲了所有跟技術相關的東西夏醉,這就是我們最大的教訓。
銀行業(yè)未來的格局
今天看涌韩,如果只從技術出發(fā)來解決解決問題畔柔,是走不出這個混沌的。去年我參加了金融科技戰(zhàn)略規(guī)劃的會議臣樱,在這個會議上看到了銀行業(yè)未來靶擦,這也是我們成立建信金融科技公司原因。剛開始銀行和互聯(lián)網(wǎng)業(yè)獨立發(fā)展雇毫,到現(xiàn)在其實開始慢慢合作了玄捕,未來很多數(shù)據(jù)會在金融科技公司,這將會形成相互的引流嘴拢。
比爾蓋茨:“我們需要銀行業(yè)桩盲,但不需要銀行”。
下面這張圖介紹的是wells Fargo一家美國銀行的在線業(yè)務席吴,每一個線上業(yè)務都可以找到一個美國金融科技公司替代赌结。我們必須通過回到銀行業(yè)的本質來找整個數(shù)據(jù)平臺未來的模式捞蛋。
對于銀行業(yè)來說,第一原理是什么柬姚?過去銀行都是在鋼筋水泥中拟杉,今天銀行是線上,線上銀行有什么變化呢量承?有什么沒有變的呢搬设?
銀行業(yè)本質就是存貸匯。存撕捍,是資金端創(chuàng)新拿穴,也就是互聯(lián)網(wǎng)金融過去十年做的事情;貸忧风,這是接下來銀行業(yè)熱點默色,我們要把資金端和優(yōu)秀資產(chǎn)端對接;匯狮腿,就是發(fā)生交易的地方腿宰,這就是銀行業(yè)本質,就是完成資源在時間和空間上的錯配缘厢,這就是銀行業(yè)本質吃度。
而每一個改變,都是技術驅動贴硫,任何一個點都離不開數(shù)據(jù)椿每,銀行業(yè)未來是什么呢?
第一:虛擬化夜畴。首先它是一個分布式架構拖刃,這個分布式架構不是指在不同機器上存儲數(shù)據(jù),而指在不同的法人實體間贪绘,就像今天建信金融科技跟建設銀行之間的關系兑牡,它是指不同法人之間關系。
第二:貫穿企業(yè)的內部運營和外部環(huán)境之間的關系税灌。過去做數(shù)據(jù)倉庫的時候均函,更多使用企業(yè)內部信息,而今天可能你不知道自己要在哪里分析數(shù)據(jù)菱涤,需要結合環(huán)境苞也、企業(yè)應用以及所涉及的問題。
第三:用戶想在哪看數(shù)據(jù)粘秆,應該在哪看數(shù)據(jù)如迟,就可以在哪看數(shù)據(jù)。昨天是PC,今天是手機殷勘,明天可能是一個可以操縱的物體此再,最后一個重要的事情是不能用邏輯驅動這個技術,而需要靠TCO玲销、SLA來驅動這個變化输拇。
未來,銀行大數(shù)據(jù)平臺的三個機會
第一個機會:數(shù)據(jù)訪問 API 化贤斜。這句話是講給策吠,從事 to B業(yè)務,也包括自己瘩绒。完成數(shù)據(jù)API化猴抹,打通內部和外部,包括打通內部之間不同形態(tài)的技術草讶。
第二個機會:降維打擊SQL洽糟。我們需要更多方式來解析數(shù)據(jù),包括 Gartner 提到的堕战,我們可以用一些自然語言,自然語言有點太先進了拍霜,過去微軟提出來MDX嘱丢,還有最近提出來的函數(shù)式編程,還有更多的編程模式來替代SQL祠饺,來提高效率越驻。
第三個機會,應用更多AI技術治理數(shù)據(jù)道偷。
想下載完整 PPT缀旁,請點擊這里,當天來現(xiàn)場的小伙伴們請注意查收您的郵箱勺鸦,我們已經(jīng)將大會的 PPT 發(fā)送到您的注冊郵箱并巍。
聯(lián)系我們
網(wǎng)站:https://kyligence.io/
郵件:info@kyligence.io
電話: +86 21-61060928