摘要:
隨著數(shù)據(jù)使用的不斷深入纲酗,業(yè)務(wù)分析的不斷完善脚猾,越來(lái)越多的數(shù)據(jù)需求開始爆發(fā)出來(lái)霍狰,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)已無(wú)法滿足大數(shù)據(jù)量下的快速查詢與分析響應(yīng)抡草。如何減輕IT人員的數(shù)據(jù)處理工作,提高大數(shù)據(jù)分析的響應(yīng)時(shí)間與工作效率蔗坯,甚至讓用戶可以自助分析數(shù)據(jù)康震,成為了該券商一個(gè)急需重點(diǎn)關(guān)注的問(wèn)題。通過(guò)搭建大數(shù)據(jù)平臺(tái)來(lái)存儲(chǔ)與處理日益增長(zhǎng)的交易數(shù)據(jù)宾濒,日志數(shù)據(jù)腿短,并結(jié)合KAP構(gòu)建多維分析模型,以滿足企業(yè)在超大規(guī)模數(shù)據(jù)集上獲得極速洞察的能力绘梦。
1. 公司及產(chǎn)品簡(jiǎn)介
上海跬智信息技術(shù)有限公司(以下簡(jiǎn)稱Kyligence)由Apache Kylin(第一個(gè)來(lái)自中國(guó)的Apache軟件基金會(huì)頂級(jí)開源項(xiàng)目)核心團(tuán)隊(duì)成員組建而成橘忱。作為領(lǐng)先的智能大數(shù)據(jù)分析平臺(tái)及解決方案供應(yīng)商,Kyligence專注于大數(shù)據(jù)分析領(lǐng)域創(chuàng)新卸奉,致力于進(jìn)一步推動(dòng)Apache Kylin開源項(xiàng)目的發(fā)展和演進(jìn)钝诚,拓展全球用戶社區(qū);提供基于Apache Kylin的下一代企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)及商務(wù)智能大數(shù)據(jù)分析平臺(tái)Kyligence Analytics Platform (以下簡(jiǎn)稱KAP)榄棵。從私有部署到云計(jì)算平臺(tái)凝颇,KAP都能使用戶在超大規(guī)模數(shù)據(jù)集上獲得極速的交互式分析能力和洞察能力。
Apache Kylin是Hadoop生態(tài)的重要成員疹鳄,是首個(gè)完全由中國(guó)團(tuán)隊(duì)貢獻(xiàn)和主導(dǎo)的Apache軟件基金會(huì)頂級(jí)開源項(xiàng)目祈噪。開源兩年來(lái),Apache Kylin已經(jīng)被國(guó)內(nèi)外超過(guò)200家公司所使用尚辑,包括eBay、Yahoo盔腔、Expedia杠茬、百度、網(wǎng)易弛随、京東瓢喉、美團(tuán)、唯品會(huì)等國(guó)內(nèi)外大型互聯(lián)網(wǎng)公司舀透,以及電信栓票、金融、高端制造等傳統(tǒng)行業(yè)的領(lǐng)先企業(yè)。Kylin廣泛應(yīng)用于大數(shù)據(jù)分析平臺(tái)走贪、OLAP多維分析佛猛、數(shù)據(jù)服務(wù)平臺(tái)、自助查詢平臺(tái)等多種大數(shù)據(jù)分析場(chǎng)景中坠狡。
Kyligence推出的大數(shù)據(jù)智能分析平臺(tái)KAP继找,是基于Apache Kylin的,在超大數(shù)據(jù)集上提供亞秒級(jí)分析能力的企業(yè)級(jí)大數(shù)據(jù)分析產(chǎn)品逃沿,定位于為業(yè)務(wù)用戶婴渡、分析師及工程師提供簡(jiǎn)便、快捷的大數(shù)據(jù)分析工具和產(chǎn)品凯亮。在繼承Apache Kylin的超高性能边臼、免編程開發(fā)、多協(xié)議支持假消、非侵入式部署等突出優(yōu)點(diǎn)的同時(shí)柠并,KAP在企業(yè)用戶所關(guān)注的應(yīng)用場(chǎng)景豐富、實(shí)施效率置谦、安全可控堂鲤、存儲(chǔ)效率、性能優(yōu)化媒峡、自助式敏捷BI瘟栖、系統(tǒng)監(jiān)控等方面進(jìn)行了全方位的完善和創(chuàng)新,被譽(yù)為目前最為成熟的OLAP on Hadoop產(chǎn)品谅阿。
2. 背景概述
我國(guó)證券交易以互聯(lián)網(wǎng)為主半哟,隨著非現(xiàn)場(chǎng)開戶等政策出臺(tái)以及移動(dòng)終端的普及,證券移動(dòng)互聯(lián)網(wǎng)化發(fā)展迅猛签餐,已經(jīng)成為各券商的主要發(fā)力方向寓涨。行業(yè)傭金率的不斷降低和一人一戶制度的取消,更是使得互聯(lián)網(wǎng)證券業(yè)務(wù)成為各券商開源節(jié)流氯檐、聚焦投資用戶戒良、服務(wù)長(zhǎng)尾用戶的有力手段和創(chuàng)新方向。
深度的用戶洞察和良好的用戶體驗(yàn)是互聯(lián)網(wǎng)證券的核心競(jìng)爭(zhēng)力冠摄。券商業(yè)務(wù)屬性天然適應(yīng)大數(shù)據(jù)概念糯崎,與其他產(chǎn)業(yè)相比,證券業(yè)的產(chǎn)品河泳、服務(wù)與流程都能體現(xiàn)出充分的虛擬化特征沃呢,這一點(diǎn)與互聯(lián)網(wǎng)的基因完全適應(yīng)。多年積累形成了豐厚的數(shù)據(jù)資產(chǎn)拆挥,但在大數(shù)據(jù)場(chǎng)景下薄霜,需要進(jìn)一步提升在數(shù)據(jù)處理、數(shù)據(jù)分析及數(shù)據(jù)挖掘等能力,充分利用海量用戶行為數(shù)據(jù)惰瓜,進(jìn)一步提升核心競(jìng)爭(zhēng)力否副。
本案例中的券商是國(guó)內(nèi)最大綜合類證券公司之一,注冊(cè)資本60億元以上鸵熟,經(jīng)營(yíng)業(yè)績(jī)穩(wěn)居業(yè)內(nèi)前三副编,經(jīng)營(yíng)管理、風(fēng)險(xiǎn)控制流强、合規(guī)體系痹届、信息技術(shù)等水平領(lǐng)先,是國(guó)內(nèi)最早開展各類創(chuàng)新業(yè)務(wù)的券商之一打月。憑借全方位的業(yè)務(wù)創(chuàng)新队腐、服務(wù)創(chuàng)新和管理創(chuàng)新,成就了一系列市場(chǎng)第一奏篙。
伴隨著大量線上交易操作的完成柴淘,該證券企業(yè)的業(yè)務(wù)系統(tǒng)已經(jīng)積累了豐富的后臺(tái)數(shù)據(jù)和信息。如何了解客戶的交易習(xí)慣秘通,掌握理財(cái)產(chǎn)品的銷售狀況为严,以及完善客戶畫像,識(shí)別潛在客戶成為了證券行業(yè)急切依賴大數(shù)據(jù)去解決和發(fā)現(xiàn)的問(wèn)題肺稀。充分利用好這些數(shù)據(jù)第股,將對(duì)業(yè)務(wù)的改進(jìn)和市場(chǎng)擴(kuò)展帶來(lái)極其重大的價(jià)值。
3. 案例概況
該券商大數(shù)據(jù)平臺(tái)的建設(shè)在企業(yè)內(nèi)部一直是不斷地規(guī)劃與完善當(dāng)中话原。從2014年至今夕吻,該證券行業(yè)標(biāo)桿企業(yè)已相繼完成了Hadoop基礎(chǔ)平臺(tái)搭建、數(shù)據(jù)接入與存儲(chǔ)等工作,并定義出了經(jīng)營(yíng)分析、數(shù)據(jù)服務(wù)倘是、戰(zhàn)略決策等幾個(gè)大的主題領(lǐng)域。然而稚矿,隨著數(shù)據(jù)使用的不斷深入,業(yè)務(wù)分析的不斷完善捻浦,越來(lái)越多的數(shù)據(jù)需求開始爆發(fā)出來(lái)盐捷,如何減輕IT人員的數(shù)據(jù)處理工作,提高大數(shù)據(jù)平臺(tái)的分析效率默勾,甚至讓用戶可以自助分析數(shù)據(jù)成為了一個(gè)急需重點(diǎn)關(guān)注的問(wèn)題。
在使用KAP之前聚谁,企業(yè)的大部分?jǐn)?shù)據(jù)都存儲(chǔ)在傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)之上母剥,Hadoop平臺(tái)也存儲(chǔ)了部分?jǐn)?shù)據(jù),但是由于缺少適合的分析工具,平臺(tái)之上的實(shí)際應(yīng)用相對(duì)較少环疼。隨著數(shù)據(jù)量越來(lái)越多习霹,在傳統(tǒng)的數(shù)倉(cāng)中查詢分析響應(yīng)速度越來(lái)越慢,且不易于擴(kuò)展炫隶。特別是針對(duì)非重復(fù)計(jì)數(shù)等指標(biāo)的實(shí)時(shí)計(jì)算需求淋叶,在大數(shù)據(jù)量的記錄上更是無(wú)法滿足。
3.1??? 項(xiàng)目目標(biāo)
本期建設(shè)的營(yíng)銷業(yè)務(wù)多維分析伪阶,通過(guò)使用大數(shù)據(jù)分析平臺(tái)煞檩,將超大規(guī)模數(shù)據(jù)集上的多維分析能力開放給分析人員,從集中式栅贴、專家式數(shù)據(jù)分析演進(jìn)到分布式斟湃、全民數(shù)據(jù)分析模式,人人成為數(shù)據(jù)分析師檐薯,以滿足企業(yè)在大數(shù)據(jù)場(chǎng)景下的超大數(shù)據(jù)量凝赛、多維度、高安全隔離條件下的分析能力坛缕。
本項(xiàng)目將充分發(fā)揮分布式大數(shù)據(jù)系統(tǒng)的優(yōu)勢(shì)墓猎,在存儲(chǔ)海量數(shù)據(jù)的同時(shí)提供極速的查詢和分析能力,通過(guò)數(shù)據(jù)模型進(jìn)一步支撐不同的業(yè)務(wù)分析需求赚楚,提高企業(yè)信息系統(tǒng)部門的分析決策能力毙沾,從而加速企業(yè)在大數(shù)據(jù)應(yīng)用場(chǎng)景的競(jìng)爭(zhēng)力。
3.2??? 系統(tǒng)架構(gòu)
KAP作為OLAP on Hadoop的大數(shù)據(jù)分析引擎直晨,通過(guò)將其搭建在企業(yè)已有的大數(shù)據(jù)平臺(tái)之上搀军,成為Hadoop底層數(shù)據(jù)與用戶前端查詢之間的橋梁,能夠很好地減輕IT人員數(shù)據(jù)準(zhǔn)備的工作勇皇,提升平臺(tái)查詢性能罩句,并滿足業(yè)務(wù)人員自助分析的需求。
由于該企業(yè)的大部分?jǐn)?shù)據(jù)分析工作一直還是基于傳統(tǒng)的MPP數(shù)據(jù)倉(cāng)庫(kù)之上敛摘,一時(shí)難以全部遷移或替代门烂。在IT演變與進(jìn)階的過(guò)程中,既需要考慮不影響已有的傳統(tǒng)數(shù)倉(cāng)成熟應(yīng)用兄淫,又要不阻礙大數(shù)據(jù)平臺(tái)的建設(shè)步伐與發(fā)展屯远,因此在第一階段采取了數(shù)據(jù)融合的架構(gòu)進(jìn)行該分析平臺(tái)的設(shè)計(jì)與搭建。
傳統(tǒng)數(shù)倉(cāng)的數(shù)據(jù)繼續(xù)遵循原有的流程進(jìn)行處理與存儲(chǔ)捕虽,之后通過(guò)定時(shí)增量導(dǎo)出成文件的形式慨丐,進(jìn)行快速地批量加載到Hadoop平臺(tái)的Hive之上,以解決傳統(tǒng)數(shù)倉(cāng)針對(duì)大數(shù)據(jù)分析能力不足的問(wèn)題泄私。
同時(shí)對(duì)于新產(chǎn)生的其它數(shù)據(jù)房揭,如APP埋點(diǎn)日志等备闲,又可以將文件進(jìn)行簡(jiǎn)單處理之后直接加載到Hadoop之上,并在Hive中通過(guò)創(chuàng)建外表進(jìn)行關(guān)聯(lián)與訪問(wèn)捅暴,可便于后續(xù)在大數(shù)據(jù)平臺(tái)上直接分析應(yīng)用恬砂。
將KAP作為Hadoop之上的數(shù)據(jù)倉(cāng)庫(kù)層,通過(guò)訪問(wèn)Hive蓬痒,對(duì)數(shù)據(jù)進(jìn)行自動(dòng)化聚合與預(yù)計(jì)算處理泻骤,并提供對(duì)主流BI前端工具的直接訪問(wèn)入口(支持ODBC, JDBC),方便最終用戶對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)查詢與分析梧奢,并極大減輕了IT人員對(duì)Hadoop中各層聚合表的開發(fā)與管理工作狱掂。
同時(shí),為了保證系統(tǒng)的高可用性和查詢高并發(fā)需求粹断,在集群中部署2臺(tái)KAP查詢節(jié)點(diǎn)符欠,并進(jìn)行負(fù)載均衡配置。
3.3??? 應(yīng)用場(chǎng)景
此項(xiàng)目在平臺(tái)上已完成了多個(gè)面向用戶和營(yíng)銷分析的Cube構(gòu)建和應(yīng)用瓶埋,包含潛在客戶分析希柿、理財(cái)產(chǎn)品交易分析、客戶特征分析等業(yè)務(wù)主題养筒。采用增量構(gòu)建的方式來(lái)接入每天新增的交易業(yè)務(wù)數(shù)據(jù)曾撤,并進(jìn)行自動(dòng)合并,所有的Cube構(gòu)建過(guò)程在1小時(shí)內(nèi)全部完成晕粪。其中最大的一個(gè)Cube包含30億以上的總記錄數(shù)挤悉,以及60多個(gè)維度,整個(gè)Cube的容量為20T左右巫湘,通過(guò)一定地聚合優(yōu)化設(shè)置装悲,平均查詢響應(yīng)時(shí)間低于3s。
業(yè)務(wù)人員通過(guò)使用前端BI工具KyAnalyzer或Tableau與KAP連接尚氛,可以直接訪問(wèn)Cube中的數(shù)據(jù)诀诊,自助快速地完成業(yè)務(wù)報(bào)表的創(chuàng)建與分享,極大地提高了工作效率阅嘶,并減輕了IT人員對(duì)數(shù)據(jù)處理的繁重工作属瓣。另外,在安全方面讯柔,由于各營(yíng)業(yè)部的信息需要互相隔離抡蛙,同時(shí)對(duì)于不同業(yè)務(wù)范圍的用戶也需要進(jìn)行嚴(yán)格的權(quán)限控制。KAP的可配置權(quán)限管理功能能夠很好地在Cube級(jí)別魂迄,以及單一Cube內(nèi)實(shí)現(xiàn)數(shù)據(jù)行粗截、列級(jí)別的權(quán)限控制,充分滿足了企業(yè)對(duì)數(shù)據(jù)管控的需求捣炬,以保證證券數(shù)據(jù)的高度安全性慈格。
3.4??? 后續(xù)計(jì)劃
通過(guò)本次項(xiàng)目的實(shí)施怠晴,業(yè)務(wù)分析人員已開始體驗(yàn)到大數(shù)據(jù)平臺(tái)上前所未有的數(shù)據(jù)分析時(shí)效與便捷性,并已開始規(guī)劃下一階段的新業(yè)務(wù)Cube需求浴捆。
另外,針對(duì)部分實(shí)時(shí)性要求較高的數(shù)據(jù)稿械,KAP支持從Kafka中進(jìn)行流式數(shù)據(jù)的直接讀取选泻,并完成數(shù)據(jù)的分鐘級(jí)處理與更新。后續(xù)會(huì)將部分實(shí)時(shí)數(shù)據(jù)接入大數(shù)據(jù)平臺(tái)美莫,并通過(guò)KAP進(jìn)行流數(shù)據(jù)的預(yù)計(jì)算構(gòu)建页眯,以滿足業(yè)務(wù)人員對(duì)時(shí)效性更高的數(shù)據(jù)獲取與分析需求。
4. 項(xiàng)目?jī)r(jià)值
最初厢呵,企業(yè)在給業(yè)務(wù)用戶提供分析報(bào)表的時(shí)候窝撵,會(huì)根據(jù)報(bào)表的具體內(nèi)容,通過(guò)IT人員開發(fā)部分寬表或匯總表來(lái)滿足特定的查詢需求襟铭,以此來(lái)提高大數(shù)據(jù)量下的查詢響應(yīng)要求碌奉。由于業(yè)務(wù)需求不斷地變化,因此需要IT人員頻繁調(diào)整和重復(fù)開發(fā)寒砖,另外隨著需求的增多赐劣,需要管理和維護(hù)的聚合表,匯總表也越來(lái)越多哩都,大大增加了平臺(tái)復(fù)雜度與元數(shù)據(jù)管理的成本魁兼。
通過(guò)使用KAP來(lái)搭建企業(yè)的大數(shù)據(jù)平臺(tái)數(shù)據(jù)倉(cāng)庫(kù)層,IT部門能夠通過(guò)可視化的界面來(lái)更方便地開發(fā)與管理Cube模型漠嵌,并根據(jù)業(yè)務(wù)分析主題來(lái)設(shè)置維度與度量屬性咐汞,每一個(gè)Cube都可以滿足用戶在同一分析主題下對(duì)各種維度進(jìn)行任意組合的多種報(bào)表需求,極大簡(jiǎn)化了后臺(tái)針對(duì)各種特定需求而二次開發(fā)的方式儒鹿。同時(shí)化撕,用戶僅通過(guò)拖放的操作便可以快速開發(fā)出自己需要的報(bào)表,不再需要通過(guò)IT人員反復(fù)修改代碼挺身。大大縮短了數(shù)據(jù)到用戶的應(yīng)用過(guò)程侯谁,并降低了業(yè)務(wù)人員在大數(shù)據(jù)平臺(tái)上使用數(shù)據(jù)的門檻,使最終用戶可以直接面對(duì)授權(quán)內(nèi)的數(shù)據(jù)進(jìn)行自助探索與分析章钾。
同時(shí)墙贱,數(shù)據(jù)分析在大數(shù)據(jù)平臺(tái)上的響應(yīng)效率也得到了極大的改善,對(duì)于百億條基礎(chǔ)數(shù)據(jù)的分析需求贱傀,90%的查詢能通過(guò)KAP在3秒內(nèi)返回結(jié)果惨撇,其中包括對(duì)千萬(wàn)數(shù)量級(jí)記錄的非重復(fù)計(jì)數(shù),比在HIVE上直接查詢快百倍府寒。
“KAP通過(guò)提供SQL的數(shù)據(jù)訪問(wèn)方式魁衙,可以很方便地作為查詢引擎來(lái)使用报腔,并給下游和前端提供數(shù)據(jù)。同時(shí)與大數(shù)據(jù)的平臺(tái)框架具有良好的兼容性剖淀,不需要調(diào)整當(dāng)前平臺(tái)上的工作流程纯蛾,完整的可擴(kuò)展性滿足了企業(yè)大數(shù)據(jù)平臺(tái)的建設(shè)規(guī)劃∽莞簦”
——信息技術(shù)部 大數(shù)據(jù)平臺(tái)總監(jiān)
?