全面解析流式大數(shù)據(jù)實(shí)時處理技術(shù)群发、平臺及應(yīng)用

一晰韵、 引言

大數(shù)據(jù)技術(shù)的廣泛應(yīng)用使其成為引領(lǐng)眾多行業(yè)技術(shù)進(jìn)步、促進(jìn)效益增長的關(guān)鍵支撐技術(shù)熟妓。根據(jù)數(shù)據(jù)處理的時效性雪猪,大數(shù)據(jù)處理系統(tǒng)可分為批式(batch)大數(shù)據(jù)和流式(streaming)大數(shù)據(jù)兩類。其中起愈,批式大數(shù)據(jù)又被稱為歷史大數(shù)據(jù)只恨,流式大數(shù)據(jù)又被稱為實(shí)時大數(shù)據(jù)。

目前主流的大數(shù)據(jù)處理技術(shù)體系主要包括hadoop及其衍生系統(tǒng)告材。Hadoop技術(shù)體系實(shí)現(xiàn)并優(yōu)化了MapReduce框架坤次。Hadoop技術(shù)體系主要由谷歌缰猴、推特滑绒、臉書等公司支持疑故。自2006年首次發(fā)布以來弯菊, Hadoop技術(shù)體系已經(jīng)從傳統(tǒng)的“三駕馬車”(HDFS、MapReduce和HBase)發(fā)展成為包括60多個相關(guān)組件的龐大生態(tài)系統(tǒng)软舌。在這一生態(tài)系統(tǒng)中佛点,發(fā)展出了Tez超营、Spark Streaming等用于處理流式數(shù)據(jù)的組件演闭。其中船响,Spark Streaming是構(gòu)建在Spark基礎(chǔ)之上的流式大數(shù)據(jù)處理框架见间。與Tez相比米诉,其具有吞吐量高史侣、容錯能力強(qiáng)等特點(diǎn)惊橱,同時支持多種數(shù)據(jù)輸入源和輸出格式税朴。除了Spark開源流處理框架正林,目前應(yīng)用較為廣泛的流式大數(shù)據(jù)處理系統(tǒng)還有Storm觅廓、Flink等。這些開源的流處理框架已經(jīng)被應(yīng)用于部分時效性要求較高的領(lǐng)域,然而在面對各行各業(yè)實(shí)際而又差異化的需求時蝇棉,這些開源技術(shù)存在著各自的瓶頸篡殷。

在互聯(lián)網(wǎng)/移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等應(yīng)用場景中棘催,個性化服務(wù)醇坝、用戶體驗(yàn)提升呼猪、智能分析宋距、事中決策等復(fù)雜的業(yè)務(wù)需求對大數(shù)據(jù)處理技術(shù)提出了更高的要求谚赎。為了滿足這些需求壶唤,大數(shù)據(jù)處理系統(tǒng)必須在毫秒級甚至微秒級的時間內(nèi)返回處理結(jié)果闸盔。以國內(nèi)最大的銀行卡收單機(jī)構(gòu)銀聯(lián)商務(wù)為例蕾殴,其日交易量近億筆钓觉,需對旗下540多萬個商戶進(jìn)行實(shí)時風(fēng)險監(jiān)控荡灾,在確保這些商戶合規(guī)開展收單業(yè)務(wù)的同時,最大限度地保障個人用戶的合法權(quán)益嗓节。這樣的高并發(fā)拦宣、大數(shù)據(jù)信姓、高實(shí)時應(yīng)用需求給大數(shù)據(jù)處理系統(tǒng)提出了嚴(yán)峻的挑戰(zhàn)意推。

銀聯(lián)商務(wù)以前使用的T+1事后風(fēng)控系統(tǒng)存在風(fēng)險偵測遲滯高(次日才能發(fā)現(xiàn)風(fēng)險菊值,損害已經(jīng)造成)腻窒、處理時間長(十幾個小時之后才能完成風(fēng)險識別)定页、無法處理長周期歷史數(shù)據(jù)(只能分析最近幾日的流水?dāng)?shù)據(jù))以及無法支持復(fù)雜規(guī)則(僅能支持累積求和等簡單規(guī)則)等重大缺陷典徊。為此卒落,亟須研發(fā)全新的事中風(fēng)控系統(tǒng)也切,以重點(diǎn)實(shí)現(xiàn)低遲滯(在1 min內(nèi)甄別突發(fā)風(fēng)險)雷恃、高實(shí)時(100 ms內(nèi)返回處理結(jié)果)倒槐、長周期(可處理長達(dá)10年以上的歷史周期數(shù)據(jù))以及支持高復(fù)雜度規(guī)則(如方差讨越、標(biāo)準(zhǔn)差、K階中心矩人弓、最大連續(xù)統(tǒng)計(jì)等)等目標(biāo)崔赌。這一目標(biāo)可以抽象為一個大數(shù)據(jù)處理科學(xué)問題:如何在一個完整的大數(shù)據(jù)集上峰鄙,實(shí)現(xiàn)低遲滯、高實(shí)時的即席(Ad-Hoc)查詢分析處理魁蒜。

二兜看、 技術(shù)解析

現(xiàn)有的大數(shù)據(jù)處理系統(tǒng)可以分為兩類:批處理大數(shù)據(jù)系統(tǒng)與流處理大數(shù)據(jù)系統(tǒng)细移。以Hadoop為代表的批處理大數(shù)據(jù)系統(tǒng)需先將數(shù)據(jù)匯聚成批,經(jīng)批量預(yù)處理后加載至分析型數(shù)據(jù)倉庫中雪侥,以進(jìn)行高性能實(shí)時查詢速缨。這類系統(tǒng)雖然可對完整大數(shù)據(jù)集實(shí)現(xiàn)高效的即席查詢旬牲,但無法查詢到最新的實(shí)時數(shù)據(jù)原茅,存在數(shù)據(jù)遲滯高等問題擂橘。相較于批處理大數(shù)據(jù)系統(tǒng)贝室,以Spark Streaming、Storm捡偏、Flink為代表的流處理大數(shù)據(jù)系統(tǒng)將實(shí)時數(shù)據(jù)通過流處理银伟,逐條加載至高性能內(nèi)存數(shù)據(jù)庫中進(jìn)行查詢彤避。此類系統(tǒng)可以對最新實(shí)時數(shù)據(jù)實(shí)現(xiàn)高效預(yù)設(shè)分析處理模型的查詢琉预,數(shù)據(jù)遲滯低圆米。然而受限于內(nèi)存容量娄帖,系統(tǒng)需丟棄原始?xì)v史數(shù)據(jù)近速,無法在完整大數(shù)據(jù)集上支持Ad-Hoc查詢分析處理削葱。因此佩耳,研發(fā)具有快速干厚、高效蛮瞄、智能且自主可控特點(diǎn)的流式大數(shù)據(jù)實(shí)時處理技術(shù)與平臺是當(dāng)務(wù)之急挂捅。

實(shí)現(xiàn)一個融合批處理和流處理兩類系統(tǒng)且對應(yīng)用透明的系統(tǒng)級方案闲先,需要攻克以下幾個技術(shù)難點(diǎn)。

(1)復(fù)雜指標(biāo)的增量計(jì)算

盡管計(jì)數(shù)蒙谓、求和累驮、平均等指標(biāo)能夠依靠查詢結(jié)果合并實(shí)現(xiàn)舵揭,然而方差置侍、標(biāo)準(zhǔn)差拦焚、熵等大部分復(fù)雜指標(biāo)無法依靠簡單合并完成查詢結(jié)果的融合。再者螟够,當(dāng)查詢涉及熱點(diǎn)數(shù)據(jù)維度及長周期時間窗口的復(fù)雜指標(biāo)時峡钓,多次重新計(jì)算會帶來巨大的計(jì)算開銷寞宫。

(2)基于分布式內(nèi)存的并行計(jì)算

采用粗放的調(diào)度策略(例如約定在每天的固定時間將流數(shù)據(jù)導(dǎo)入批處理系統(tǒng))會造成內(nèi)存資源的極大浪費(fèi)辈赋,亟須研究實(shí)現(xiàn)一種細(xì)粒度的基于進(jìn)度實(shí)時感知的融合存儲策略钥屈,以極大地優(yōu)化和提升融合系統(tǒng)的內(nèi)存使用效率篷就。

(3)多尺度時間窗口漂移的動態(tài)數(shù)據(jù)處理

來自業(yè)務(wù)系統(tǒng)的數(shù)據(jù)查詢請求會涉及多種尺度的時間窗口竭业,如“最近5筆刷卡交易的金額”“最近10 min內(nèi)密碼重試次數(shù)”“過去10年的月均交易額”等窟绷。每次查詢請求都重新計(jì)算結(jié)果會對系統(tǒng)性能造成極大的影響钾麸,亟須研究實(shí)現(xiàn)一種支持多種時間窗口尺度(數(shù)秒到數(shù)十年)饭尝、多種窗口漂移方式(數(shù)據(jù)驅(qū)動钥平、系統(tǒng)時鐘驅(qū)動)的動態(tài)數(shù)據(jù)實(shí)時處理方法涉瘾,以快速響應(yīng)來自業(yè)務(wù)系統(tǒng)的即席查詢請求捷兰。

在此我向大家推薦一個大數(shù)據(jù)開發(fā)交流圈:658558542? ? (?點(diǎn)擊即可加入群聊)里面整理了一大份學(xué)習(xí)資料秘蛇,全都是些干貨赁还,包括大數(shù)據(jù)技術(shù)入門艘策,大數(shù)據(jù)離線處理、數(shù)據(jù)實(shí)時處理斑举、Hadoop 富玷、Spark雀鹃、Flink、推薦系統(tǒng)算法以及源碼解析等,送給每一位大數(shù)據(jù)小伙伴傅瞻,讓自學(xué)更輕松盲憎。這里不止是小白聚集地嗅骄,還有大牛在線解答!歡迎初學(xué)和進(jìn)階中的小伙伴一起進(jìn)群學(xué)習(xí)交流饼疙,共同進(jìn)步溺森!

(4)高可用、高可擴(kuò)展的內(nèi)存計(jì)算

基于內(nèi)存介質(zhì)能夠大大提升數(shù)據(jù)分析及處理能力窑眯,然而由于其易揮發(fā)的特性屏积,一般需要采用多副本的方式來實(shí)現(xiàn)基于內(nèi)存的高可用方案,這使得“如何確保不同副本的一致性”成為一個待解決的問題磅甩。此外炊林,在集群內(nèi)存不足或者部分節(jié)點(diǎn)失效時,“如何讓集群在不間斷提供服務(wù)的同時重新平衡”同樣是一個待解決的技術(shù)難題括眠。亟須研究分布式多副本一致性協(xié)議以及自平衡的智能分區(qū)算法,以進(jìn)一步提升流處理集群的可用性以及可擴(kuò)展性。

“流立方”流式大數(shù)據(jù)實(shí)時處理技術(shù)在上述領(lǐng)域取得了一系列突破,該技術(shù)提供基于時間窗口漂移的動態(tài)數(shù)據(jù)快速處理表谊,支持計(jì)數(shù)课梳、求和沾歪、平均、最大、最小、方差烫沙、標(biāo)準(zhǔn)差、K階中心矩、遞增/遞減檀训、最大連續(xù)遞增/遞減担锤、唯一性判別多糠、采集只怎、過濾等多種分布式統(tǒng)計(jì)計(jì)算模型贴谎,并且實(shí)現(xiàn)了復(fù)雜事件蕾哟、上下文處理等實(shí)時分析處理模型集的高效管理技術(shù)。

三 、平臺縱覽

基于“流立方”流式大數(shù)據(jù)實(shí)時處理技術(shù),研發(fā)了“流立方”流式大數(shù)據(jù)實(shí)時處理平臺莉钙。其應(yīng)用框架如圖1所示蚊伞,具有良好的靈活性和適應(yīng)性别垮。平臺的數(shù)據(jù)裝載模塊負(fù)責(zé)從具體業(yè)務(wù)系統(tǒng)中接入實(shí)時流數(shù)據(jù)胧奔,數(shù)據(jù)抽取模塊負(fù)責(zé)批量抽取歷史數(shù)據(jù),模型裝載模塊負(fù)責(zé)將分析處理模型集中的計(jì)算模型和腳本加載到平臺中蔬芥。當(dāng)收到業(yè)務(wù)系統(tǒng)發(fā)出的實(shí)時查詢請求時街佑,“流立方”平臺能夠根據(jù)分析處理模型在完整大數(shù)據(jù)集上實(shí)時計(jì)算出相應(yīng)的指標(biāo)颜武,并進(jìn)行判斷,將結(jié)果反饋給業(yè)務(wù)系統(tǒng)香璃。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖1: “流立方”平臺應(yīng)用框架?

在測試環(huán)境為8臺服務(wù)器(每臺服務(wù)器配置24核 CPU旱易、256 GB內(nèi)存)枷遂,同時計(jì)算16個統(tǒng)計(jì)指標(biāo)(涉及4個維度,包含計(jì)數(shù)辉哥、求和、平衡、最大祝谚、最小、標(biāo)準(zhǔn)差御铃、過濾睡互、去重醒颖、排序腰耙、復(fù)雜事件處理等多種算法)的性能測試中然走,“流立方”平臺達(dá)到了單節(jié)點(diǎn)寫入大于43 000 TPS痢站、8節(jié)點(diǎn)讀取大于100萬TPS、平均時延為1~2 ms的優(yōu)異性能阵难,如圖2所示岳枷。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?圖2: “流立方”平臺性能指標(biāo)?

“流立方”平臺在解決批式大數(shù)據(jù)和流式大數(shù)據(jù)融合實(shí)時處理技術(shù)難題,實(shí)現(xiàn)優(yōu)異性能的同時呜叫,還解決了流式大數(shù)據(jù)處理平臺面臨的兩大工程化難題空繁。一是作業(yè)的編排效率問題。大部分開源流處理平臺在完成一個流處理編排時朱庆,都需要經(jīng)過拓?fù)湓O(shè)計(jì)盛泡、代碼編寫、功能測試娱颊、打包部署等環(huán)節(jié)傲诵,一般需要一周的時間才能完成∥桑“流立方”平臺通過基于“所見即所得”的在線作業(yè)編排管理掰吕,將上線任務(wù)耗時降低到分鐘級,大大提升了流處理作業(yè)的編排效率颅痊。二是流處理作業(yè)的靈活變更問題殖熟。流處理平臺擅長進(jìn)行邏輯預(yù)先定義的增量計(jì)算,盡管其計(jì)算效率極高斑响,但計(jì)算靈活度受到限制菱属。

例如钳榨,某業(yè)務(wù)需要統(tǒng)計(jì)過去3個月的數(shù)據(jù),現(xiàn)有的流處理平臺在該業(yè)務(wù)上線3個月后才能完全生效纽门,這樣的工作方式使流處理技術(shù)在實(shí)際應(yīng)用中受到很大的局限薛耻。“流立方”平臺創(chuàng)新性地引入流媒體播放器的錄制與重放思路赏陵,在原始數(shù)據(jù)進(jìn)入流處理平臺時饼齿,通過順序?qū)懙姆绞匠志没环菰紨?shù)據(jù),在需要上線新的計(jì)算作業(yè)時蝙搔,即刻重發(fā)指定時間窗口內(nèi)的原始數(shù)據(jù)缕溉,從而實(shí)現(xiàn)快速(分鐘級甚至秒級)計(jì)算作業(yè)上線。

“流立方”平臺引入了一系列創(chuàng)新技術(shù)吃型,在性能证鸥、可用性、可擴(kuò)展性等多個層面提升了流處理平臺的處理能力勤晚,滿足金融領(lǐng)域在內(nèi)的眾多領(lǐng)域的業(yè)務(wù)及運(yùn)維需求枉层。引入數(shù)據(jù)沖突智能規(guī)避技術(shù),解決了流式處理中的熱點(diǎn)數(shù)據(jù)處理問題赐写,從而解決了大顆粒數(shù)據(jù)維度的處理效率問題;引入Paxos一致性協(xié)議鸟蜡,解決內(nèi)存存儲計(jì)算時多副本一致性問題,提供了面向運(yùn)維人員透明的一致性解決方案;引入智能分區(qū)技術(shù)挺邀,基于一致性散列技術(shù)矩欠,進(jìn)一步將散列值拆解為散列塊,通過散列塊的平滑遷移解決存儲集群的可伸縮性設(shè)計(jì)問題悠夯,確保對于運(yùn)維人員的集群變更透明性;引入計(jì)算作業(yè)的動態(tài)運(yùn)行時加載技術(shù)癌淮,規(guī)避了作業(yè)手工打包部署的問題,進(jìn)一步提升了開發(fā)人員的工作效率沦补。

在國內(nèi)某大型銀行卡收單機(jī)構(gòu)組織的招標(biāo)測試中乳蓄,測試環(huán)節(jié)為兩臺低配置虛擬機(jī),測試數(shù)據(jù)為該機(jī)構(gòu)的數(shù)千萬筆交易流水夕膀,計(jì)算邏輯包括50多條規(guī)則虚倒,涉及30多個統(tǒng)計(jì)指標(biāo)。在該測試環(huán)節(jié)下产舞,兩家國外著名廠商中魂奥,一家廠商的計(jì)算時間長達(dá)24 h,另一家老牌數(shù)據(jù)庫軟件提供商則未能在一天內(nèi)完成計(jì)算易猫。相較于這些國外著名廠商的大數(shù)據(jù)處理平臺耻煤,“流立方”平臺能夠在3 h內(nèi)完成所有計(jì)算,且正確率為100%。

四哈蝇、 應(yīng)用場景

“流立方”流式大數(shù)據(jù)實(shí)時處理系統(tǒng)在金融棺妓、交通、電信炮赦、公安等行業(yè)具有廣泛的應(yīng)用場景怜跑。以金融風(fēng)控反欺詐為例,部署“流立方”風(fēng)控系統(tǒng)僅需在交易前端增加風(fēng)控探頭吠勘,將實(shí)時交易數(shù)據(jù)旁路接入系統(tǒng)性芬。“流立方”風(fēng)控系統(tǒng)根據(jù)融合了專家知識和機(jī)器學(xué)習(xí)結(jié)果的數(shù)百條規(guī)則對每筆交易進(jìn)行風(fēng)險評估剧防,判斷是否允許進(jìn)行該筆交易批旺,流程如圖3所示。該系統(tǒng)平均響應(yīng)時間在6 ms以下诵姜,并發(fā)數(shù)超過50 000筆/s。同時搏熄,實(shí)現(xiàn)這一性能僅需要4臺服務(wù)器棚唆。

? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 圖3:基于“流立方”的金融風(fēng)控反欺詐流程

基于“流立方”的金融風(fēng)控反欺詐技術(shù)體系包含技術(shù)(如設(shè)備指紋、代理偵測心例、生物識別宵凌、關(guān)聯(lián)分析、機(jī)器學(xué)習(xí)等技術(shù))止后、知識(如盜卡反欺詐瞎惫、偽卡反欺詐、信用卡套現(xiàn)译株、營銷反欺詐等規(guī)則與模型)瓜喇、數(shù)據(jù)(如虛假手機(jī)數(shù)據(jù)、代理IP數(shù)據(jù)歉糜、P2P失信數(shù)據(jù)等標(biāo)識數(shù)據(jù))三大板塊乘寒。技術(shù)部分中的設(shè)備指紋技術(shù)通過主被動混合的形式采集設(shè)備中軟硬相關(guān)要素,結(jié)合概率論等算法為每一個設(shè)備頒發(fā)一個全球唯一的指紋編碼匪补,這些指紋編碼在反欺詐的整個過程中起到非常積極的作用伞辛;代理偵測技術(shù)通過短時間內(nèi)掃描IP相關(guān)端口來識別那些開啟代理的IP,并在這些IP訪問金融服務(wù)時進(jìn)行識別;生物識別技術(shù)通過采集設(shè)備上用戶的鼠標(biāo)點(diǎn)擊夯缺、觸摸蚤氏、鍵盤敲擊等行為識別操作者是人還是機(jī)器以及是否操作者本人的問題;關(guān)聯(lián)分析技術(shù)在底層通過圖數(shù)據(jù)庫存儲不同節(jié)點(diǎn)以及關(guān)系信息,最終在界面上通過圖的形式進(jìn)行欺詐者關(guān)聯(lián)分析及復(fù)雜網(wǎng)絡(luò)分析踊兜;機(jī)器學(xué)習(xí)技術(shù)通過有監(jiān)督竿滨、無監(jiān)督的機(jī)器學(xué)習(xí)算法提升欺詐識別的準(zhǔn)確率及覆蓋率,并結(jié)合流立方技術(shù)提供模型的事中預(yù)測能力。

基于上述技術(shù)體系姐呐,研發(fā)了銀行業(yè)務(wù)風(fēng)險實(shí)時監(jiān)控系統(tǒng)殿怜、互聯(lián)網(wǎng)支付業(yè)務(wù)風(fēng)險實(shí)時監(jiān)控系統(tǒng)、電商業(yè)務(wù)風(fēng)險實(shí)時監(jiān)控系統(tǒng)等金融風(fēng)控反欺詐系列解決方案曙砂。這些方案已應(yīng)用到銀行头谜、第三方支付機(jī)構(gòu)、互聯(lián)網(wǎng)金融等領(lǐng)域的上百家企業(yè)鸠澈。目前50%以上的線下交易都在“流立方”的保護(hù)下進(jìn)行柱告,基于“流立方”的金融風(fēng)控反欺詐解決方案每天為我國的金融機(jī)構(gòu)抵御上億次的攻擊。該技術(shù)已經(jīng)成為我國金融安全領(lǐng)域基礎(chǔ)設(shè)施必不可少的組成部分笑陈。

此外际度,在互聯(lián)網(wǎng)機(jī)器防御系統(tǒng)中,“流立方”同樣能發(fā)揮巨大作用涵妥。如今網(wǎng)絡(luò)機(jī)器人遍布票務(wù)乖菱、電商、招聘蓬网、銀行窒所、政府、社交等各類網(wǎng)站帆锋,消耗了40%~60%的網(wǎng)絡(luò)流量吵取。網(wǎng)絡(luò)機(jī)器人不僅消耗網(wǎng)絡(luò)資源、影響正尘庀幔客戶訪問皮官、增加網(wǎng)站運(yùn)營成本,還會爬取產(chǎn)品实辑、價格信息捺氢,形成不正當(dāng)競爭,甚至混淆網(wǎng)站用戶生態(tài)剪撬,影響營銷分析讯沈。傳統(tǒng)的控制策略通過采取屏蔽頻繁訪問、設(shè)置驗(yàn)證碼等方式防御網(wǎng)絡(luò)機(jī)器人婿奔,無法應(yīng)對日益智能化的新型網(wǎng)絡(luò)機(jī)器人缺狠。基于“流立方”的互聯(lián)網(wǎng)機(jī)器防御系統(tǒng)通過在Web服務(wù)器上嵌入插件或者獨(dú)立的嗅探器(sniffer)程序萍摊,將全流量的Web訪問請求旁路到獨(dú)立的機(jī)器防御集群挤茄,進(jìn)行實(shí)時的流量分析及防御決策,并將決策后的結(jié)果實(shí)時回饋到Web服務(wù)器插件中冰木。

Web服務(wù)器插件在判定當(dāng)前訪問的設(shè)備或者IP地址等是機(jī)器人時穷劈,能夠自動改寫響應(yīng)內(nèi)容笼恰,根據(jù)不同的風(fēng)險級別自動拒絕交易或?qū)⒃L問者引導(dǎo)到第三方圖形驗(yàn)證碼服務(wù)商進(jìn)行機(jī)器人驗(yàn)證。訪問者在通過驗(yàn)證后可以繼續(xù)正常訪問Web服務(wù)歇终。該系統(tǒng)還創(chuàng)新地將設(shè)備指紋以及人機(jī)識別服務(wù)運(yùn)用到機(jī)器防御系統(tǒng)中社证,不僅增加了可分析維度,提升了控制顆粒度评凝,同時能夠?qū)跒g覽器內(nèi)核的高級爬蟲進(jìn)行防護(hù)追葡。此外,將機(jī)器防御規(guī)則奕短、數(shù)據(jù)服務(wù)宜肉、設(shè)備指紋、人機(jī)識別以及圖形驗(yàn)證碼以軟件即服務(wù)(software as a service翎碑,SaaS)的形式提供服務(wù)谬返,進(jìn)一步降低了互聯(lián)網(wǎng)網(wǎng)站客戶的運(yùn)維門檻,提升了產(chǎn)品競爭力日杈。

基于“流立方”的實(shí)時機(jī)器防御系統(tǒng)通過多服務(wù)器訪問流水關(guān)聯(lián)決策遣铝、長周期數(shù)據(jù)決策、復(fù)雜規(guī)則爬蟲識別莉擒、設(shè)備維度爬蟲識別酿炸、人機(jī)識別等技術(shù),實(shí)現(xiàn)了微秒級(400~800μs)的識別時延啰劲,同時具有機(jī)器人識別管控一體化、輕量級接入等優(yōu)點(diǎn)檀何。根據(jù)已經(jīng)接入機(jī)器防御服務(wù)的幾十家客戶的反饋蝇裤,基于“流立方”平臺的防御系統(tǒng)對機(jī)器人識別覆蓋率在95%以上,準(zhǔn)確率為99.9%频鉴。該機(jī)器防御系統(tǒng)能夠攔截這些客戶業(yè)務(wù)系統(tǒng)中占原有訪問總流量80%~90%的來自網(wǎng)絡(luò)機(jī)器人的訪問流量栓辜,使得其業(yè)務(wù)系統(tǒng)服務(wù)器的壓力降為原來的10%。由于基于“流立方”的機(jī)器防御系統(tǒng)的卓越識別及控制機(jī)器人的能力垛孔,當(dāng)前藕甩,全國最大的票務(wù)平臺正在對此服務(wù)進(jìn)行全面的測試,希望能夠進(jìn)一步提升其票務(wù)服務(wù)能力周荐。

此外狭莱,基于“流立方”的流式大數(shù)據(jù)實(shí)時處理平臺在智慧交通領(lǐng)域也大有作為。通過實(shí)時分析從預(yù)埋在全國各地的攝像頭采集的車牌信息概作,配合地理位置信息服務(wù)以及基于地理信息系統(tǒng)(geographic information system腋妙,GIS)的最短交通距離計(jì)算,實(shí)現(xiàn)實(shí)時套牌車信息抓取讯榕,為進(jìn)一步打擊違法犯罪服務(wù)提供幫助;通過實(shí)時分析交叉路口雙向的車流量信息骤素,實(shí)時控制每個路口的紅綠燈匙睹、智能變換潮汐車道及可變車道,從而大大提升城市的通行效率济竹。

“熱數(shù)據(jù)”帶來無與倫比的價值痕檬,數(shù)據(jù)從產(chǎn)生開始,其應(yīng)用價值隨時間的流逝呈現(xiàn)指數(shù)式下降送浊,如何充分應(yīng)用“熱數(shù)據(jù)”是一個新生事務(wù)梦谜,是一個長期任務(wù),也是流式大數(shù)據(jù)處理技術(shù)大有可為之處罕袋「氖纾“流立方”流式大數(shù)據(jù)實(shí)時處理技術(shù)和平臺在金融、電信浴讯、交通朵夏、公安、海關(guān)榆纽、網(wǎng)絡(luò)安全等需要引入“事中”感知分析決策模式的行業(yè)都具有廣闊的應(yīng)用前景仰猖。

五 、結(jié)束語

基于批式大數(shù)據(jù)奈籽,可以不斷學(xué)習(xí)新的知識饥侵,累積新的經(jīng)驗(yàn)。然而衣屏,在應(yīng)用這些知識和經(jīng)驗(yàn)時躏升,流式大數(shù)據(jù)更能夠極大限度地挖掘“熱數(shù)據(jù)”的潛在價值。這使得流式大數(shù)據(jù)技術(shù)具備更有效的應(yīng)用推廣價值狼忱。

流式大數(shù)據(jù)實(shí)時處理是大數(shù)據(jù)時代信息化的重要抓手膨疏。采用“事中”甚至“事前”模式實(shí)現(xiàn)感知、分析钻弄、判斷佃却、決策等功能的智能系統(tǒng)需要流式大數(shù)據(jù)實(shí)時處理平臺的支撐。此外窘俺,流式大數(shù)據(jù)實(shí)時處理可以為大數(shù)據(jù)驅(qū)動的深度學(xué)習(xí)提供計(jì)算框架支撐饲帅。“流立方”流式大數(shù)據(jù)實(shí)時處理平臺可為研制融合邏輯推理瘤泪、概率統(tǒng)計(jì)灶泵、眾包、神經(jīng)網(wǎng)絡(luò)等多種形態(tài)的下一代人工智能統(tǒng)一計(jì)算框架提供支持对途。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末丘逸,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子掀宋,更是在濱河造成了極大的恐慌深纲,老刑警劉巖仲锄,帶你破解...
    沈念sama閱讀 219,427評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異湃鹊,居然都是意外死亡儒喊,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,551評論 3 395
  • 文/潘曉璐 我一進(jìn)店門币呵,熙熙樓的掌柜王于貴愁眉苦臉地迎上來怀愧,“玉大人,你說我怎么就攤上這事余赢⌒疽澹” “怎么了?”我有些...
    開封第一講書人閱讀 165,747評論 0 356
  • 文/不壞的土叔 我叫張陵妻柒,是天一觀的道長扛拨。 經(jīng)常有香客問我,道長举塔,這世上最難降的妖魔是什么绑警? 我笑而不...
    開封第一講書人閱讀 58,939評論 1 295
  • 正文 為了忘掉前任,我火速辦了婚禮央渣,結(jié)果婚禮上计盒,老公的妹妹穿的比我還像新娘。我一直安慰自己芽丹,他們只是感情好北启,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,955評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著拔第,像睡著了一般咕村。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上楼肪,一...
    開封第一講書人閱讀 51,737評論 1 305
  • 那天培廓,我揣著相機(jī)與錄音惹悄,去河邊找鬼春叫。 笑死,一個胖子當(dāng)著我的面吹牛泣港,可吹牛的內(nèi)容都是我干的暂殖。 我是一名探鬼主播,決...
    沈念sama閱讀 40,448評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼当纱,長吁一口氣:“原來是場噩夢啊……” “哼呛每!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起坡氯,我...
    開封第一講書人閱讀 39,352評論 0 276
  • 序言:老撾萬榮一對情侶失蹤晨横,失蹤者是張志新(化名)和其女友劉穎洋腮,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體手形,經(jīng)...
    沈念sama閱讀 45,834評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡啥供,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,992評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了库糠。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片伙狐。...
    茶點(diǎn)故事閱讀 40,133評論 1 351
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖瞬欧,靈堂內(nèi)的尸體忽然破棺而出贷屎,到底是詐尸還是另有隱情,我是刑警寧澤艘虎,帶...
    沈念sama閱讀 35,815評論 5 346
  • 正文 年R本政府宣布唉侄,位于F島的核電站,受9級特大地震影響顷帖,放射性物質(zhì)發(fā)生泄漏美旧。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,477評論 3 331
  • 文/蒙蒙 一贬墩、第九天 我趴在偏房一處隱蔽的房頂上張望榴嗅。 院中可真熱鬧,春花似錦陶舞、人聲如沸嗽测。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,022評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽唠粥。三九已至,卻和暖如春停做,著一層夾襖步出監(jiān)牢的瞬間晤愧,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,147評論 1 272
  • 我被黑心中介騙來泰國打工蛉腌, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留官份,地道東北人。 一個月前我還...
    沈念sama閱讀 48,398評論 3 373
  • 正文 我出身青樓烙丛,卻偏偏與公主長得像舅巷,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子河咽,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,077評論 2 355

推薦閱讀更多精彩內(nèi)容

  • 前言:前段時間接觸過一個流式計(jì)算的任務(wù)钠右,使用了阿里巴巴集團(tuán)的JStorm,發(fā)現(xiàn)這個領(lǐng)域值得探索忘蟹,就發(fā)現(xiàn)了這篇文章—...
    程序熊大閱讀 6,295評論 5 31
  • 2018年7月7日 姓名:潘紅軍 公司 :揚(yáng)州市方圓建筑工程有限公司 【日精進(jìn)打卡第165天】 南京第349期 ...
    5119a64ee3ab閱讀 102評論 0 0
  • 今天媽媽給我布置好作業(yè)就去上班兒了飒房。只有我和爸爸還有妹妹在家搁凸。 我沒看電視只是認(rèn)真的寫作業(yè)。寫完之后我又讀...
    劉辰騰閱讀 273評論 0 1
  • 今天聽人說起“伏龍計(jì)劃”,原來沒有聽說過呢垃你?心里很好奇椅文!干啥滴呢?讓我查查看惜颇,順便掃個盲皆刺! 正愁沒話題,剛好打個“...
    恬淡書蟲閱讀 1,128評論 0 0
  • 下午看到一篇介紹Git工作模型的文章凌摄,覺得很不錯羡蛾。為了方便大家快速掌握文章的內(nèi)容,這里對這篇文章的要點(diǎn)進(jìn)行簡單的介...
    Chuckiefan閱讀 23,465評論 14 87