基于Kafka+SparkStreaming+OushuDB搭建批流一體大數(shù)據(jù)分析架構(gòu)

實(shí)時(shí)消息Kafka

Kafka是最初由Linkedin公司開發(fā)串前,是一個(gè)分布式、分區(qū)的实蔽、多副本的荡碾、多訂閱者,基于zookeeper協(xié)調(diào)的分布式日志系統(tǒng)(也可以當(dāng)做MQ系統(tǒng))局装,常見可以用于web/nginx日志坛吁、訪問日志劳殖,消息服務(wù)等等,Linkedin于2010年貢獻(xiàn)給了Apache基金會(huì)并成為頂級(jí)開源項(xiàng)目拨脉。

主要應(yīng)用場景是:日志收集系統(tǒng)和消息系統(tǒng)哆姻。

Kafka主要設(shè)計(jì)目標(biāo)如下:

以時(shí)間復(fù)雜度為O(1)的方式提供消息持久化能力,即使對(duì)TB級(jí)以上數(shù)據(jù)也能保證常數(shù)時(shí)間的訪問性能玫膀。

高吞吐率矛缨。即使在非常廉價(jià)的商用機(jī)器上也能做到單機(jī)支持每秒100K條消息的傳輸。

支持Kafka Server間的消息分區(qū)帖旨,及分布式消費(fèi)劳景,同時(shí)保證每個(gè)partition內(nèi)的消息順序傳輸。

同時(shí)支持離線數(shù)據(jù)處理和實(shí)時(shí)數(shù)據(jù)處理碉就。

Scale out:支持在線水平擴(kuò)展

流式計(jì)算Spark Streaming

Apache Flink框架的實(shí)時(shí)計(jì)算模型是基于Dataflow Model實(shí)現(xiàn)的,支持定義DAG圖闷串;支持定義各類窗口(固定窗口瓮钥、滑動(dòng)窗口和Session窗口);支持靈活定義計(jì)算觸發(fā)時(shí)間烹吵;支持豐富的Function定義數(shù)據(jù)更新模式碉熄。和Spark Streaming一樣,F(xiàn)link支持分層API肋拔,支持DataStream API锈津,Process Function,SQL凉蜂。Flink最大特點(diǎn)在于其實(shí)時(shí)計(jì)算的正確性保證:Exactly once琼梆,原生支持事件時(shí)間,支持延時(shí)數(shù)據(jù)處理窿吩。

Spark Streaming的實(shí)現(xiàn)非常簡單茎杂,通過微批次將實(shí)時(shí)數(shù)據(jù)拆成一個(gè)個(gè)批處理任務(wù),通過批處理的方式完成各個(gè)子Batch纫雁。Spark Streaming的API也非常簡單靈活煌往,既可以用DStream的java/scala API,也可以使用SQL定義處理邏輯轧邪。但Spark Streaming受限于微批次處理模型刽脖,業(yè)務(wù)方需要完成一個(gè)真正意義上的實(shí)時(shí)計(jì)算會(huì)非常困難,比如基于數(shù)據(jù)事件時(shí)間忌愚、數(shù)據(jù)晚到后的處理曲管,都得用戶進(jìn)行大量編程實(shí)現(xiàn)。Spark Streaming的優(yōu)勢體現(xiàn)在高性能的對(duì)海量實(shí)時(shí)數(shù)據(jù)的采集落盤菜循。

Hadoop分布式文件系統(tǒng)(hadoopdistributed filesystem翘地,HDFS)

HDFS是一個(gè)高度容錯(cuò)性的系統(tǒng)申尤,適合部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問衙耕,非常適合大規(guī)模數(shù)據(jù)集上的應(yīng)用昧穿。HDFS可以實(shí)現(xiàn)流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。

它是基于流數(shù)據(jù)模式的訪問和處理超大文件橙喘。

特點(diǎn):

錯(cuò)誤檢測和快速时鸵、自動(dòng)的恢復(fù)是 HDFS的核心架構(gòu)目標(biāo)

HDFS 以支持大數(shù)據(jù)集合為目標(biāo),一個(gè)存儲(chǔ)在上面的典型文件大小一般都在千兆至 T字節(jié)厅瞎,一個(gè)單一 HDFS實(shí)例應(yīng)該能支撐數(shù)以千萬計(jì)的文件饰潜。

主從架構(gòu)。

文件采用write-one-read-many訪問模型(一次寫和簸,多次讀彭雾,不可更新已有內(nèi)容)

跑在 HDFS上的應(yīng)用與一般的應(yīng)用不同,它們主要是以流式讀為主锁保,做批量處理薯酝;比之關(guān)注數(shù)據(jù)訪問的低延遲問題,更關(guān)鍵的在于數(shù)據(jù)訪問的高吞吐量爽柒。

批處理計(jì)算引擎OushuDB

Oushu Database(簡稱OushuDB)是由Apache HAWQ創(chuàng)始團(tuán)隊(duì)打造的新一代云原生數(shù)據(jù)倉庫吴菠,該產(chǎn)品采用了存儲(chǔ)與計(jì)算分離技術(shù)架構(gòu),具有MPP的所有優(yōu)點(diǎn)浩村,還具有彈性做葵,支持混合工作負(fù)載和高擴(kuò)展性等優(yōu)點(diǎn)。 高可擴(kuò)展心墅,遵循ANSI-SQL標(biāo)準(zhǔn)酿矢,具有極速執(zhí)行器,提供PB級(jí)數(shù)據(jù)交互式查詢能力怎燥。并且提供對(duì)主要BI工具的描述性分析支持棠涮。兼容Oracle,GPDB和PostgreSQL刺覆,可以輕松取代傳統(tǒng)數(shù)據(jù)倉庫包括Teradata严肪,Oracle,DB2谦屑,Greenplum和SQL-on-Hadoop引擎驳糯。

Oushu Database和Apache HAWQ的不同

全新執(zhí)行引擎,充分利用硬件的所有特性氢橙,比Apache HAWQ性能高出5-10倍

支持Update和Delete酝枢,以及索引

C++可插拔外部存儲(chǔ)

替換JAVA PXF,性能高數(shù)倍悍手,無需安裝部署PXF額外組件帘睦,極大簡化了用戶安裝部署和運(yùn)維

原生支持CSV/TEXT外部存儲(chǔ)

可以用于不同集群之間共享數(shù)據(jù)袍患,比如數(shù)據(jù)倉庫和集市之間共享及傳輸數(shù)據(jù)

可以用于高速數(shù)據(jù)加載和數(shù)據(jù)導(dǎo)出

可以實(shí)現(xiàn)可插拔文件系統(tǒng):比如S3, Ceph等

可以實(shí)現(xiàn)可插拔文件格式:比如ORC,Parquet等

支持ORC/TEXT/CSV作為內(nèi)部表格式竣付,支持ORC作為外部表格式 (通過C++可插拔外部存儲(chǔ))

csv和text文件格式中對(duì)非ASCII字符串或長度大于1的字符串作為分隔符的支持

基于OushuDB搭建批流一體大數(shù)據(jù)分析架構(gòu)

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末诡延,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子古胆,更是在濱河造成了極大的恐慌肆良,老刑警劉巖,帶你破解...
    沈念sama閱讀 222,464評(píng)論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件逸绎,死亡現(xiàn)場離奇詭異惹恃,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)棺牧,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,033評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門巫糙,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人颊乘,你說我怎么就攤上這事曲秉。” “怎么了疲牵?”我有些...
    開封第一講書人閱讀 169,078評(píng)論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長榆鼠。 經(jīng)常有香客問我纲爸,道長,這世上最難降的妖魔是什么妆够? 我笑而不...
    開封第一講書人閱讀 59,979評(píng)論 1 299
  • 正文 為了忘掉前任识啦,我火速辦了婚禮,結(jié)果婚禮上神妹,老公的妹妹穿的比我還像新娘颓哮。我一直安慰自己,他們只是感情好鸵荠,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,001評(píng)論 6 398
  • 文/花漫 我一把揭開白布冕茅。 她就那樣靜靜地躺著,像睡著了一般蛹找。 火紅的嫁衣襯著肌膚如雪姨伤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,584評(píng)論 1 312
  • 那天庸疾,我揣著相機(jī)與錄音乍楚,去河邊找鬼。 笑死届慈,一個(gè)胖子當(dāng)著我的面吹牛徒溪,可吹牛的內(nèi)容都是我干的忿偷。 我是一名探鬼主播,決...
    沈念sama閱讀 41,085評(píng)論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼臊泌,長吁一口氣:“原來是場噩夢啊……” “哼鲤桥!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起缺虐,我...
    開封第一講書人閱讀 40,023評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤芜壁,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后高氮,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體慧妄,經(jīng)...
    沈念sama閱讀 46,555評(píng)論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,626評(píng)論 3 342
  • 正文 我和宋清朗相戀三年剪芍,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了塞淹。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,769評(píng)論 1 353
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡罪裹,死狀恐怖饱普,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情状共,我是刑警寧澤套耕,帶...
    沈念sama閱讀 36,439評(píng)論 5 351
  • 正文 年R本政府宣布,位于F島的核電站峡继,受9級(jí)特大地震影響冯袍,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜碾牌,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,115評(píng)論 3 335
  • 文/蒙蒙 一康愤、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧舶吗,春花似錦征冷、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,601評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至腹侣,卻和暖如春呵扛,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背筐带。 一陣腳步聲響...
    開封第一講書人閱讀 33,702評(píng)論 1 274
  • 我被黑心中介騙來泰國打工今穿, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人伦籍。 一個(gè)月前我還...
    沈念sama閱讀 49,191評(píng)論 3 378
  • 正文 我出身青樓蓝晒,卻偏偏與公主長得像腮出,于是被迫代替她去往敵國和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子芝薇,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,781評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容