常見大數(shù)據(jù)系統(tǒng)架構(gòu)方案

業(yè)務(wù)流程圖
業(yè)務(wù)流程圖

首先業(yè)務(wù)流程圖鎮(zhèn)樓僧凤,常見的大數(shù)據(jù)系統(tǒng)結(jié)構(gòu)如上圖所示,主要由這么幾個(gè)部分構(gòu)成

  1. 數(shù)據(jù)采集 - flume收集業(yè)務(wù)方上報(bào)的數(shù)據(jù)烤蜕;
  2. 數(shù)據(jù)存儲(chǔ)層 - 依賴HDFS提供的強(qiáng)大的分布式數(shù)據(jù)存儲(chǔ)方案蚕断,主要是使用Hbase進(jìn)行數(shù)據(jù)存儲(chǔ);
  3. 協(xié)調(diào)&調(diào)度層面 - 常見的就是zookeeper,主要是用于分布式系統(tǒng)中的資源協(xié)調(diào)嚣州;
  4. 實(shí)時(shí)處理框架(計(jì)算框架) - 用于海量數(shù)據(jù)的計(jì)算鲫售,常見的分析框架由spark、storm或者samza该肴;
  5. 數(shù)據(jù)分析層 - 企業(yè)大數(shù)據(jù)系統(tǒng)必然是基于業(yè)務(wù)并且反哺業(yè)務(wù)的情竹,提供簡(jiǎn)單易用的數(shù)據(jù)分析功能給到業(yè)務(wù)方也是必然要求。
一匀哄、數(shù)據(jù)采集

數(shù)據(jù)分析的基礎(chǔ)是數(shù)據(jù)采集秦效,flume提供了從分散的或者集中的數(shù)據(jù)源采集、聚合和傳輸海量日志的能力涎嚼。這里通過一個(gè)實(shí)際的案例介紹數(shù)據(jù)采集的重要性以及flume具備的一些能力阱州。
例:播放器內(nèi)常見的數(shù)字專輯業(yè)務(wù),業(yè)務(wù)方需要通過數(shù)據(jù)優(yōu)化購(gòu)買轉(zhuǎn)化率铸抑,就可以通過以下方案進(jìn)行處理
定義數(shù)據(jù):總轉(zhuǎn)化率 = 購(gòu)買用戶/進(jìn)入業(yè)務(wù)中的用戶贡耽;單步轉(zhuǎn)化率 = 下一步用戶/進(jìn)入業(yè)務(wù)中的用戶
埋點(diǎn)收集數(shù)據(jù):通過flume收集web或者客戶端通過SDK上報(bào)的數(shù)據(jù),并經(jīng)過簡(jiǎn)單整理后將數(shù)據(jù)傳輸至存儲(chǔ)層鹊汛;

二蒲赂、數(shù)據(jù)存儲(chǔ)

依據(jù)對(duì)一致性(consistency)要求的強(qiáng)弱不同,分布式數(shù)據(jù)存儲(chǔ)策略可分為ACID和BASE兩大陣營(yíng)刁憋。其中ACID類型的數(shù)據(jù)對(duì)一致性的要求比較強(qiáng)滥嘴,數(shù)據(jù)庫(kù)的事務(wù)處理結(jié)果必須使得數(shù)據(jù)庫(kù)從一個(gè)一致性狀態(tài)變更為另一個(gè)一致性狀態(tài);BASE類型則以犧牲強(qiáng)一致性至耻,獲得基本可用性和柔性可靠性若皱,并要求達(dá)到最終一致性。

這里提一下BASE類型里的HBase尘颓,HBase設(shè)計(jì)理念來源于谷歌的BigTable走触,是目前商用場(chǎng)景下使用最多的數(shù)據(jù)存儲(chǔ)方案,提供了毫秒級(jí)別的查詢疤苹,百億級(jí)別的數(shù)據(jù)也能提供較高效率的處理互广;

三、協(xié)調(diào)&調(diào)度層
  1. 調(diào)度器 - 主要用于分布式系統(tǒng)中的一些資源的調(diào)度卧土,例如計(jì)算能力惫皱、延遲等,例如YARM尤莺;
  2. 協(xié)調(diào)器 - 在分布式系統(tǒng)中主要用于協(xié)調(diào)服務(wù)和進(jìn)行狀態(tài)管理旅敷。

提一下結(jié)構(gòu)圖中的zookeeper,zookeeper是apache hadoop框架中的分布式應(yīng)用的協(xié)調(diào)程序颤霎,主要為分布式應(yīng)用提供一致性服務(wù)媳谁,主要包括以下功能:配置維護(hù)涂滴、域名服務(wù)、分布式同步韩脑、組服務(wù)等氢妈。簡(jiǎn)單來說,就是將復(fù)雜的段多、易出錯(cuò)的關(guān)鍵服務(wù)封裝好首量,提供簡(jiǎn)單易用的接口、功能的穩(wěn)定給用戶进苍。

四加缘、計(jì)算框架

常見的數(shù)據(jù)處理方案有以下兩種

  1. 流處理 - 一般用于處理連續(xù)不斷的數(shù)據(jù)流,注重?cái)?shù)據(jù)處理的時(shí)效性觉啊;
  2. 批處理 - 實(shí)時(shí)性較差拣宏,一般用于處理大規(guī)模數(shù)據(jù)集,例如業(yè)務(wù)方累計(jì)的歷史數(shù)據(jù)杠人。

典型的批處理系統(tǒng)就是Hadoop 提供的MapReduce勋乾。而常見的流處理系統(tǒng)有Apache Storm,Apache Samza嗡善。還有一種系統(tǒng)辑莫,同時(shí)具備批處理與流處理的能力,這種稱為混合處理系統(tǒng)罩引,比如Apache Spark各吨,Apache Flink。

商用場(chǎng)景下袁铐,最常使用的計(jì)算框架是Spark揭蜒,它是一個(gè)基于內(nèi)存計(jì)算的開源的集群計(jì)算系統(tǒng);主要優(yōu)勢(shì)是數(shù)據(jù)分析速度更快剔桨,內(nèi)存計(jì)算框架適合各種迭代算法和交互式數(shù)據(jù)分析屉更,能夠提升大數(shù)據(jù)處理的實(shí)時(shí)性和準(zhǔn)確性,國(guó)內(nèi)的阿里巴巴洒缀、網(wǎng)易均是其用戶偶垮。

五、數(shù)據(jù)分析層

數(shù)據(jù)分析層中的工具帝洪,涵蓋范圍很廣,從諸如SQL的聲明式編程語言脚猾,到諸如Pig的過程化編程語言葱峡,均有涉及,同時(shí)數(shù)據(jù)分析層支持常見的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)算法龙助,這些類庫(kù)可拿來即用砰奕,可以極大的提高使用效率蛛芥;

這里提一下Phoenix,它是 HBase 的 SQL 驅(qū)動(dòng)军援,可以將普通的SQL查詢轉(zhuǎn)成 HBase 的掃描及相應(yīng)的動(dòng)作仅淑。作為產(chǎn)品或者數(shù)據(jù)分析師,建議熟練掌握SQL


Hive:Hive是一個(gè)建立于 Hadoop 上的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)構(gòu)架胸哥。它用來進(jìn)行數(shù)據(jù)的提取涯竟、轉(zhuǎn)化和加載(即Extract-Transform-Load ,ETL)空厌,它是一種可以存儲(chǔ)庐船、查詢和分析存儲(chǔ)在 Hadoop 中的大規(guī)模數(shù)據(jù)的機(jī)制。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末嘲更,一起剝皮案震驚了整個(gè)濱河市筐钟,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌赋朦,老刑警劉巖篓冲,帶你破解...
    沈念sama閱讀 223,207評(píng)論 6 521
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異宠哄,居然都是意外死亡壹将,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,455評(píng)論 3 400
  • 文/潘曉璐 我一進(jìn)店門琳拨,熙熙樓的掌柜王于貴愁眉苦臉地迎上來瞭恰,“玉大人,你說我怎么就攤上這事狱庇【罚” “怎么了?”我有些...
    開封第一講書人閱讀 170,031評(píng)論 0 366
  • 文/不壞的土叔 我叫張陵密任,是天一觀的道長(zhǎng)颜启。 經(jīng)常有香客問我,道長(zhǎng)浪讳,這世上最難降的妖魔是什么缰盏? 我笑而不...
    開封第一講書人閱讀 60,334評(píng)論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮淹遵,結(jié)果婚禮上口猜,老公的妹妹穿的比我還像新娘。我一直安慰自己透揣,他們只是感情好济炎,可當(dāng)我...
    茶點(diǎn)故事閱讀 69,322評(píng)論 6 398
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著辐真,像睡著了一般须尚。 火紅的嫁衣襯著肌膚如雪崖堤。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,895評(píng)論 1 314
  • 那天耐床,我揣著相機(jī)與錄音密幔,去河邊找鬼。 笑死撩轰,一個(gè)胖子當(dāng)著我的面吹牛胯甩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播钧敞,決...
    沈念sama閱讀 41,300評(píng)論 3 424
  • 文/蒼蘭香墨 我猛地睜開眼蜡豹,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了溉苛?” 一聲冷哼從身側(cè)響起镜廉,我...
    開封第一講書人閱讀 40,264評(píng)論 0 277
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎愚战,沒想到半個(gè)月后娇唯,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,784評(píng)論 1 321
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡寂玲,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,870評(píng)論 3 343
  • 正文 我和宋清朗相戀三年塔插,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片拓哟。...
    茶點(diǎn)故事閱讀 40,989評(píng)論 1 354
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡想许,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出断序,到底是詐尸還是另有隱情流纹,我是刑警寧澤,帶...
    沈念sama閱讀 36,649評(píng)論 5 351
  • 正文 年R本政府宣布违诗,位于F島的核電站漱凝,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏诸迟。R本人自食惡果不足惜茸炒,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 42,331評(píng)論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望阵苇。 院中可真熱鬧壁公,春花似錦、人聲如沸绅项。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,814評(píng)論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽趁怔。三九已至湿硝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間润努,已是汗流浹背关斜。 一陣腳步聲響...
    開封第一講書人閱讀 33,940評(píng)論 1 275
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留铺浇,地道東北人痢畜。 一個(gè)月前我還...
    沈念sama閱讀 49,452評(píng)論 3 379
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像鳍侣,于是被迫代替她去往敵國(guó)和親丁稀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,995評(píng)論 2 361

推薦閱讀更多精彩內(nèi)容

  • “總有一天你會(huì)懂得倚聚, 不管你有多不舒服线衫, 還是要在領(lǐng)導(dǎo)敬酒時(shí),一飲而盡惑折; 不管你有多不愿意授账, 還是要接受一些不屬于...
    風(fēng)中細(xì)雨閱讀 109評(píng)論 0 1
  • 2017.9.15 星期5 累并快樂著 欣賞自己:好久沒有喝過酒了,今天真的是情到深處自然醉惨驶!和優(yōu)秀的人在一起這種...
    霞霞姐魔姝創(chuàng)始人閱讀 189評(píng)論 0 0
  • 不能想起來昨天夢(mèng)到了什么 金也要去sjc嗎 既然找到了 看來也不是那么難覓 天瘋這本書 雖然是編的 但是我覺得還是...
    gptsgtormf閱讀 97評(píng)論 0 1
  • js 在插入元素時(shí)白热,可以直接插入,也可以先把元素存入文檔碎片粗卜,在進(jìn)行插入屋确,但是文檔碎片只是在理論中可以提高操作性能...
    發(fā)光驢子閱讀 465評(píng)論 0 0