企業(yè)大數(shù)據(jù)平臺(tái)能力分析和技術(shù)選型(Flume齐苛、MongoDB翘盖、Storm等)

隨著物聯(lián)網(wǎng)、智能設(shè)備和人工智能等先進(jìn)技術(shù)在企業(yè)生產(chǎn)運(yùn)營(yíng)過程中的廣泛應(yīng)用凹蜂,隨之而來(lái)的是大量的數(shù)據(jù)產(chǎn)生馍驯。如何采集阁危、存儲(chǔ)海量大數(shù)據(jù),深入挖掘數(shù)據(jù)的潛在價(jià)值汰瘫,為企業(yè)的生產(chǎn)運(yùn)營(yíng)提供可靠保障狂打,進(jìn)而提升企業(yè)經(jīng)濟(jì)效益,是越來(lái)越多的企業(yè)迫切解決的問題混弥。近年來(lái)趴乡,很多企業(yè)建設(shè)內(nèi)部統(tǒng)一的大數(shù)據(jù)平臺(tái),利用集群架構(gòu)去整合資源與服務(wù)蝗拿,從而發(fā)揮企業(yè)諸如資源共享晾捏、數(shù)據(jù)共享和服務(wù)共享等優(yōu)勢(shì)。那么哀托,企業(yè)級(jí)大數(shù)據(jù)平臺(tái)應(yīng)具備什么樣的基本能力以及如何進(jìn)行相關(guān)技術(shù)選型呢惦辛?企業(yè)級(jí)大數(shù)據(jù)平臺(tái)至少應(yīng)具備基本以下幾種能力,如下圖所示:

企業(yè)大數(shù)據(jù)平臺(tái)基本能力

接下來(lái)萤捆,我們將針對(duì)以上五種能力裙品,逐個(gè)進(jìn)行闡述:

數(shù)據(jù)收集能力公司和企業(yè)內(nèi)部每天在不斷產(chǎn)生數(shù)據(jù)俗批,這些信息可能會(huì)有更高的商業(yè)價(jià)值俗或。企業(yè)內(nèi)部數(shù)據(jù)關(guān)注的的是整體運(yùn)行和經(jīng)營(yíng)情況,也是企業(yè)核心業(yè)務(wù)指標(biāo)的分析來(lái)源岁忘。因此辛慰,對(duì)數(shù)據(jù)接入的實(shí)時(shí)性、可靠性要求較高干像,考慮到這一點(diǎn)要求帅腌,內(nèi)部數(shù)據(jù)的收集應(yīng)具備推送和拉取兩大能力,這兩種能力各有優(yōu)缺點(diǎn)麻汰。推送模式的主動(dòng)權(quán)在數(shù)據(jù)源方速客,在高峰期,推送的數(shù)據(jù)量過大五鲫,造成數(shù)據(jù)接入方的壓力過大或無(wú)法及時(shí)處理溺职。一種解決方案是加上消息隊(duì)列,進(jìn)行一步處理位喂,以達(dá)到緩沖效果浪耘。如下圖所示:


推送模式

拉取模式的主動(dòng)權(quán)在數(shù)據(jù)接入方,可以根據(jù)業(yè)務(wù)應(yīng)用的需要塑崖,周期性讀取數(shù)據(jù)七冲,高峰期產(chǎn)生的海量數(shù)據(jù)會(huì)在閑時(shí)被消化,關(guān)鍵的問題是數(shù)據(jù)處理的延遲明顯增加规婆。如下圖所示:


拉取模式

技術(shù)選型上推薦Flume澜躺。Flume是一個(gè)分布式蝉稳、高可靠和高可用的數(shù)據(jù)采集采集系統(tǒng),提供推送和拉取兩種采集模式掘鄙。當(dāng)然颠区,我們還需要根據(jù)企業(yè)生產(chǎn)運(yùn)營(yíng)數(shù)據(jù)特征,解決如何建立起一套標(biāo)準(zhǔn)化通铲、規(guī)范化的數(shù)據(jù)模型體系毕莱,以及靈活、可擴(kuò)展的技術(shù)體系颅夺,以適應(yīng)體量大朋截、多源異構(gòu)的海量數(shù)據(jù)接入需求。

數(shù)據(jù)存儲(chǔ)能力面對(duì)與日俱增的海量數(shù)據(jù)吧黄,企業(yè)大數(shù)據(jù)平臺(tái)如何存放它們呢部服?是持久化存儲(chǔ)還是非持久化存儲(chǔ)?如何提供業(yè)務(wù)應(yīng)用和數(shù)據(jù)分析要求的高效查詢能力呢拗慨?數(shù)據(jù)存儲(chǔ)應(yīng)具備持久化存儲(chǔ)和非持久化存儲(chǔ)兩種能力廓八。

對(duì)于持久化的存儲(chǔ)而言,最關(guān)鍵的問題是選擇文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)赵抢。在大數(shù)據(jù)時(shí)代剧蹂,單臺(tái)計(jì)算機(jī)已經(jīng)無(wú)法滿足數(shù)據(jù)存儲(chǔ)和處理的需求,必須采用集群化的方案烦却。近幾年宠叼,NoSQL(Not Only SQL)非關(guān)系型數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生且逐漸成熟,其產(chǎn)生就是解決海量數(shù)據(jù)所帶來(lái)的大數(shù)據(jù)應(yīng)用難題其爵。技術(shù)選型上推薦分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和對(duì)應(yīng)的分布式非關(guān)系型(非結(jié)構(gòu)化)數(shù)據(jù)庫(kù)系統(tǒng)HBase冒冬,以及另一個(gè)非關(guān)系型的數(shù)據(jù)庫(kù)MongoDB。

無(wú)論是Hadoop的HDFS摩渺、HBase還是MongoDB等非關(guān)系型數(shù)據(jù)庫(kù)简烤,都是為了解決大量數(shù)據(jù)的高效分布式存儲(chǔ)。雖然具體的實(shí)現(xiàn)方式和應(yīng)用場(chǎng)景有所不同摇幻,但目標(biāo)均是為了數(shù)據(jù)持久化存儲(chǔ)横侦。還有一種數(shù)據(jù)存儲(chǔ)方式是在內(nèi)存中的非持久化存儲(chǔ),特征是數(shù)據(jù)量不大囚企,斷電會(huì)丟失丈咐,但讀取速度非常快龙宏。非持久化存儲(chǔ)一般采用散列(Hash)的Key-Value存儲(chǔ)方式棵逊,適合使用緩存(Cache)的應(yīng)用場(chǎng)景。技術(shù)選型上推薦常用的Memcached银酗、Berkeley DB和Redis辆影。

數(shù)據(jù)處理能力企業(yè)級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)處理能力集中在用戶如何利用現(xiàn)有的數(shù)據(jù)進(jìn)行查詢和分析徒像,最終達(dá)到商業(yè)目標(biāo),要充分體現(xiàn)數(shù)據(jù)價(jià)值蛙讥,就需對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的加工锯蛀、分析和挖掘。根據(jù)數(shù)據(jù)處理的及時(shí)性不同次慢,主要分為在線實(shí)時(shí)處理和離線批量處理旁涤,在線和離線的區(qū)別就在于對(duì)實(shí)時(shí)性的要求。由于離線對(duì)于響應(yīng)沒有過高的要求迫像,因此適合對(duì)海量數(shù)據(jù)進(jìn)行批量處理的應(yīng)用場(chǎng)景劈愚。推薦的技術(shù):Hadoop的MapReduce和Spark。離線批量處理在一定程度上解決了大規(guī)模數(shù)據(jù)并行處理問題闻妓,當(dāng)數(shù)據(jù)產(chǎn)生頻率高菌羽、更新時(shí)間快的情況下,在線實(shí)時(shí)處理的優(yōu)勢(shì)就會(huì)體現(xiàn)出來(lái)了由缆。當(dāng)然注祖,在線實(shí)時(shí)處理始終要依賴及時(shí)消息機(jī)制來(lái)支撐其運(yùn)行,例如均唉,Kafka是晨、MQ等消息中間件。消息機(jī)制可以及時(shí)通知在線實(shí)時(shí)處理程序進(jìn)行相應(yīng)的處理浸卦,比起離線批量處理方式署鸡,在線實(shí)時(shí)處理可以極大提升實(shí)時(shí)性案糙。推薦的技術(shù)方案:Storm限嫌、Spark Streaming。

信息檢索能力信息檢索側(cè)重于信息的相關(guān)性和查詢的高效性时捌,包含三個(gè)子領(lǐng)域:搜索引擎怒医、推薦系統(tǒng)、在線廣告奢讨。在企業(yè)大數(shù)據(jù)平臺(tái)應(yīng)用應(yīng)具備的能力是實(shí)現(xiàn)全文檢索功能或者建立完整的全文檢索引擎稚叹。技術(shù)選型上推薦Lucene、Solar拿诸、Elasticsearch扒袖。

數(shù)據(jù)挖掘能力數(shù)據(jù)挖掘側(cè)重于發(fā)現(xiàn)數(shù)據(jù)內(nèi)部更深層次的價(jià)值。數(shù)據(jù)挖掘的類型亩码,分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)和非結(jié)構(gòu)化數(shù)據(jù)兩大類季率。根據(jù)數(shù)據(jù)挖掘目標(biāo)的不同,數(shù)據(jù)挖掘的任務(wù)和技術(shù)也有所不同描沟,一般的數(shù)據(jù)挖掘主題應(yīng)具備集中能力:發(fā)現(xiàn)關(guān)聯(lián)性的頻繁項(xiàng)分析飒泻、用于預(yù)測(cè)的分類和回歸分析鞭光、發(fā)現(xiàn)相似性的聚類分析、發(fā)現(xiàn)離群現(xiàn)象的異常點(diǎn)分析等泞遗。推薦技術(shù)研究方向包括分類監(jiān)督學(xué)習(xí)惰许、回歸監(jiān)督學(xué)習(xí)、聚類非監(jiān)督學(xué)習(xí)史辙,挖掘工具推薦Mahout和R汹买。

結(jié)束語(yǔ):企業(yè)級(jí)大數(shù)據(jù)平臺(tái)基本能力概括為:數(shù)據(jù)收集能力、數(shù)據(jù)存儲(chǔ)能力聊倔、數(shù)據(jù)處理能力卦睹、信息檢索能力和數(shù)據(jù)挖掘能力。企業(yè)大數(shù)據(jù)平臺(tái)應(yīng)至少具備這五種能力方库,才能實(shí)現(xiàn)真正意義上的大數(shù)據(jù)平臺(tái)應(yīng)用结序。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市纵潦,隨后出現(xiàn)的幾起案子徐鹤,更是在濱河造成了極大的恐慌,老刑警劉巖邀层,帶你破解...
    沈念sama閱讀 217,185評(píng)論 6 503
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件返敬,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡寥院,警方通過查閱死者的電腦和手機(jī)劲赠,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,652評(píng)論 3 393
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)秸谢,“玉大人凛澎,你說我怎么就攤上這事」捞悖” “怎么了塑煎?”我有些...
    開封第一講書人閱讀 163,524評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)臭蚁。 經(jīng)常有香客問我最铁,道長(zhǎng),這世上最難降的妖魔是什么垮兑? 我笑而不...
    開封第一講書人閱讀 58,339評(píng)論 1 293
  • 正文 為了忘掉前任冷尉,我火速辦了婚禮,結(jié)果婚禮上系枪,老公的妹妹穿的比我還像新娘雀哨。我一直安慰自己,他們只是感情好嗤无,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,387評(píng)論 6 391
  • 文/花漫 我一把揭開白布震束。 她就那樣靜靜地躺著怜庸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪垢村。 梳的紋絲不亂的頭發(fā)上割疾,一...
    開封第一講書人閱讀 51,287評(píng)論 1 301
  • 那天,我揣著相機(jī)與錄音嘉栓,去河邊找鬼宏榕。 笑死,一個(gè)胖子當(dāng)著我的面吹牛侵佃,可吹牛的內(nèi)容都是我干的麻昼。 我是一名探鬼主播,決...
    沈念sama閱讀 40,130評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼馋辈,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼抚芦!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起迈螟,我...
    開封第一講書人閱讀 38,985評(píng)論 0 275
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤叉抡,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后答毫,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體褥民,經(jīng)...
    沈念sama閱讀 45,420評(píng)論 1 313
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,617評(píng)論 3 334
  • 正文 我和宋清朗相戀三年洗搂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了消返。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,779評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡耘拇,死狀恐怖撵颊,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情驼鞭,我是刑警寧澤秦驯,帶...
    沈念sama閱讀 35,477評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站挣棕,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏亲桥。R本人自食惡果不足惜洛心,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,088評(píng)論 3 328
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望题篷。 院中可真熱鬧词身,春花似錦、人聲如沸番枚。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,716評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)。三九已至深啤,卻和暖如春拗馒,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背溯街。 一陣腳步聲響...
    開封第一講書人閱讀 32,857評(píng)論 1 269
  • 我被黑心中介騙來(lái)泰國(guó)打工诱桂, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人呈昔。 一個(gè)月前我還...
    沈念sama閱讀 47,876評(píng)論 2 370
  • 正文 我出身青樓挥等,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親堤尾。 傳聞我的和親對(duì)象是個(gè)殘疾皇子肝劲,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,700評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容