隨著物聯(lián)網(wǎng)、智能設(shè)備和人工智能等先進(jìn)技術(shù)在企業(yè)生產(chǎn)運(yùn)營(yíng)過程中的廣泛應(yīng)用凹蜂,隨之而來(lái)的是大量的數(shù)據(jù)產(chǎn)生馍驯。如何采集阁危、存儲(chǔ)海量大數(shù)據(jù),深入挖掘數(shù)據(jù)的潛在價(jià)值汰瘫,為企業(yè)的生產(chǎn)運(yùn)營(yíng)提供可靠保障狂打,進(jìn)而提升企業(yè)經(jīng)濟(jì)效益,是越來(lái)越多的企業(yè)迫切解決的問題混弥。近年來(lái)趴乡,很多企業(yè)建設(shè)內(nèi)部統(tǒng)一的大數(shù)據(jù)平臺(tái),利用集群架構(gòu)去整合資源與服務(wù)蝗拿,從而發(fā)揮企業(yè)諸如資源共享晾捏、數(shù)據(jù)共享和服務(wù)共享等優(yōu)勢(shì)。那么哀托,企業(yè)級(jí)大數(shù)據(jù)平臺(tái)應(yīng)具備什么樣的基本能力以及如何進(jìn)行相關(guān)技術(shù)選型呢惦辛?企業(yè)級(jí)大數(shù)據(jù)平臺(tái)至少應(yīng)具備基本以下幾種能力,如下圖所示:
接下來(lái)萤捆,我們將針對(duì)以上五種能力裙品,逐個(gè)進(jìn)行闡述:
數(shù)據(jù)收集能力公司和企業(yè)內(nèi)部每天在不斷產(chǎn)生數(shù)據(jù)俗批,這些信息可能會(huì)有更高的商業(yè)價(jià)值俗或。企業(yè)內(nèi)部數(shù)據(jù)關(guān)注的的是整體運(yùn)行和經(jīng)營(yíng)情況,也是企業(yè)核心業(yè)務(wù)指標(biāo)的分析來(lái)源岁忘。因此辛慰,對(duì)數(shù)據(jù)接入的實(shí)時(shí)性、可靠性要求較高干像,考慮到這一點(diǎn)要求帅腌,內(nèi)部數(shù)據(jù)的收集應(yīng)具備推送和拉取兩大能力,這兩種能力各有優(yōu)缺點(diǎn)麻汰。推送模式的主動(dòng)權(quán)在數(shù)據(jù)源方速客,在高峰期,推送的數(shù)據(jù)量過大五鲫,造成數(shù)據(jù)接入方的壓力過大或無(wú)法及時(shí)處理溺职。一種解決方案是加上消息隊(duì)列,進(jìn)行一步處理位喂,以達(dá)到緩沖效果浪耘。如下圖所示:
拉取模式的主動(dòng)權(quán)在數(shù)據(jù)接入方,可以根據(jù)業(yè)務(wù)應(yīng)用的需要塑崖,周期性讀取數(shù)據(jù)七冲,高峰期產(chǎn)生的海量數(shù)據(jù)會(huì)在閑時(shí)被消化,關(guān)鍵的問題是數(shù)據(jù)處理的延遲明顯增加规婆。如下圖所示:
技術(shù)選型上推薦Flume澜躺。Flume是一個(gè)分布式蝉稳、高可靠和高可用的數(shù)據(jù)采集采集系統(tǒng),提供推送和拉取兩種采集模式掘鄙。當(dāng)然颠区,我們還需要根據(jù)企業(yè)生產(chǎn)運(yùn)營(yíng)數(shù)據(jù)特征,解決如何建立起一套標(biāo)準(zhǔn)化通铲、規(guī)范化的數(shù)據(jù)模型體系毕莱,以及靈活、可擴(kuò)展的技術(shù)體系颅夺,以適應(yīng)體量大朋截、多源異構(gòu)的海量數(shù)據(jù)接入需求。
數(shù)據(jù)存儲(chǔ)能力面對(duì)與日俱增的海量數(shù)據(jù)吧黄,企業(yè)大數(shù)據(jù)平臺(tái)如何存放它們呢部服?是持久化存儲(chǔ)還是非持久化存儲(chǔ)?如何提供業(yè)務(wù)應(yīng)用和數(shù)據(jù)分析要求的高效查詢能力呢拗慨?數(shù)據(jù)存儲(chǔ)應(yīng)具備持久化存儲(chǔ)和非持久化存儲(chǔ)兩種能力廓八。
對(duì)于持久化的存儲(chǔ)而言,最關(guān)鍵的問題是選擇文件系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)赵抢。在大數(shù)據(jù)時(shí)代剧蹂,單臺(tái)計(jì)算機(jī)已經(jīng)無(wú)法滿足數(shù)據(jù)存儲(chǔ)和處理的需求,必須采用集群化的方案烦却。近幾年宠叼,NoSQL(Not Only SQL)非關(guān)系型數(shù)據(jù)庫(kù)應(yīng)運(yùn)而生且逐漸成熟,其產(chǎn)生就是解決海量數(shù)據(jù)所帶來(lái)的大數(shù)據(jù)應(yīng)用難題其爵。技術(shù)選型上推薦分布式文件系統(tǒng)HDFS(Hadoop Distributed File System)和對(duì)應(yīng)的分布式非關(guān)系型(非結(jié)構(gòu)化)數(shù)據(jù)庫(kù)系統(tǒng)HBase冒冬,以及另一個(gè)非關(guān)系型的數(shù)據(jù)庫(kù)MongoDB。
無(wú)論是Hadoop的HDFS摩渺、HBase還是MongoDB等非關(guān)系型數(shù)據(jù)庫(kù)简烤,都是為了解決大量數(shù)據(jù)的高效分布式存儲(chǔ)。雖然具體的實(shí)現(xiàn)方式和應(yīng)用場(chǎng)景有所不同摇幻,但目標(biāo)均是為了數(shù)據(jù)持久化存儲(chǔ)横侦。還有一種數(shù)據(jù)存儲(chǔ)方式是在內(nèi)存中的非持久化存儲(chǔ),特征是數(shù)據(jù)量不大囚企,斷電會(huì)丟失丈咐,但讀取速度非常快龙宏。非持久化存儲(chǔ)一般采用散列(Hash)的Key-Value存儲(chǔ)方式棵逊,適合使用緩存(Cache)的應(yīng)用場(chǎng)景。技術(shù)選型上推薦常用的Memcached银酗、Berkeley DB和Redis辆影。
數(shù)據(jù)處理能力企業(yè)級(jí)大數(shù)據(jù)平臺(tái)數(shù)據(jù)處理能力集中在用戶如何利用現(xiàn)有的數(shù)據(jù)進(jìn)行查詢和分析徒像,最終達(dá)到商業(yè)目標(biāo),要充分體現(xiàn)數(shù)據(jù)價(jià)值蛙讥,就需對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的加工锯蛀、分析和挖掘。根據(jù)數(shù)據(jù)處理的及時(shí)性不同次慢,主要分為在線實(shí)時(shí)處理和離線批量處理旁涤,在線和離線的區(qū)別就在于對(duì)實(shí)時(shí)性的要求。由于離線對(duì)于響應(yīng)沒有過高的要求迫像,因此適合對(duì)海量數(shù)據(jù)進(jìn)行批量處理的應(yīng)用場(chǎng)景劈愚。推薦的技術(shù):Hadoop的MapReduce和Spark。離線批量處理在一定程度上解決了大規(guī)模數(shù)據(jù)并行處理問題闻妓,當(dāng)數(shù)據(jù)產(chǎn)生頻率高菌羽、更新時(shí)間快的情況下,在線實(shí)時(shí)處理的優(yōu)勢(shì)就會(huì)體現(xiàn)出來(lái)了由缆。當(dāng)然注祖,在線實(shí)時(shí)處理始終要依賴及時(shí)消息機(jī)制來(lái)支撐其運(yùn)行,例如均唉,Kafka是晨、MQ等消息中間件。消息機(jī)制可以及時(shí)通知在線實(shí)時(shí)處理程序進(jìn)行相應(yīng)的處理浸卦,比起離線批量處理方式署鸡,在線實(shí)時(shí)處理可以極大提升實(shí)時(shí)性案糙。推薦的技術(shù)方案:Storm限嫌、Spark Streaming。
信息檢索能力信息檢索側(cè)重于信息的相關(guān)性和查詢的高效性时捌,包含三個(gè)子領(lǐng)域:搜索引擎怒医、推薦系統(tǒng)、在線廣告奢讨。在企業(yè)大數(shù)據(jù)平臺(tái)應(yīng)用應(yīng)具備的能力是實(shí)現(xiàn)全文檢索功能或者建立完整的全文檢索引擎稚叹。技術(shù)選型上推薦Lucene、Solar拿诸、Elasticsearch扒袖。
數(shù)據(jù)挖掘能力數(shù)據(jù)挖掘側(cè)重于發(fā)現(xiàn)數(shù)據(jù)內(nèi)部更深層次的價(jià)值。數(shù)據(jù)挖掘的類型亩码,分為傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)和非結(jié)構(gòu)化數(shù)據(jù)兩大類季率。根據(jù)數(shù)據(jù)挖掘目標(biāo)的不同,數(shù)據(jù)挖掘的任務(wù)和技術(shù)也有所不同描沟,一般的數(shù)據(jù)挖掘主題應(yīng)具備集中能力:發(fā)現(xiàn)關(guān)聯(lián)性的頻繁項(xiàng)分析飒泻、用于預(yù)測(cè)的分類和回歸分析鞭光、發(fā)現(xiàn)相似性的聚類分析、發(fā)現(xiàn)離群現(xiàn)象的異常點(diǎn)分析等泞遗。推薦技術(shù)研究方向包括分類監(jiān)督學(xué)習(xí)惰许、回歸監(jiān)督學(xué)習(xí)、聚類非監(jiān)督學(xué)習(xí)史辙,挖掘工具推薦Mahout和R汹买。
結(jié)束語(yǔ):企業(yè)級(jí)大數(shù)據(jù)平臺(tái)基本能力概括為:數(shù)據(jù)收集能力、數(shù)據(jù)存儲(chǔ)能力聊倔、數(shù)據(jù)處理能力卦睹、信息檢索能力和數(shù)據(jù)挖掘能力。企業(yè)大數(shù)據(jù)平臺(tái)應(yīng)至少具備這五種能力方库,才能實(shí)現(xiàn)真正意義上的大數(shù)據(jù)平臺(tái)應(yīng)用结序。