傳統(tǒng)的大數(shù)據(jù)
在大數(shù)據(jù)這個(gè)概念還沒(méi)出來(lái)以前人們是怎么進(jìn)行數(shù)據(jù)數(shù)據(jù)分析和計(jì)算的呢睦番?
數(shù)據(jù)存儲(chǔ)
首先數(shù)據(jù)量都沒(méi)有很大,不同的數(shù)據(jù)散布在不同數(shù)據(jù)庫(kù)中掰伸。如果真的數(shù)據(jù)大的話就只能花最貴的錢(qián)買(mǎi)最好的機(jī)器最好的數(shù)據(jù)庫(kù)或者多分幾個(gè)庫(kù)裝站辉。
數(shù)據(jù)分析
人們還沒(méi)有意識(shí)到數(shù)據(jù)可以做很多事情划栓,所以數(shù)據(jù)的需求也比較少; 使用傳統(tǒng)的數(shù)據(jù)庫(kù)和單機(jī)程序來(lái)進(jìn)行統(tǒng)計(jì)分析兑巾,就能滿足大部分需求。如果公司比較注重?cái)?shù)據(jù)的話忠荞,可能會(huì)弄一個(gè)數(shù)據(jù)中心蒋歌,匯總各種數(shù)據(jù),開(kāi)發(fā)一套數(shù)據(jù)分析系統(tǒng)來(lái)完成自動(dòng)化的報(bào)表钻洒。
轉(zhuǎn)折
數(shù)據(jù)量越來(lái)越大奋姿,數(shù)據(jù)分析的成本越來(lái)越高。某一天Google扔了三篇論文出來(lái)引爆了大數(shù)據(jù)(Google總喜歡把自己不用了的技術(shù)分享出來(lái))素标。這三篇論文提出了一個(gè)解決數(shù)據(jù)太多,存不下萍悴,計(jì)算不了方案头遭,從此打開(kāi)了大數(shù)據(jù)時(shí)代的門(mén)。人們根據(jù)這三篇論文?開(kāi)發(fā)了hadoop家族癣诱,后來(lái)成為大數(shù)據(jù)的標(biāo)配计维,開(kāi)始了全民大數(shù)據(jù)的時(shí)代。
現(xiàn)在的大數(shù)據(jù)
普遍的都利用hadoop家族建立起大數(shù)據(jù)平臺(tái)撕予,匯聚各種數(shù)據(jù)鲫惶,統(tǒng)一進(jìn)分析計(jì)算。
數(shù)據(jù)源&數(shù)據(jù)采集
自從大數(shù)據(jù)的處理工具完善之后实抡,基本能稱(chēng)得上數(shù)據(jù)的東西都可以整合進(jìn)大數(shù)據(jù)平臺(tái)欠母。比如,前端的用戶(hù)行為日志吆寨、后端數(shù)據(jù)庫(kù)赏淌、爬蟲(chóng)的數(shù)據(jù)等。
埋點(diǎn)
所謂的埋點(diǎn)就好比埋的地雷啄清,你走過(guò)地雷響了六水,我就知道你走過(guò)哪里。正常來(lái)說(shuō)就是你在網(wǎng)頁(yè)或app上點(diǎn)擊某個(gè)按鈕是就把你這個(gè)點(diǎn)擊行為記錄下來(lái)發(fā)給服務(wù)器,這樣就知道你都干了啥掷贾。?當(dāng)然埋點(diǎn)你可以自己寫(xiě)程序手動(dòng)埋睛榄,也可以引入第三方工具實(shí)現(xiàn)自動(dòng)話埋點(diǎn)。有時(shí)候前端不方便埋點(diǎn)就可以在服務(wù)器后端程序進(jìn)行埋點(diǎn)想帅。
數(shù)據(jù)庫(kù)
數(shù)據(jù)庫(kù)呢场靴,主要記錄一些狀態(tài)數(shù)據(jù),比如你的性別年齡啥的博脑。
數(shù)據(jù)接入
這么多數(shù)據(jù)源想要進(jìn)入大數(shù)據(jù)平臺(tái)憎乙,當(dāng)然都會(huì)有不同的渠道,同一個(gè)數(shù)據(jù)源也可能有不同的進(jìn)入方式叉趣。
批量數(shù)據(jù)
比如數(shù)據(jù)庫(kù)的數(shù)據(jù)都是些狀態(tài)數(shù)據(jù)泞边,業(yè)務(wù)的需求要求的實(shí)時(shí)性不高,可以每天批量的導(dǎo)入疗杉。導(dǎo)入的方式又可以分為增量和全量
全量
每次導(dǎo)入全部的數(shù)據(jù)阵谚,因?yàn)閿?shù)據(jù)是在不斷變化的,我們只截取導(dǎo)入時(shí)刻的數(shù)據(jù)烟具。
增量
每次導(dǎo)入有變化的數(shù)據(jù)梢什;當(dāng)數(shù)據(jù)有變化時(shí)我們就標(biāo)記一下每條數(shù)據(jù)變化的時(shí)間,依據(jù)這個(gè)時(shí)間判定這次是否導(dǎo)入朝聋。
實(shí)時(shí)流數(shù)據(jù)
像用戶(hù)行為這種數(shù)據(jù)每時(shí)每刻都在不斷的產(chǎn)生嗡午,業(yè)務(wù)的需求可以需要我們快速的反應(yīng),比如用戶(hù)搜索了某個(gè)商品下一秒馬上推送相關(guān)的商品冀痕。這時(shí)數(shù)據(jù)要快速的流動(dòng)快速的計(jì)算荔睹,就出現(xiàn)了數(shù)據(jù)總線的概念,把數(shù)據(jù)接入數(shù)據(jù)總線實(shí)時(shí)的流入大數(shù)據(jù)平臺(tái)言蛇。
數(shù)據(jù)存儲(chǔ)
大數(shù)據(jù)平臺(tái)的存儲(chǔ)其實(shí)是比較單一的僻他,就是一個(gè)分布式文件系統(tǒng),當(dāng)然這個(gè)文件系統(tǒng)又可以分各種存儲(chǔ)格式來(lái)存腊尚。
數(shù)據(jù)處理
數(shù)據(jù)處理就是大數(shù)據(jù)平臺(tái)的核心了吨拗。分實(shí)時(shí)的處理和批量處理。
數(shù)據(jù)查詢(xún)
數(shù)據(jù)在大數(shù)據(jù)平臺(tái)處理完成輸出到業(yè)務(wù)系統(tǒng)進(jìn)行使用婿斥,大數(shù)據(jù)平臺(tái)也可以直接提供查詢(xún)服務(wù)劝篷。