1.大數(shù)據(jù)概覽
大數(shù)據(jù)的用例
搜索排序
廣告跟蹤
位置與距離跟蹤
因果關(guān)系發(fā)現(xiàn)
社會化客戶關(guān)系管理(CRM)
文檔相似性測試
基因分析
群組發(fā)現(xiàn)
飛機(jī)飛行狀態(tài)
智能測量儀表
建立傳感器
衛(wèi)星圖像分析
CAT掃描比較
金融賬戶欺詐檢測與干預(yù)
計(jì)算機(jī)系統(tǒng)黑客檢測與干預(yù)
在線游戲姿態(tài)跟蹤
大型科學(xué)數(shù)據(jù)分析
通用名稱值對分析
貸款風(fēng)險(xiǎn)分析及保單承保分析
客戶流失分析
系統(tǒng)需要具備的能力
(1)方便處理PB(1000TB)據(jù)的能力抛寝。
(2)包含多達(dá)數(shù)千個分布的處理器,地理不同,且異構(gòu)府喳。
(3)以原始的獲取格式存儲數(shù)據(jù),支持查詢和分析應(yīng)用而不需要轉(zhuǎn)換或移動數(shù)據(jù)。
(4)以亞秒級響應(yīng)時間響應(yīng)高約束的標(biāo)準(zhǔn)SQL查詢
(5)在處理請求中方便地嵌入復(fù)雜的用戶自定義函數(shù)(User-Defined Function, UDF
(6)采用業(yè)界標(biāo)準(zhǔn)的過程語言來實(shí)現(xiàn)UDF.
7)組裝跨多數(shù)或所有用例的可重用UDF擴(kuò)展庫。
(8)在幾分鐘內(nèi),以關(guān)系掃描方式對PB級別數(shù)據(jù)集執(zhí)行用戶自定義函數(shù)贿肩。
(9)支持范圍廣泛的數(shù)據(jù)類型包括越來越多的圖像、波形蹋肮、任意層次的數(shù)據(jù)結(jié)構(gòu)以及名稱值對集合萤悴。
(10)為數(shù)據(jù)分析高速加載數(shù)據(jù),至少達(dá)到GB級別每秒。
(11)從多個數(shù)據(jù)源高速(GB/sec)加載數(shù)據(jù)以集成數(shù)據(jù)板鬓。
(12)在定義或發(fā)現(xiàn)其結(jié)構(gòu)前加載數(shù)據(jù)至數(shù)據(jù)庫悲敷。
(13)實(shí)現(xiàn)對加載數(shù)據(jù)的實(shí)時數(shù)據(jù)流分析查詢。
(14)全速更新數(shù)據(jù)俭令。
(15)不必預(yù)先聚類維度表和事實(shí)表,實(shí)現(xiàn)十億級別的維度表與萬億級別事實(shí)表的連接后德。(16)調(diào)度和執(zhí)行復(fù)雜的上百個節(jié)點(diǎn)的工作流。
(17)配置工作不會受到單點(diǎn)故障的影響抄腔。
(18)在節(jié)點(diǎn)發(fā)生錯誤時能夠?qū)崿F(xiàn)容錯和不間斷過程瓢湃。
(19)支持極端的理张、混合的工作負(fù)載,包含數(shù)千個地理分布的在線用戶和程序,同時執(zhí)行即席查詢和戰(zhàn)略分析,以批處理和流處理方式加載數(shù)據(jù)。
擴(kuò)展的RDBMS
HADOOP/MAPREDUCE
2.推薦的應(yīng)用于大數(shù)據(jù)的最佳實(shí)踐
大數(shù)據(jù)系統(tǒng)最佳實(shí)踐
- 從業(yè)務(wù)需求出發(fā)選擇構(gòu)建數(shù)據(jù)倉庫需要的數(shù)據(jù)源绵患。
- 始終關(guān)注簡化用戶接口和改善性能雾叭。
- 從維度角度考慮問題:將世界劃分為維度和事實(shí)。
- 以一致性維度集成不同的數(shù)據(jù)源落蝙。
- 利用緩慢變化維度跟蹤時間變化织狐。
- 使用持久性代理鍵確定所有維度。
面向大數(shù)據(jù)管理的最佳實(shí)踐
圍繞分析構(gòu)建大數(shù)據(jù)的環(huán)境
加載筏勒、清洗移迫、集成、用戶接口
延遲構(gòu)建遺留環(huán)境
從沙箱結(jié)果中構(gòu)建
首先嘗試從簡單應(yīng)用著手
面向大數(shù)據(jù)結(jié)構(gòu)的最佳實(shí)踐
規(guī)劃數(shù)據(jù)管道
建立針對大數(shù)據(jù)的實(shí)時獲取器
將大數(shù)據(jù)分析作為一個事實(shí)獲取器,將數(shù)據(jù)移動到下一個緩存,這是一個非常好的想法奏寨。例如,非結(jié)構(gòu)文本信息的分析可以產(chǎn)生大量數(shù)字化的起意、有趨向的情感度量,包括聲音的共享、觀眾參與病瞳、會話到達(dá)揽咕、積極的倡導(dǎo)者、主張的影響套菜、支持影響亲善、分辨率、分辨時間逗柴、滿意度蛹头、主題趨勢、情感比例和觀點(diǎn)影響等戏溺。
建立完整的生態(tài)系統(tǒng)
制定數(shù)據(jù)質(zhì)量規(guī)劃
盡可能提高數(shù)據(jù)質(zhì)量的價(jià)值
實(shí)現(xiàn)前期緩存的回流
實(shí)現(xiàn)數(shù)據(jù)流
避免無法擴(kuò)展的限制
將原型移動到私有云
盡力改善性能
監(jiān)視計(jì)算資源
利用內(nèi)置數(shù)據(jù)庫分析
應(yīng)用于大數(shù)據(jù)的數(shù)據(jù)建模最佳實(shí)踐
維度思考
集成不同的包含一致性維度的數(shù)據(jù)源
使用持久性代理鍵定位維度
希望集成結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)
將大數(shù)據(jù)分析作為一個事實(shí)獲取器,將數(shù)據(jù)移動到下一個緩存,這是一個非常好的想法渣蜗。例如,非結(jié)構(gòu)文本信息的分析可以產(chǎn)生大量數(shù)字化的、有趨向的情感度量,包括聲音的共享旷祸、觀眾參與耕拷、會話到達(dá)、積極的倡導(dǎo)者托享、主張的影響骚烧、支持影響、分辨率闰围、分辨時間赃绊、滿意度、主題趨勢羡榴、情感比例和觀點(diǎn)影響等碧查。
使用緩慢變化維
在分析時定義數(shù)據(jù)結(jié)構(gòu)
以簡單的名稱-值對加載數(shù)據(jù)
利用數(shù)據(jù)虛擬化的快速原型
大數(shù)據(jù)的數(shù)據(jù)治理最佳實(shí)踐
沒有作為大數(shù)據(jù)治理這樣的事情
應(yīng)用治理前的數(shù)據(jù)維度化
隱私是最重要的數(shù)據(jù)治理
不要選擇大數(shù)據(jù)治理