大數(shù)據(jù)分析

1.大數(shù)據(jù)概覽

大數(shù)據(jù)的用例

搜索排序
廣告跟蹤
位置與距離跟蹤
因果關(guān)系發(fā)現(xiàn)
社會化客戶關(guān)系管理(CRM)
文檔相似性測試
基因分析
群組發(fā)現(xiàn)
飛機(jī)飛行狀態(tài)
智能測量儀表
建立傳感器
衛(wèi)星圖像分析
CAT掃描比較
金融賬戶欺詐檢測與干預(yù)
計(jì)算機(jī)系統(tǒng)黑客檢測與干預(yù)
在線游戲姿態(tài)跟蹤
大型科學(xué)數(shù)據(jù)分析
通用名稱值對分析
貸款風(fēng)險(xiǎn)分析及保單承保分析
客戶流失分析

系統(tǒng)需要具備的能力
(1)方便處理PB(1000TB)據(jù)的能力抛寝。
(2)包含多達(dá)數(shù)千個分布的處理器,地理不同,且異構(gòu)府喳。
(3)以原始的獲取格式存儲數(shù)據(jù),支持查詢和分析應(yīng)用而不需要轉(zhuǎn)換或移動數(shù)據(jù)。
(4)以亞秒級響應(yīng)時間響應(yīng)高約束的標(biāo)準(zhǔn)SQL查詢
(5)在處理請求中方便地嵌入復(fù)雜的用戶自定義函數(shù)(User-Defined Function, UDF
(6)采用業(yè)界標(biāo)準(zhǔn)的過程語言來實(shí)現(xiàn)UDF.
7)組裝跨多數(shù)或所有用例的可重用UDF擴(kuò)展庫。
(8)在幾分鐘內(nèi),以關(guān)系掃描方式對PB級別數(shù)據(jù)集執(zhí)行用戶自定義函數(shù)贿肩。
(9)支持范圍廣泛的數(shù)據(jù)類型包括越來越多的圖像、波形蹋肮、任意層次的數(shù)據(jù)結(jié)構(gòu)以及名稱值對集合萤悴。
(10)為數(shù)據(jù)分析高速加載數(shù)據(jù),至少達(dá)到GB級別每秒。
(11)從多個數(shù)據(jù)源高速(GB/sec)加載數(shù)據(jù)以集成數(shù)據(jù)板鬓。
(12)在定義或發(fā)現(xiàn)其結(jié)構(gòu)前加載數(shù)據(jù)至數(shù)據(jù)庫悲敷。
(13)實(shí)現(xiàn)對加載數(shù)據(jù)的實(shí)時數(shù)據(jù)流分析查詢。
(14)全速更新數(shù)據(jù)俭令。
(15)不必預(yù)先聚類維度表和事實(shí)表,實(shí)現(xiàn)十億級別的維度表與萬億級別事實(shí)表的連接后德。(16)調(diào)度和執(zhí)行復(fù)雜的上百個節(jié)點(diǎn)的工作流。
(17)配置工作不會受到單點(diǎn)故障的影響抄腔。
(18)在節(jié)點(diǎn)發(fā)生錯誤時能夠?qū)崿F(xiàn)容錯和不間斷過程瓢湃。
(19)支持極端的理张、混合的工作負(fù)載,包含數(shù)千個地理分布的在線用戶和程序,同時執(zhí)行即席查詢和戰(zhàn)略分析,以批處理和流處理方式加載數(shù)據(jù)。

擴(kuò)展的RDBMS
RDBMS
HADOOP/MAPREDUCE

2.推薦的應(yīng)用于大數(shù)據(jù)的最佳實(shí)踐

大數(shù)據(jù)系統(tǒng)最佳實(shí)踐

  1. 從業(yè)務(wù)需求出發(fā)選擇構(gòu)建數(shù)據(jù)倉庫需要的數(shù)據(jù)源绵患。
  2. 始終關(guān)注簡化用戶接口和改善性能雾叭。
  3. 從維度角度考慮問題:將世界劃分為維度和事實(shí)。
  4. 以一致性維度集成不同的數(shù)據(jù)源落蝙。
  5. 利用緩慢變化維度跟蹤時間變化织狐。
  6. 使用持久性代理鍵確定所有維度。
面向大數(shù)據(jù)管理的最佳實(shí)踐

圍繞分析構(gòu)建大數(shù)據(jù)的環(huán)境
加載筏勒、清洗移迫、集成、用戶接口
延遲構(gòu)建遺留環(huán)境
從沙箱結(jié)果中構(gòu)建
首先嘗試從簡單應(yīng)用著手

面向大數(shù)據(jù)結(jié)構(gòu)的最佳實(shí)踐

規(guī)劃數(shù)據(jù)管道

增加延遲和數(shù)據(jù)質(zhì)量的大數(shù)據(jù)緩存

建立針對大數(shù)據(jù)的實(shí)時獲取器
將大數(shù)據(jù)分析作為一個事實(shí)獲取器,將數(shù)據(jù)移動到下一個緩存,這是一個非常好的想法奏寨。例如,非結(jié)構(gòu)文本信息的分析可以產(chǎn)生大量數(shù)字化的起意、有趨向的情感度量,包括聲音的共享、觀眾參與病瞳、會話到達(dá)揽咕、積極的倡導(dǎo)者、主張的影響套菜、支持影響亲善、分辨率、分辨時間逗柴、滿意度蛹头、主題趨勢、情感比例和觀點(diǎn)影響等戏溺。
建立完整的生態(tài)系統(tǒng)
制定數(shù)據(jù)質(zhì)量規(guī)劃
盡可能提高數(shù)據(jù)質(zhì)量的價(jià)值
實(shí)現(xiàn)前期緩存的回流
實(shí)現(xiàn)數(shù)據(jù)流
避免無法擴(kuò)展的限制
將原型移動到私有云
盡力改善性能
監(jiān)視計(jì)算資源
利用內(nèi)置數(shù)據(jù)庫分析

應(yīng)用于大數(shù)據(jù)的數(shù)據(jù)建模最佳實(shí)踐

維度思考
集成不同的包含一致性維度的數(shù)據(jù)源
使用持久性代理鍵定位維度
希望集成結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)
將大數(shù)據(jù)分析作為一個事實(shí)獲取器,將數(shù)據(jù)移動到下一個緩存,這是一個非常好的想法渣蜗。例如,非結(jié)構(gòu)文本信息的分析可以產(chǎn)生大量數(shù)字化的、有趨向的情感度量,包括聲音的共享旷祸、觀眾參與耕拷、會話到達(dá)、積極的倡導(dǎo)者托享、主張的影響骚烧、支持影響、分辨率闰围、分辨時間赃绊、滿意度、主題趨勢羡榴、情感比例和觀點(diǎn)影響等碧查。
使用緩慢變化維
在分析時定義數(shù)據(jù)結(jié)構(gòu)
以簡單的名稱-值對加載數(shù)據(jù)
利用數(shù)據(jù)虛擬化的快速原型

大數(shù)據(jù)的數(shù)據(jù)治理最佳實(shí)踐

沒有作為大數(shù)據(jù)治理這樣的事情
應(yīng)用治理前的數(shù)據(jù)維度化
隱私是最重要的數(shù)據(jù)治理
不要選擇大數(shù)據(jù)治理

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市校仑,隨后出現(xiàn)的幾起案子忠售,更是在濱河造成了極大的恐慌者冤,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件档痪,死亡現(xiàn)場離奇詭異涉枫,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)腐螟,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門愿汰,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人乐纸,你說我怎么就攤上這事衬廷。” “怎么了汽绢?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵吗跋,是天一觀的道長。 經(jīng)常有香客問我宁昭,道長跌宛,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任积仗,我火速辦了婚禮疆拘,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘寂曹。我一直安慰自己哎迄,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布隆圆。 她就那樣靜靜地躺著漱挚,像睡著了一般。 火紅的嫁衣襯著肌膚如雪渺氧。 梳的紋絲不亂的頭發(fā)上旨涝,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天,我揣著相機(jī)與錄音阶女,去河邊找鬼颊糜。 笑死哩治,一個胖子當(dāng)著我的面吹牛秃踩,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播业筏,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼憔杨,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了蒜胖?” 一聲冷哼從身側(cè)響起消别,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤抛蚤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后寻狂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體岁经,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年蛇券,在試婚紗的時候發(fā)現(xiàn)自己被綠了缀壤。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡纠亚,死狀恐怖塘慕,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情蒂胞,我是刑警寧澤图呢,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站骗随,受9級特大地震影響蛤织,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜鸿染,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一瞳筏、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧牡昆,春花似錦姚炕、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至播瞳,卻和暖如春掸刊,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背赢乓。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工忧侧, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人牌芋。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓蚓炬,卻偏偏與公主長得像,于是被迫代替她去往敵國和親躺屁。 傳聞我的和親對象是個殘疾皇子肯夏,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容