架構(gòu)設(shè)計(jì)100-實(shí)踐02-搭建大數(shù)據(jù)框架(十分鐘學(xué)會)

架構(gòu)設(shè)計(jì)系列文章虏劲,請參見連接。

十分鐘讓你透徹理解大數(shù)據(jù)的工作方式演闭。大數(shù)據(jù)并不是深不可測不跟、高不可攀的技術(shù),這里用18頁ppt為你深入的理解大數(shù)據(jù)船响,學(xué)習(xí)大數(shù)據(jù)做好充分的準(zhǔn)備躬拢。

結(jié)合大數(shù)據(jù)實(shí)際使用與開發(fā)流程講述大數(shù)據(jù)中方方面面的內(nèi)容躲履。可以一次完整的了解大數(shù)據(jù)落地過程中需要考慮的問題聊闯,需要解決的問題呈現(xiàn)出一個(gè)可以真實(shí)工猜,完整,落地的大數(shù)據(jù)服務(wù)平臺菱蔬。

概述

說明大數(shù)據(jù)分析的意義篷帅,并抽象大數(shù)據(jù)處理過程。以更通用的理解方式說明大數(shù)據(jù)的特點(diǎn)拴泌。

大數(shù)據(jù)過程

用通俗的語言介紹大數(shù)據(jù)分析魏身、挖掘過程。

大數(shù)據(jù)過程

原始的數(shù)據(jù)是十分雜亂的蚪腐,在數(shù)據(jù)經(jīng)過梳理和清洗箭昵,才能夠稱為信息。信息會包含很多規(guī)律回季,我們需要從信息中將規(guī)律總結(jié)出來家制,稱為知識(Knowledge),而知識改變命運(yùn)泡一。有了知識颤殴,然后利用這些知識去應(yīng)用于實(shí)戰(zhàn),有的人會做得非常好鼻忠,這個(gè)東西叫做智慧(Intelligence)涵但。

用一種簡單的方式說明就是收集來的數(shù)據(jù)有很多噪音,異常不能直接成為有效信息帖蔓,進(jìn)過梳理矮瘟,過濾,清洗之后形成有用信息讨阻。然后在有用的信息中找到某種規(guī)律就變成了可以提高認(rèn)知的知識芥永。然后知識運(yùn)用到之后的工作中就變成了智慧篡殷。

最終的階段是很多企業(yè)都想要的钝吮。你看我收集了這么多的數(shù)據(jù),能不能基于這些數(shù)據(jù)來幫我做下一步的決策板辽,改善我的產(chǎn)品奇瘦。

大數(shù)據(jù)分析也不是絕對的,有漏洞也有失誤劲弦,我們不能迷信耳标。雖然大數(shù)據(jù)分析通常是會凌駕于專家直覺經(jīng)驗(yàn)之上的,但直覺在選擇數(shù)據(jù)分析之初起著關(guān)鍵性作用邑跪。所以次坡,未來我們需要同過直覺呼猪、經(jīng)驗(yàn)、統(tǒng)計(jì)數(shù)字來做好很多決策砸琅。而學(xué)好大數(shù)據(jù)分析宋距,除了那些大的政府決策或者行業(yè)、機(jī)構(gòu)決策(醫(yī)療改革症脂、影視發(fā)行谚赎、圖書名稱等),我們的日常生活也是可以通過這種思維受益的诱篷。
統(tǒng)計(jì)中所謂的“因果”是“某種”意義的“因果”壶唤,即統(tǒng)計(jì)學(xué)只討論“原因的結(jié)果”,而不討論“結(jié)果的原因”棕所。前者是可以用數(shù)據(jù)證明或者證偽的闸盔;后者是屬于科學(xué)研究所探索的。用科學(xué)哲學(xué)家卡爾·波普的話來說琳省,科學(xué)知識的積累是“猜想與反駁”的過程:“猜想”結(jié)果的原因蕾殴,再“證偽”原因的結(jié)果;如此循環(huán)即科學(xué)岛啸。

大數(shù)據(jù)分析過程

介紹大數(shù)據(jù)分析實(shí)施過程

大數(shù)據(jù)分析過程
  • 大數(shù)據(jù)分析過程是從數(shù)據(jù)建模開始钓觉,然后是將模型加入的系統(tǒng)中,然后等待真實(shí)數(shù)據(jù)的反饋再進(jìn)行坚踩。再進(jìn)入對數(shù)據(jù)模型的持續(xù)優(yōu)化過程中荡灾。
  • 整體規(guī)劃:整體規(guī)劃是規(guī)劃系統(tǒng)中數(shù)據(jù)的建模規(guī)范,分析維度瞬铸,分析過程批幌,技術(shù)體系,實(shí)踐規(guī)范等等內(nèi)容嗓节。用以管理整個(gè)DMP體系中所有的內(nèi)容荧缘。
  • 數(shù)據(jù)建模:根據(jù)業(yè)務(wù)對業(yè)務(wù)關(guān)心的指標(biāo)、維度進(jìn)行定義拦宣。并針對這些指標(biāo)維度進(jìn)行相關(guān)的數(shù)據(jù)算法的統(tǒng)計(jì)截粗。
  • 分析實(shí)踐:根據(jù)建模結(jié)果,通過技術(shù)的支持形成真正能夠在實(shí)踐環(huán)境中使用的代碼或者展示鸵隧。
  • 效果反饋:數(shù)據(jù)分析結(jié)果是有度量的绸罗。怎樣定義一個(gè)數(shù)據(jù)模型在真實(shí)數(shù)據(jù)環(huán)境中的效果是一門獨(dú)立的學(xué)問。
  • 技術(shù)支持:以最高效豆瘫、最低正本支持?jǐn)?shù)據(jù)分析的各種工具珊蟀。包括數(shù)據(jù)建模,數(shù)據(jù)可視化外驱,數(shù)據(jù)挖掘育灸,數(shù)據(jù)分析等等工具的技術(shù)支持腻窒。
  • 總結(jié):很多地方不說明大數(shù)據(jù)的整體過程,只說明其中的很小一部分磅崭。導(dǎo)致技術(shù)落地困難定页。

數(shù)據(jù)建模

數(shù)據(jù)建模是大數(shù)據(jù)分析的核心。它決定了大數(shù)據(jù)分析的最終效果绽诚。

適合分析的業(yè)務(wù)

大數(shù)據(jù)能夠解決的問題典徊。說明大數(shù)據(jù)處理問題的特點(diǎn)。


適合分析的業(yè)務(wù)
  • 在對復(fù)雜問題進(jìn)行分析與解決時(shí)總會使用的解決步驟:
    1. 發(fā)生了什么恩够?
    2. 為什么會發(fā)生卒落?
    3. 可能會發(fā)生什么?
    4. 需要做什么蜂桶?

大數(shù)據(jù)分析其實(shí)就是對復(fù)雜問題進(jìn)行分析與解決的過程儡毕。所以也是使用域這個(gè)解決過程的。在大數(shù)據(jù)分析中每一個(gè)步驟都有它自己獨(dú)立的意義扑媚⊙澹可以幫助我們了解數(shù)據(jù)中到底包含了那些意義。每一個(gè)步驟都能讓我們更深入的了解疆股,深入的認(rèn)識系統(tǒng)的情況费坊,最終可以根據(jù)具體的數(shù)字化情況決定下一步的動作。

  • 問題域:大數(shù)據(jù)分析只有需要解決這些問題時(shí)才有作用旬痹。如果業(yè)務(wù)需求不是在這個(gè)范圍內(nèi)的需求附井,則不適用與使用大數(shù)據(jù)分析方法進(jìn)行問題的分析與解決。

  • 解決域:針對不同的業(yè)務(wù)需求選擇的不同的分析模型两残,也可以組合這些分析模型進(jìn)行級聯(lián)解決永毅。在這些分析模型下定義了不同的分析算法,可以自頂向下的確定使用哪個(gè)分析模型人弓,選用哪個(gè)分析算法沼死,怎樣進(jìn)行組合。這樣就形成了一套完整的大數(shù)據(jù)分析模型崔赌。

分析建模技術(shù)介紹

大數(shù)據(jù)分析為我們提供了什么樣的方法意蛀,來解決問題。

分析建模技術(shù)介紹

大數(shù)據(jù)分析建模技術(shù)依賴的還是機(jī)器學(xué)習(xí)峰鄙,人工智能提供算法浸间。然后才可以對大量的數(shù)據(jù)進(jìn)行聚類、分類吟榴、回歸等等計(jì)算。在計(jì)算過程中需要對大量數(shù)據(jù)的訪問囊扳,分布式計(jì)算等才是大數(shù)據(jù)技術(shù)吩翻。

要對數(shù)據(jù)中的特征進(jìn)行量化或抽取特征需要進(jìn)行機(jī)器學(xué)習(xí)兜看。對數(shù)據(jù)進(jìn)行分類也需要對其進(jìn)行識別。針對下一階段可能發(fā)生的情況還是需要量化狭瞎。

數(shù)據(jù)挖掘建模過程

怎樣建立數(shù)據(jù)挖掘模型细移。

數(shù)據(jù)挖掘建模過程
  • 目標(biāo)定義需要定義清楚大數(shù)據(jù)需要解決的問題,并依據(jù)這些問題形成大數(shù)據(jù)分析時(shí)使用的指標(biāo)體系熊锭。
  • 抽取數(shù)據(jù)弧轧,使用能夠反映整個(gè)情況的數(shù)據(jù)的選擇方式是需要根據(jù)不同的方面進(jìn)行選擇的。
  • 在大數(shù)據(jù)分析過程中數(shù)據(jù)質(zhì)量是非常重要的碗殷。在數(shù)據(jù)分析精绎、人工智能方面有一個(gè)重要的原則:Garbage In Garbage Out原則。就是說明數(shù)據(jù)質(zhì)量的重要性锌妻。
  • 建模:大數(shù)據(jù)分析與挖掘的基礎(chǔ)代乃。有了指標(biāo)體系有了樣本數(shù)據(jù),需要通過模型算法得出業(yè)務(wù)所需要的結(jié)果仿粹。
  • 模型評價(jià):對建模結(jié)果的評價(jià)搁吓。評價(jià)也是有一套完整的系統(tǒng)的。
  • 模型建立完成吭历,并通過評價(jià)之后堕仔。就可以發(fā)布上線了。不過發(fā)不上線還是在線上持續(xù)反饋模型效果晌区,并持續(xù)- 對建模結(jié)果進(jìn)行優(yōu)化贮预。

- 目標(biāo)定義

明確大數(shù)據(jù)分析目標(biāo),并之后針對目標(biāo)進(jìn)行分析與建設(shè)契讲。


目標(biāo)定義

對大數(shù)據(jù)不了解導(dǎo)致看似明確的需求無法落地仿吞,所以需要進(jìn)行引導(dǎo)性需求調(diào)研。

- 指標(biāo)和維度

分析中關(guān)注的指標(biāo)和維度捡偏,定義了之后能夠分析哪些內(nèi)容唤冈。


指標(biāo)和維度
  • 特征工程:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已银伟。
  • 指標(biāo)體系:指標(biāo)可以分為絕對數(shù)指標(biāo)和相對數(shù)指標(biāo)你虹,絕對數(shù)指標(biāo)反映的是規(guī)模大小的指標(biāo)
  • 分析維度:維度是事物或現(xiàn)象的某種特征

分析模型介紹

分析模型的建立過程


分析模型介紹

在建模過程中需要不斷的嘗試不同的模型,不同的算法彤避,不同的參數(shù)傅物。所以,在建模過程中還是需要有不斷的迭代的過程琉预。

在整體大數(shù)據(jù)分析過程中也是一個(gè)大迭代董饰。從建模、上線、反饋再到建模卒暂。這樣才可以根據(jù)現(xiàn)實(shí)中的業(yè)務(wù)場景進(jìn)行不斷的調(diào)優(yōu)啄栓。

建模過程中需要有訓(xùn)練數(shù)據(jù),測試數(shù)據(jù)和驗(yàn)證數(shù)據(jù)也祠。驗(yàn)證數(shù)據(jù)是人工對數(shù)據(jù)進(jìn)行分析后的結(jié)果昙楚。使用分析結(jié)果和訓(xùn)練結(jié)果進(jìn)行對比,然后得出模型的的評價(jià)情況诈嘿。

模型評價(jià)中包含很多指標(biāo)堪旧。例如:誤差率,準(zhǔn)確率奖亚、精確率淳梦、召回率等

建模工具

建模工具

建模實(shí)例

介紹大體的建模過程的一個(gè)實(shí)際例子。


實(shí)例
  • 明確業(yè)務(wù)目標(biāo)遂蛀。對業(yè)務(wù)目標(biāo)進(jìn)行分析谭跨,得出業(yè)務(wù)中的具體需求點(diǎn)。并整理形成完整貫穿整個(gè)的業(yè)務(wù)流程李滴。
  • 根據(jù)業(yè)務(wù)目標(biāo)中的需求點(diǎn)整理出數(shù)據(jù)模型和數(shù)據(jù)維度螃宙。
  • 根據(jù)數(shù)據(jù)模型和數(shù)據(jù)維度再次制定出指標(biāo)體系。
  • 根據(jù)業(yè)務(wù)類型所坯,數(shù)據(jù)類型谆扎,指標(biāo)體系等特點(diǎn)選定分析模型。
  • 將數(shù)據(jù)輸入到分析模型芹助,計(jì)算出分析結(jié)果堂湖。

分析實(shí)踐

具體講模型推送到、實(shí)現(xiàn)到大數(shù)據(jù)框架中的方法状土。

分析模型工具

建模后在大數(shù)據(jù)分析平臺上實(shí)現(xiàn)模型无蜂。


分析模型工具

開源的算法庫,模型庫蒙谓。只需要選擇合適業(yè)務(wù)的算法斥季、模型組織出來一套分析模型。并持續(xù)優(yōu)化即可累驮。不需要再自行完成算法的編寫工作酣倾。很多算法工程師會直接在分析框架上進(jìn)行建模,并直接進(jìn)行調(diào)優(yōu)操作谤专。

  • 在業(yè)界大數(shù)據(jù)分析技術(shù)棧上有很多種技術(shù)棧躁锡。針對分析框架可以分為分布式分析框架,非分布式分析框架置侍。分布式分析框架是借助分布式計(jì)算框架完成的分布式計(jì)算任務(wù)映之。非分布式分析框架也可以借助類似于Ray的框架完成分布式計(jì)算拦焚。
  • 分析框架在不同的計(jì)算平臺上不太相同。例如:Hadoop大數(shù)據(jù)分析挖掘工具M(jìn)ahout惕医,Spark大數(shù)據(jù)分析挖掘工具M(jìn)Llib耕漱,F(xiàn)link機(jī)器學(xué)習(xí)工具庫FlinkML算色,Python下的分析挖掘工具Pandas抬伺,tensorflow即使計(jì)算框架也是分析框架等等。
  • 這些分析框架有基于流式處理的灾梦,有基于批處理的峡钓。針對不同的業(yè)務(wù)特點(diǎn)可以選用不同的計(jì)算方式進(jìn)行處理。
  • 最后計(jì)算出來的結(jié)果會存儲到數(shù)據(jù)庫或者其他地方以供之后展示使用若河。

效果反饋

在大數(shù)據(jù)分析的建模過程中需要對建模的結(jié)果進(jìn)行評估能岩。模型到線上之后也是需要評估的,因?yàn)榻_^程中的數(shù)據(jù)和線上的真實(shí)數(shù)據(jù)是有差異的萧福。并且最終客戶的反饋和分析模型的選擇可能會有偏差的問題拉鹃。

大數(shù)據(jù)分析模型線上評估

大數(shù)據(jù)分析模型線上評估
  • 在模型上線之后,需要對模型的各項(xiàng)指標(biāo)進(jìn)行監(jiān)控與評估鲫忍。已確定線上的分析模型是否可以達(dá)到業(yè)務(wù)所要求的標(biāo)準(zhǔn)膏燕。
  • 在線上針對不同的分析模型,有不同的評估方式悟民、方法坝辫。但最終是以使用結(jié)果是否對比之前有所改善做為標(biāo)準(zhǔn)。
  • 可以通過A/B Test完成對線上分析模型的對比評估過程射亏。
  • 需要在分析模型上線之前制定好模型評估指標(biāo)近忙,并采集上線前指標(biāo)與上線后指標(biāo)。這樣就可以評估出分析模型上線之后和之前的效果對比智润。
  • 例如一個(gè)推薦系統(tǒng)及舍,它所推薦的內(nèi)容客戶是否愿意點(diǎn)擊進(jìn)入查看,是否反饋為不感興趣窟绷,廣告頁面停留時(shí)間等等锯玛。
  • 在TensorFlow中有TensorFlow Model Analysis可以用于評估模型

技術(shù)支持

技術(shù)方面就不過多的探討了,一方面是業(yè)界對于大數(shù)據(jù)方面的書籍钾麸,博客都很多了更振。另一方面作者也會在之后逐步的深入講解技術(shù)部分的內(nèi)容。

大數(shù)據(jù)分析技術(shù)棧

有很多技術(shù)可以實(shí)現(xiàn)大數(shù)據(jù)分析哦~

大數(shù)據(jù)分析技術(shù)棧

OLAP:使分析人員饭尝、管理人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的肯腕、能夠真正為用戶所理解的、并真實(shí)反映數(shù)據(jù)維特性的信息钥平,進(jìn)行快速实撒、一致姊途、交互地訪問,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)知态。
Data Mining 是通過數(shù)學(xué)模型發(fā)現(xiàn)隱藏的捷兰、潛在的規(guī)律我抠,以輔助決策谓着。
傳統(tǒng)的 BI 主要想實(shí)現(xiàn)從宏觀到微觀、從廣度到深度备燃、從定量到定性各種層次的決策分析其做。大數(shù)據(jù)同傳統(tǒng) BI 比較顶考,多了一個(gè)專門的數(shù)據(jù)采集階段,主要是因?yàn)閿?shù)據(jù)種類多妖泄,數(shù)量大驹沿,從結(jié)構(gòu)化的數(shù)據(jù)到非結(jié)構(gòu)化的數(shù)據(jù)。但是其存儲蹈胡、處理及可視化的思想等都和傳統(tǒng) BI 如出一轍渊季。

大數(shù)據(jù)技術(shù)情況介紹:

  • 采集層和傳輸層可以分為幾個(gè)部分:從ETL轉(zhuǎn)換過來的,從企業(yè)內(nèi)容的紀(jì)錄信息轉(zhuǎn)過來罚渐,從互聯(lián)網(wǎng)上抓取到的却汉。每種方式都是用不同的技術(shù)進(jìn)行數(shù)據(jù)的清洗,過濾搅轿,轉(zhuǎn)換再進(jìn)入系統(tǒng)存儲病涨。
  • 存儲可以分為結(jié)構(gòu)化數(shù)據(jù)存儲,半結(jié)構(gòu)化數(shù)據(jù)存儲璧坟,無結(jié)構(gòu)數(shù)據(jù)存儲既穆。也是用不同的存儲機(jī)制完成,這個(gè)格式最終會影響使用的分析算法以及分析過程雀鹃。
  • 計(jì)算層是前面提到的分布式計(jì)算框架部分幻工。分布式計(jì)算框架使系統(tǒng)可以利用大量的、廉價(jià)的計(jì)算能力進(jìn)行計(jì)算黎茎。
  • 工具層主要是對外提供各種類型的服務(wù)囊颅。包括分析模型的管理等等。
  • 服務(wù)層即大數(shù)據(jù)平臺可以對提供的能力傅瞻。這個(gè)能力可以發(fā)散到各個(gè)業(yè)務(wù)方向上踢代。有助于大數(shù)據(jù)平臺形成獨(dú)立完成的平臺
  • 總結(jié):這里只是技術(shù)棧的內(nèi)容。具體的實(shí)施部署以及穩(wěn)定性維護(hù)方面會在下面的幾頁中介紹嗅骄。

大數(shù)據(jù)質(zhì)量監(jiān)控

數(shù)據(jù)質(zhì)量決定者分析結(jié)果的好壞胳挎。


數(shù)據(jù)質(zhì)量監(jiān)控

數(shù)據(jù)質(zhì)量管理是測度、提高和驗(yàn)證質(zhì)量溺森,以及整合組織數(shù)據(jù)的方法等一套處理準(zhǔn)則慕爬,而體量大窑眯、速度快和多樣性的特點(diǎn),決定了大數(shù)據(jù)質(zhì)量所需的處理医窿,有別于傳統(tǒng)信息治理計(jì)劃的質(zhì)量管理方式磅甩。

針對大數(shù)據(jù)平臺的運(yùn)維監(jiān)控

保證大數(shù)據(jù)平臺的正常運(yùn)行。


針對大數(shù)據(jù)平臺的運(yùn)維監(jiān)控

使用指標(biāo)監(jiān)控系統(tǒng)監(jiān)控大數(shù)據(jù)平臺的整體運(yùn)行情況姥卢。

  • Telegraf:插件化的指標(biāo)收集和指標(biāo)報(bào)告服務(wù)卷要,能定制化開發(fā)并輕松添加所需插件。已經(jīng)內(nèi)置了很多常用服-務(wù)的插件隔显,這也是我們選擇telegraf的原因之一却妨,不用再重復(fù)造輪子
  • InfluxDB:高性能的布式時(shí)間序列指標(biāo)數(shù)據(jù)庫饵逐。監(jiān)控指標(biāo)收集是非常頻繁的括眠,否則就失去了實(shí)時(shí)性,高頻收集的結(jié)果就是大數(shù)據(jù)量倍权,也要對時(shí)間序列進(jìn)行分析掷豺,InfluxDB就能滿足這種應(yīng)用場景
  • Grafana:時(shí)間序列分析和監(jiān)控的開放平臺,支持多種數(shù)據(jù)源(InfluxDB薄声、OpenTSDB時(shí)間序列數(shù)據(jù)庫)当船、豐富的展現(xiàn)形式、支持email/dingding報(bào)警

大數(shù)據(jù)架構(gòu)模式

大數(shù)據(jù)有自身的特點(diǎn)默辨,所以它也有自己的架構(gòu)模式德频。

大數(shù)據(jù)架構(gòu)模式

以上幾種架構(gòu)為目前數(shù)據(jù)處理領(lǐng)域使用比較多的幾種架構(gòu),當(dāng)然還有非常多其他架構(gòu)缩幸,不過其思想都會或多或少的類似壹置。數(shù)據(jù)領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域會持續(xù)發(fā)展,以上幾種思想或許終究也會變得過時(shí)表谊。

大數(shù)據(jù)平臺

大數(shù)據(jù)技術(shù)平臺包含的內(nèi)容钞护。


大數(shù)據(jù)平臺

- 左側(cè):

這是一個(gè)典型的大數(shù)據(jù)技術(shù)架構(gòu),且對架構(gòu)進(jìn)行了「分層」爆办,分為「數(shù)據(jù)源層」难咕、「數(shù)據(jù)傳輸層」、「數(shù)據(jù)存儲層」距辆、「編程模型層」和「數(shù)據(jù)分析層」余佃,如果繼續(xù)往上走的話,還有「數(shù)據(jù)可視化層」和「數(shù)據(jù)應(yīng)用層」跨算。

- 右側(cè):

這是一個(gè)完整的大數(shù)據(jù)平臺框架爆土。雖然內(nèi)容沒有填寫具體的內(nèi)容,但是它包含了大數(shù)據(jù)平臺的幾大基本要素漂彤。整體大數(shù)據(jù)平臺所需要的子系統(tǒng)雾消。這些子系統(tǒng)都是為了保證大數(shù)據(jù)平臺能夠滿足業(yè)務(wù)需求灾搏。保證大數(shù)據(jù)系統(tǒng)的可用,準(zhǔn)確立润,并能夠建立持續(xù)流動的模式狂窑。

整體規(guī)劃

平臺的整體規(guī)劃


整體規(guī)劃

大數(shù)據(jù)平臺的規(guī)劃是一個(gè)歷經(jīng)磨煉、也卓有成效的長期過程桑腮。如書中所提到的泉哈,阿里巴巴不僅數(shù)據(jù)量超宇宙級,而且更是因?yàn)闃I(yè)務(wù)場景的復(fù)雜和多元化破讨,其面對著甚至超過 Google 和 Facebook 的更復(fù)雜的難題丛晦。大部分時(shí)候,阿里巴巴都是在無人區(qū)艱難跋涉提陶。每一組功能和邏輯烫沙,每-套架構(gòu)與系統(tǒng),都與業(yè)務(wù)和場景息息相關(guān)隙笆。這個(gè)黑洞膨脹之快锌蓄,以至于大部分時(shí)候都是在出現(xiàn)痛點(diǎn)從而剌激了架構(gòu)升級。換言之撑柔,大數(shù)據(jù)系統(tǒng)一一如果我們非要用一個(gè)系統(tǒng)去描述的話一一其復(fù)雜度之高瘸爽,是幾乎不可能在一開始就完整和完美地進(jìn)行自上而下定義和設(shè)計(jì)的。從需求→設(shè)計(jì)→迭代→一寸大數(shù)據(jù)之路一一阿里巴巴大數(shù)據(jù)實(shí)踐升華為理論铅忿,在無數(shù)次的迭代進(jìn)化中剪决,我們對大數(shù)據(jù)的理解才逐漸成形,慢慢能夠在將數(shù)據(jù)黑洞為我所用的抗?fàn)幹邪饣匾痪帧?/p>

這個(gè)系統(tǒng)生長和進(jìn)化的過程實(shí)際上已經(jīng)暗暗揭示了阿里巴巴對大數(shù)據(jù)真髓的理解檀训。大柑潦、快、多樣性只是表象肢扯,大數(shù)據(jù)的真正價(jià)值在于生命性和生態(tài)性妒茬。阿里巴巴稱之為“活數(shù)據(jù)”∥党浚活數(shù)據(jù)是全本記錄乍钻、實(shí)時(shí)驅(qū)動決策和迭代,其價(jià)值是隨著使用場景和方式動態(tài)變化的 铭腕。簡單地把數(shù)據(jù)定義為正/負(fù)資產(chǎn)都太簡單银择。數(shù)據(jù)也不是會枯竭的能源。數(shù)據(jù)可以被重復(fù)使用累舷,并在使用中升值浩考;數(shù)據(jù)與數(shù)據(jù)鏈接可能會像核反應(yīng)一樣產(chǎn)生價(jià)值的聚變。數(shù)據(jù)使用和數(shù)據(jù)聚變又產(chǎn)生新的數(shù)據(jù)被盈∥瞿酰活數(shù)據(jù)的基礎(chǔ)設(shè)施就需要來承載搭伤、管理和促進(jìn)這個(gè)生態(tài)體的最大價(jià)值實(shí)現(xiàn)(以及相應(yīng)的成本最小化)。豐富的數(shù)據(jù)形式袜瞬、多樣化的參與角色和動機(jī)怜俐,以及迥異的計(jì)算場景都使得這個(gè)系統(tǒng)的復(fù)雜度無限升級。阿里巴巴的大數(shù)據(jù)之路就是在深刻理解這種復(fù)雜性的基礎(chǔ)上邓尤,摸索到了一些重要的秩序和原理拍鲤,并通過技術(shù)架構(gòu)來驗(yàn)證和勞實(shí)。

總結(jié)

機(jī)器學(xué)習(xí)汞扎、人工智能季稳、深度學(xué)習(xí)等,需要訓(xùn)練集來訓(xùn)練模型和參數(shù)澈魄,通常都會定義一個(gè)損失函數(shù)(Loss Function)或能量函數(shù)景鼠,設(shè)定約束條件,然后求解函數(shù)的能量最小值一忱,通常需要使用優(yōu)化求解器莲蜘,或是根據(jù)特定問題自己編程求解。從這個(gè)意義上帘营,人工智能、大數(shù)據(jù)逐哈,最終幾乎都?xì)w結(jié)為一個(gè)求解能量最小的優(yōu)化問題芬迄,而運(yùn)籌學(xué)正是研究優(yōu)化理論的學(xué)科。因此昂秃,我把運(yùn)籌學(xué)/優(yōu)化理論稱為人工智能禀梳、大數(shù)據(jù)的“引擎”。

大數(shù)據(jù)其實(shí)就是為我們建立數(shù)據(jù)分析與數(shù)據(jù)存儲的平臺肠骆。算法工程師通過數(shù)據(jù)標(biāo)簽化算途,數(shù)據(jù)分群等操作將數(shù)據(jù)建立指標(biāo)和維度進(jìn)行數(shù)學(xué)分析得到分析結(jié)果的過程。但是就像上面所說的數(shù)學(xué)是大數(shù)據(jù)分析的基礎(chǔ)蚀腿,技術(shù)是大數(shù)據(jù)分析的實(shí)現(xiàn)手段嘴瓤。

參考:

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蚊伞,隨后出現(xiàn)的幾起案子席赂,更是在濱河造成了極大的恐慌吮铭,老刑警劉巖,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件颅停,死亡現(xiàn)場離奇詭異沐兵,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)便监,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進(jìn)店門扎谎,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人烧董,你說我怎么就攤上這事毁靶。” “怎么了逊移?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵预吆,是天一觀的道長。 經(jīng)常有香客問我胳泉,道長,這世上最難降的妖魔是什么扇商? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任凤瘦,我火速辦了婚禮,結(jié)果婚禮上案铺,老公的妹妹穿的比我還像新娘蔬芥。我一直安慰自己,他們只是感情好控汉,可當(dāng)我...
    茶點(diǎn)故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布笔诵。 她就那樣靜靜地躺著,像睡著了一般姑子。 火紅的嫁衣襯著肌膚如雪乎婿。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天街佑,我揣著相機(jī)與錄音谢翎,去河邊找鬼。 笑死舆乔,一個(gè)胖子當(dāng)著我的面吹牛岳服,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播希俩,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼吊宋,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起璃搜,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤拖吼,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后这吻,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體吊档,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年唾糯,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了怠硼。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 38,622評論 1 340
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡移怯,死狀恐怖香璃,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情舟误,我是刑警寧澤葡秒,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布,位于F島的核電站嵌溢,受9級特大地震影響眯牧,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜赖草,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一学少、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧疚顷,春花似錦旱易、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽如暖。三九已至笆檀,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間盒至,已是汗流浹背酗洒。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留枷遂,地道東北人樱衷。 一個(gè)月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像酒唉,于是被迫代替她去往敵國和親矩桂。 傳聞我的和親對象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 43,490評論 2 348