架構(gòu)設(shè)計(jì)系列文章虏劲,請參見連接。
十分鐘讓你透徹理解大數(shù)據(jù)的工作方式演闭。大數(shù)據(jù)并不是深不可測不跟、高不可攀的技術(shù),這里用18頁ppt為你深入的理解大數(shù)據(jù)船响,學(xué)習(xí)大數(shù)據(jù)做好充分的準(zhǔn)備躬拢。
結(jié)合大數(shù)據(jù)實(shí)際使用與開發(fā)流程講述大數(shù)據(jù)中方方面面的內(nèi)容躲履。可以一次完整的了解大數(shù)據(jù)落地過程中需要考慮的問題聊闯,需要解決的問題呈現(xiàn)出一個(gè)可以真實(shí)工猜,完整,落地的大數(shù)據(jù)服務(wù)平臺菱蔬。
概述
說明大數(shù)據(jù)分析的意義篷帅,并抽象大數(shù)據(jù)處理過程。以更通用的理解方式說明大數(shù)據(jù)的特點(diǎn)拴泌。
大數(shù)據(jù)過程
用通俗的語言介紹大數(shù)據(jù)分析魏身、挖掘過程。
原始的數(shù)據(jù)是十分雜亂的蚪腐,在數(shù)據(jù)經(jīng)過梳理和清洗箭昵,才能夠稱為信息。信息會包含很多規(guī)律回季,我們需要從信息中將規(guī)律總結(jié)出來家制,稱為知識(Knowledge),而知識改變命運(yùn)泡一。有了知識颤殴,然后利用這些知識去應(yīng)用于實(shí)戰(zhàn),有的人會做得非常好鼻忠,這個(gè)東西叫做智慧(Intelligence)涵但。
用一種簡單的方式說明就是收集來的數(shù)據(jù)有很多噪音,異常不能直接成為有效信息帖蔓,進(jìn)過梳理矮瘟,過濾,清洗之后形成有用信息讨阻。然后在有用的信息中找到某種規(guī)律就變成了可以提高認(rèn)知的知識芥永。然后知識運(yùn)用到之后的工作中就變成了智慧篡殷。
最終的階段是很多企業(yè)都想要的钝吮。你看我收集了這么多的數(shù)據(jù),能不能基于這些數(shù)據(jù)來幫我做下一步的決策板辽,改善我的產(chǎn)品奇瘦。
大數(shù)據(jù)分析也不是絕對的,有漏洞也有失誤劲弦,我們不能迷信耳标。雖然大數(shù)據(jù)分析通常是會凌駕于專家直覺經(jīng)驗(yàn)之上的,但直覺在選擇數(shù)據(jù)分析之初起著關(guān)鍵性作用邑跪。所以次坡,未來我們需要同過直覺呼猪、經(jīng)驗(yàn)、統(tǒng)計(jì)數(shù)字來做好很多決策砸琅。而學(xué)好大數(shù)據(jù)分析宋距,除了那些大的政府決策或者行業(yè)、機(jī)構(gòu)決策(醫(yī)療改革症脂、影視發(fā)行谚赎、圖書名稱等),我們的日常生活也是可以通過這種思維受益的诱篷。
統(tǒng)計(jì)中所謂的“因果”是“某種”意義的“因果”壶唤,即統(tǒng)計(jì)學(xué)只討論“原因的結(jié)果”,而不討論“結(jié)果的原因”棕所。前者是可以用數(shù)據(jù)證明或者證偽的闸盔;后者是屬于科學(xué)研究所探索的。用科學(xué)哲學(xué)家卡爾·波普的話來說琳省,科學(xué)知識的積累是“猜想與反駁”的過程:“猜想”結(jié)果的原因蕾殴,再“證偽”原因的結(jié)果;如此循環(huán)即科學(xué)岛啸。
大數(shù)據(jù)分析過程
介紹大數(shù)據(jù)分析實(shí)施過程
- 大數(shù)據(jù)分析過程是從數(shù)據(jù)建模開始钓觉,然后是將模型加入的系統(tǒng)中,然后等待真實(shí)數(shù)據(jù)的反饋再進(jìn)行坚踩。再進(jìn)入對數(shù)據(jù)模型的持續(xù)優(yōu)化過程中荡灾。
- 整體規(guī)劃:整體規(guī)劃是規(guī)劃系統(tǒng)中數(shù)據(jù)的建模規(guī)范,分析維度瞬铸,分析過程批幌,技術(shù)體系,實(shí)踐規(guī)范等等內(nèi)容嗓节。用以管理整個(gè)DMP體系中所有的內(nèi)容荧缘。
- 數(shù)據(jù)建模:根據(jù)業(yè)務(wù)對業(yè)務(wù)關(guān)心的指標(biāo)、維度進(jìn)行定義拦宣。并針對這些指標(biāo)維度進(jìn)行相關(guān)的數(shù)據(jù)算法的統(tǒng)計(jì)截粗。
- 分析實(shí)踐:根據(jù)建模結(jié)果,通過技術(shù)的支持形成真正能夠在實(shí)踐環(huán)境中使用的代碼或者展示鸵隧。
- 效果反饋:數(shù)據(jù)分析結(jié)果是有度量的绸罗。怎樣定義一個(gè)數(shù)據(jù)模型在真實(shí)數(shù)據(jù)環(huán)境中的效果是一門獨(dú)立的學(xué)問。
- 技術(shù)支持:以最高效豆瘫、最低正本支持?jǐn)?shù)據(jù)分析的各種工具珊蟀。包括數(shù)據(jù)建模,數(shù)據(jù)可視化外驱,數(shù)據(jù)挖掘育灸,數(shù)據(jù)分析等等工具的技術(shù)支持腻窒。
- 總結(jié):很多地方不說明大數(shù)據(jù)的整體過程,只說明其中的很小一部分磅崭。導(dǎo)致技術(shù)落地困難定页。
數(shù)據(jù)建模
數(shù)據(jù)建模是大數(shù)據(jù)分析的核心。它決定了大數(shù)據(jù)分析的最終效果绽诚。
適合分析的業(yè)務(wù)
大數(shù)據(jù)能夠解決的問題典徊。說明大數(shù)據(jù)處理問題的特點(diǎn)。
- 在對復(fù)雜問題進(jìn)行分析與解決時(shí)總會使用的解決步驟:
- 發(fā)生了什么恩够?
- 為什么會發(fā)生卒落?
- 可能會發(fā)生什么?
- 需要做什么蜂桶?
大數(shù)據(jù)分析其實(shí)就是對復(fù)雜問題進(jìn)行分析與解決的過程儡毕。所以也是使用域這個(gè)解決過程的。在大數(shù)據(jù)分析中每一個(gè)步驟都有它自己獨(dú)立的意義扑媚⊙澹可以幫助我們了解數(shù)據(jù)中到底包含了那些意義。每一個(gè)步驟都能讓我們更深入的了解疆股,深入的認(rèn)識系統(tǒng)的情況费坊,最終可以根據(jù)具體的數(shù)字化情況決定下一步的動作。
問題域:大數(shù)據(jù)分析只有需要解決這些問題時(shí)才有作用旬痹。如果業(yè)務(wù)需求不是在這個(gè)范圍內(nèi)的需求附井,則不適用與使用大數(shù)據(jù)分析方法進(jìn)行問題的分析與解決。
解決域:針對不同的業(yè)務(wù)需求選擇的不同的分析模型两残,也可以組合這些分析模型進(jìn)行級聯(lián)解決永毅。在這些分析模型下定義了不同的分析算法,可以自頂向下的確定使用哪個(gè)分析模型人弓,選用哪個(gè)分析算法沼死,怎樣進(jìn)行組合。這樣就形成了一套完整的大數(shù)據(jù)分析模型崔赌。
分析建模技術(shù)介紹
大數(shù)據(jù)分析為我們提供了什么樣的方法意蛀,來解決問題。
大數(shù)據(jù)分析建模技術(shù)依賴的還是機(jī)器學(xué)習(xí)峰鄙,人工智能提供算法浸间。然后才可以對大量的數(shù)據(jù)進(jìn)行聚類、分類吟榴、回歸等等計(jì)算。在計(jì)算過程中需要對大量數(shù)據(jù)的訪問囊扳,分布式計(jì)算等才是大數(shù)據(jù)技術(shù)吩翻。
要對數(shù)據(jù)中的特征進(jìn)行量化或抽取特征需要進(jìn)行機(jī)器學(xué)習(xí)兜看。對數(shù)據(jù)進(jìn)行分類也需要對其進(jìn)行識別。針對下一階段可能發(fā)生的情況還是需要量化狭瞎。
數(shù)據(jù)挖掘建模過程
怎樣建立數(shù)據(jù)挖掘模型细移。
- 目標(biāo)定義需要定義清楚大數(shù)據(jù)需要解決的問題,并依據(jù)這些問題形成大數(shù)據(jù)分析時(shí)使用的指標(biāo)體系熊锭。
- 抽取數(shù)據(jù)弧轧,使用能夠反映整個(gè)情況的數(shù)據(jù)的選擇方式是需要根據(jù)不同的方面進(jìn)行選擇的。
- 在大數(shù)據(jù)分析過程中數(shù)據(jù)質(zhì)量是非常重要的碗殷。在數(shù)據(jù)分析精绎、人工智能方面有一個(gè)重要的原則:Garbage In Garbage Out原則。就是說明數(shù)據(jù)質(zhì)量的重要性锌妻。
- 建模:大數(shù)據(jù)分析與挖掘的基礎(chǔ)代乃。有了指標(biāo)體系有了樣本數(shù)據(jù),需要通過模型算法得出業(yè)務(wù)所需要的結(jié)果仿粹。
- 模型評價(jià):對建模結(jié)果的評價(jià)搁吓。評價(jià)也是有一套完整的系統(tǒng)的。
- 模型建立完成吭历,并通過評價(jià)之后堕仔。就可以發(fā)布上線了。不過發(fā)不上線還是在線上持續(xù)反饋模型效果晌区,并持續(xù)- 對建模結(jié)果進(jìn)行優(yōu)化贮预。
- 目標(biāo)定義
明確大數(shù)據(jù)分析目標(biāo),并之后針對目標(biāo)進(jìn)行分析與建設(shè)契讲。
對大數(shù)據(jù)不了解導(dǎo)致看似明確的需求無法落地仿吞,所以需要進(jìn)行引導(dǎo)性需求調(diào)研。
- 指標(biāo)和維度
分析中關(guān)注的指標(biāo)和維度捡偏,定義了之后能夠分析哪些內(nèi)容唤冈。
- 特征工程:數(shù)據(jù)和特征決定了機(jī)器學(xué)習(xí)的上限,而模型和算法只是逼近這個(gè)上限而已银伟。
- 指標(biāo)體系:指標(biāo)可以分為絕對數(shù)指標(biāo)和相對數(shù)指標(biāo)你虹,絕對數(shù)指標(biāo)反映的是規(guī)模大小的指標(biāo)
- 分析維度:維度是事物或現(xiàn)象的某種特征
分析模型介紹
分析模型的建立過程
在建模過程中需要不斷的嘗試不同的模型,不同的算法彤避,不同的參數(shù)傅物。所以,在建模過程中還是需要有不斷的迭代的過程琉预。
在整體大數(shù)據(jù)分析過程中也是一個(gè)大迭代董饰。從建模、上線、反饋再到建模卒暂。這樣才可以根據(jù)現(xiàn)實(shí)中的業(yè)務(wù)場景進(jìn)行不斷的調(diào)優(yōu)啄栓。
建模過程中需要有訓(xùn)練數(shù)據(jù),測試數(shù)據(jù)和驗(yàn)證數(shù)據(jù)也祠。驗(yàn)證數(shù)據(jù)是人工對數(shù)據(jù)進(jìn)行分析后的結(jié)果昙楚。使用分析結(jié)果和訓(xùn)練結(jié)果進(jìn)行對比,然后得出模型的的評價(jià)情況诈嘿。
模型評價(jià)中包含很多指標(biāo)堪旧。例如:誤差率,準(zhǔn)確率奖亚、精確率淳梦、召回率等
建模工具
建模實(shí)例
介紹大體的建模過程的一個(gè)實(shí)際例子。
- 明確業(yè)務(wù)目標(biāo)遂蛀。對業(yè)務(wù)目標(biāo)進(jìn)行分析谭跨,得出業(yè)務(wù)中的具體需求點(diǎn)。并整理形成完整貫穿整個(gè)的業(yè)務(wù)流程李滴。
- 根據(jù)業(yè)務(wù)目標(biāo)中的需求點(diǎn)整理出數(shù)據(jù)模型和數(shù)據(jù)維度螃宙。
- 根據(jù)數(shù)據(jù)模型和數(shù)據(jù)維度再次制定出指標(biāo)體系。
- 根據(jù)業(yè)務(wù)類型所坯,數(shù)據(jù)類型谆扎,指標(biāo)體系等特點(diǎn)選定分析模型。
- 將數(shù)據(jù)輸入到分析模型芹助,計(jì)算出分析結(jié)果堂湖。
分析實(shí)踐
具體講模型推送到、實(shí)現(xiàn)到大數(shù)據(jù)框架中的方法状土。
分析模型工具
建模后在大數(shù)據(jù)分析平臺上實(shí)現(xiàn)模型无蜂。
開源的算法庫,模型庫蒙谓。只需要選擇合適業(yè)務(wù)的算法斥季、模型組織出來一套分析模型。并持續(xù)優(yōu)化即可累驮。不需要再自行完成算法的編寫工作酣倾。很多算法工程師會直接在分析框架上進(jìn)行建模,并直接進(jìn)行調(diào)優(yōu)操作谤专。
- 在業(yè)界大數(shù)據(jù)分析技術(shù)棧上有很多種技術(shù)棧躁锡。針對分析框架可以分為分布式分析框架,非分布式分析框架置侍。分布式分析框架是借助分布式計(jì)算框架完成的分布式計(jì)算任務(wù)映之。非分布式分析框架也可以借助類似于Ray的框架完成分布式計(jì)算拦焚。
- 分析框架在不同的計(jì)算平臺上不太相同。例如:Hadoop大數(shù)據(jù)分析挖掘工具M(jìn)ahout惕医,Spark大數(shù)據(jù)分析挖掘工具M(jìn)Llib耕漱,F(xiàn)link機(jī)器學(xué)習(xí)工具庫FlinkML算色,Python下的分析挖掘工具Pandas抬伺,tensorflow即使計(jì)算框架也是分析框架等等。
- 這些分析框架有基于流式處理的灾梦,有基于批處理的峡钓。針對不同的業(yè)務(wù)特點(diǎn)可以選用不同的計(jì)算方式進(jìn)行處理。
- 最后計(jì)算出來的結(jié)果會存儲到數(shù)據(jù)庫或者其他地方以供之后展示使用若河。
效果反饋
在大數(shù)據(jù)分析的建模過程中需要對建模的結(jié)果進(jìn)行評估能岩。模型到線上之后也是需要評估的,因?yàn)榻_^程中的數(shù)據(jù)和線上的真實(shí)數(shù)據(jù)是有差異的萧福。并且最終客戶的反饋和分析模型的選擇可能會有偏差的問題拉鹃。
大數(shù)據(jù)分析模型線上評估
- 在模型上線之后,需要對模型的各項(xiàng)指標(biāo)進(jìn)行監(jiān)控與評估鲫忍。已確定線上的分析模型是否可以達(dá)到業(yè)務(wù)所要求的標(biāo)準(zhǔn)膏燕。
- 在線上針對不同的分析模型,有不同的評估方式悟民、方法坝辫。但最終是以使用結(jié)果是否對比之前有所改善做為標(biāo)準(zhǔn)。
- 可以通過A/B Test完成對線上分析模型的對比評估過程射亏。
- 需要在分析模型上線之前制定好模型評估指標(biāo)近忙,并采集上線前指標(biāo)與上線后指標(biāo)。這樣就可以評估出分析模型上線之后和之前的效果對比智润。
- 例如一個(gè)推薦系統(tǒng)及舍,它所推薦的內(nèi)容客戶是否愿意點(diǎn)擊進(jìn)入查看,是否反饋為不感興趣窟绷,廣告頁面停留時(shí)間等等锯玛。
- 在TensorFlow中有TensorFlow Model Analysis可以用于評估模型
技術(shù)支持
技術(shù)方面就不過多的探討了,一方面是業(yè)界對于大數(shù)據(jù)方面的書籍钾麸,博客都很多了更振。另一方面作者也會在之后逐步的深入講解技術(shù)部分的內(nèi)容。
大數(shù)據(jù)分析技術(shù)棧
有很多技術(shù)可以實(shí)現(xiàn)大數(shù)據(jù)分析哦~
OLAP:使分析人員饭尝、管理人員能夠從多種角度對從原始數(shù)據(jù)中轉(zhuǎn)化出來的肯腕、能夠真正為用戶所理解的、并真實(shí)反映數(shù)據(jù)維特性的信息钥平,進(jìn)行快速实撒、一致姊途、交互地訪問,從而獲得對數(shù)據(jù)的更深入了解的一類軟件技術(shù)知态。
Data Mining 是通過數(shù)學(xué)模型發(fā)現(xiàn)隱藏的捷兰、潛在的規(guī)律我抠,以輔助決策谓着。
傳統(tǒng)的 BI 主要想實(shí)現(xiàn)從宏觀到微觀、從廣度到深度备燃、從定量到定性各種層次的決策分析其做。大數(shù)據(jù)同傳統(tǒng) BI 比較顶考,多了一個(gè)專門的數(shù)據(jù)采集階段,主要是因?yàn)閿?shù)據(jù)種類多妖泄,數(shù)量大驹沿,從結(jié)構(gòu)化的數(shù)據(jù)到非結(jié)構(gòu)化的數(shù)據(jù)。但是其存儲蹈胡、處理及可視化的思想等都和傳統(tǒng) BI 如出一轍渊季。
大數(shù)據(jù)技術(shù)情況介紹:
- 采集層和傳輸層可以分為幾個(gè)部分:從ETL轉(zhuǎn)換過來的,從企業(yè)內(nèi)容的紀(jì)錄信息轉(zhuǎn)過來罚渐,從互聯(lián)網(wǎng)上抓取到的却汉。每種方式都是用不同的技術(shù)進(jìn)行數(shù)據(jù)的清洗,過濾搅轿,轉(zhuǎn)換再進(jìn)入系統(tǒng)存儲病涨。
- 存儲可以分為結(jié)構(gòu)化數(shù)據(jù)存儲,半結(jié)構(gòu)化數(shù)據(jù)存儲璧坟,無結(jié)構(gòu)數(shù)據(jù)存儲既穆。也是用不同的存儲機(jī)制完成,這個(gè)格式最終會影響使用的分析算法以及分析過程雀鹃。
- 計(jì)算層是前面提到的分布式計(jì)算框架部分幻工。分布式計(jì)算框架使系統(tǒng)可以利用大量的、廉價(jià)的計(jì)算能力進(jìn)行計(jì)算黎茎。
- 工具層主要是對外提供各種類型的服務(wù)囊颅。包括分析模型的管理等等。
- 服務(wù)層即大數(shù)據(jù)平臺可以對提供的能力傅瞻。這個(gè)能力可以發(fā)散到各個(gè)業(yè)務(wù)方向上踢代。有助于大數(shù)據(jù)平臺形成獨(dú)立完成的平臺
- 總結(jié):這里只是技術(shù)棧的內(nèi)容。具體的實(shí)施部署以及穩(wěn)定性維護(hù)方面會在下面的幾頁中介紹嗅骄。
大數(shù)據(jù)質(zhì)量監(jiān)控
數(shù)據(jù)質(zhì)量決定者分析結(jié)果的好壞胳挎。
數(shù)據(jù)質(zhì)量管理是測度、提高和驗(yàn)證質(zhì)量溺森,以及整合組織數(shù)據(jù)的方法等一套處理準(zhǔn)則慕爬,而體量大窑眯、速度快和多樣性的特點(diǎn),決定了大數(shù)據(jù)質(zhì)量所需的處理医窿,有別于傳統(tǒng)信息治理計(jì)劃的質(zhì)量管理方式磅甩。
針對大數(shù)據(jù)平臺的運(yùn)維監(jiān)控
保證大數(shù)據(jù)平臺的正常運(yùn)行。
使用指標(biāo)監(jiān)控系統(tǒng)監(jiān)控大數(shù)據(jù)平臺的整體運(yùn)行情況姥卢。
- Telegraf:插件化的指標(biāo)收集和指標(biāo)報(bào)告服務(wù)卷要,能定制化開發(fā)并輕松添加所需插件。已經(jīng)內(nèi)置了很多常用服-務(wù)的插件隔显,這也是我們選擇telegraf的原因之一却妨,不用再重復(fù)造輪子
- InfluxDB:高性能的布式時(shí)間序列指標(biāo)數(shù)據(jù)庫饵逐。監(jiān)控指標(biāo)收集是非常頻繁的括眠,否則就失去了實(shí)時(shí)性,高頻收集的結(jié)果就是大數(shù)據(jù)量倍权,也要對時(shí)間序列進(jìn)行分析掷豺,InfluxDB就能滿足這種應(yīng)用場景
- Grafana:時(shí)間序列分析和監(jiān)控的開放平臺,支持多種數(shù)據(jù)源(InfluxDB薄声、OpenTSDB時(shí)間序列數(shù)據(jù)庫)当船、豐富的展現(xiàn)形式、支持email/dingding報(bào)警
大數(shù)據(jù)架構(gòu)模式
大數(shù)據(jù)有自身的特點(diǎn)默辨,所以它也有自己的架構(gòu)模式德频。
以上幾種架構(gòu)為目前數(shù)據(jù)處理領(lǐng)域使用比較多的幾種架構(gòu),當(dāng)然還有非常多其他架構(gòu)缩幸,不過其思想都會或多或少的類似壹置。數(shù)據(jù)領(lǐng)域和機(jī)器學(xué)習(xí)領(lǐng)域會持續(xù)發(fā)展,以上幾種思想或許終究也會變得過時(shí)表谊。
大數(shù)據(jù)平臺
大數(shù)據(jù)技術(shù)平臺包含的內(nèi)容钞护。
- 左側(cè):
這是一個(gè)典型的大數(shù)據(jù)技術(shù)架構(gòu),且對架構(gòu)進(jìn)行了「分層」爆办,分為「數(shù)據(jù)源層」难咕、「數(shù)據(jù)傳輸層」、「數(shù)據(jù)存儲層」距辆、「編程模型層」和「數(shù)據(jù)分析層」余佃,如果繼續(xù)往上走的話,還有「數(shù)據(jù)可視化層」和「數(shù)據(jù)應(yīng)用層」跨算。
- 右側(cè):
這是一個(gè)完整的大數(shù)據(jù)平臺框架爆土。雖然內(nèi)容沒有填寫具體的內(nèi)容,但是它包含了大數(shù)據(jù)平臺的幾大基本要素漂彤。整體大數(shù)據(jù)平臺所需要的子系統(tǒng)雾消。這些子系統(tǒng)都是為了保證大數(shù)據(jù)平臺能夠滿足業(yè)務(wù)需求灾搏。保證大數(shù)據(jù)系統(tǒng)的可用,準(zhǔn)確立润,并能夠建立持續(xù)流動的模式狂窑。
整體規(guī)劃
平臺的整體規(guī)劃
大數(shù)據(jù)平臺的規(guī)劃是一個(gè)歷經(jīng)磨煉、也卓有成效的長期過程桑腮。如書中所提到的泉哈,阿里巴巴不僅數(shù)據(jù)量超宇宙級,而且更是因?yàn)闃I(yè)務(wù)場景的復(fù)雜和多元化破讨,其面對著甚至超過 Google 和 Facebook 的更復(fù)雜的難題丛晦。大部分時(shí)候,阿里巴巴都是在無人區(qū)艱難跋涉提陶。每一組功能和邏輯烫沙,每-套架構(gòu)與系統(tǒng),都與業(yè)務(wù)和場景息息相關(guān)隙笆。這個(gè)黑洞膨脹之快锌蓄,以至于大部分時(shí)候都是在出現(xiàn)痛點(diǎn)從而剌激了架構(gòu)升級。換言之撑柔,大數(shù)據(jù)系統(tǒng)一一如果我們非要用一個(gè)系統(tǒng)去描述的話一一其復(fù)雜度之高瘸爽,是幾乎不可能在一開始就完整和完美地進(jìn)行自上而下定義和設(shè)計(jì)的。從需求→設(shè)計(jì)→迭代→一寸大數(shù)據(jù)之路一一阿里巴巴大數(shù)據(jù)實(shí)踐升華為理論铅忿,在無數(shù)次的迭代進(jìn)化中剪决,我們對大數(shù)據(jù)的理解才逐漸成形,慢慢能夠在將數(shù)據(jù)黑洞為我所用的抗?fàn)幹邪饣匾痪帧?/p>
這個(gè)系統(tǒng)生長和進(jìn)化的過程實(shí)際上已經(jīng)暗暗揭示了阿里巴巴對大數(shù)據(jù)真髓的理解檀训。大柑潦、快、多樣性只是表象肢扯,大數(shù)據(jù)的真正價(jià)值在于生命性和生態(tài)性妒茬。阿里巴巴稱之為“活數(shù)據(jù)”∥党浚活數(shù)據(jù)是全本記錄乍钻、實(shí)時(shí)驅(qū)動決策和迭代,其價(jià)值是隨著使用場景和方式動態(tài)變化的 铭腕。簡單地把數(shù)據(jù)定義為正/負(fù)資產(chǎn)都太簡單银择。數(shù)據(jù)也不是會枯竭的能源。數(shù)據(jù)可以被重復(fù)使用累舷,并在使用中升值浩考;數(shù)據(jù)與數(shù)據(jù)鏈接可能會像核反應(yīng)一樣產(chǎn)生價(jià)值的聚變。數(shù)據(jù)使用和數(shù)據(jù)聚變又產(chǎn)生新的數(shù)據(jù)被盈∥瞿酰活數(shù)據(jù)的基礎(chǔ)設(shè)施就需要來承載搭伤、管理和促進(jìn)這個(gè)生態(tài)體的最大價(jià)值實(shí)現(xiàn)(以及相應(yīng)的成本最小化)。豐富的數(shù)據(jù)形式袜瞬、多樣化的參與角色和動機(jī)怜俐,以及迥異的計(jì)算場景都使得這個(gè)系統(tǒng)的復(fù)雜度無限升級。阿里巴巴的大數(shù)據(jù)之路就是在深刻理解這種復(fù)雜性的基礎(chǔ)上邓尤,摸索到了一些重要的秩序和原理拍鲤,并通過技術(shù)架構(gòu)來驗(yàn)證和勞實(shí)。
總結(jié)
機(jī)器學(xué)習(xí)汞扎、人工智能季稳、深度學(xué)習(xí)等,需要訓(xùn)練集來訓(xùn)練模型和參數(shù)澈魄,通常都會定義一個(gè)損失函數(shù)(Loss Function)或能量函數(shù)景鼠,設(shè)定約束條件,然后求解函數(shù)的能量最小值一忱,通常需要使用優(yōu)化求解器莲蜘,或是根據(jù)特定問題自己編程求解。從這個(gè)意義上帘营,人工智能、大數(shù)據(jù)逐哈,最終幾乎都?xì)w結(jié)為一個(gè)求解能量最小的優(yōu)化問題芬迄,而運(yùn)籌學(xué)正是研究優(yōu)化理論的學(xué)科。因此昂秃,我把運(yùn)籌學(xué)/優(yōu)化理論稱為人工智能禀梳、大數(shù)據(jù)的“引擎”。
大數(shù)據(jù)其實(shí)就是為我們建立數(shù)據(jù)分析與數(shù)據(jù)存儲的平臺肠骆。算法工程師通過數(shù)據(jù)標(biāo)簽化算途,數(shù)據(jù)分群等操作將數(shù)據(jù)建立指標(biāo)和維度進(jìn)行數(shù)學(xué)分析得到分析結(jié)果的過程。但是就像上面所說的數(shù)學(xué)是大數(shù)據(jù)分析的基礎(chǔ)蚀腿,技術(shù)是大數(shù)據(jù)分析的實(shí)現(xiàn)手段嘴瓤。
參考:
書籍
《Hadoop大數(shù)據(jù)分析與挖掘?qū)崙?zhàn)》 機(jī)械工業(yè)出版社 張良均
《大數(shù)據(jù)架構(gòu)商業(yè)之路》 機(jī)械工業(yè)出版社 黃申
《大數(shù)據(jù)架構(gòu)詳解》 電子工業(yè)出版社 朱潔
《大數(shù)據(jù)之路》 電子工業(yè)出版社 阿里巴巴
《Mahout實(shí)戰(zhàn)》人民郵電出版社 Sean Owen什么是大數(shù)據(jù)分析
最常用的四種大數(shù)據(jù)分析方法
大數(shù)據(jù)發(fā)展趨勢:三大方向預(yù)測大數(shù)據(jù)技術(shù)的未來趨勢整體
大數(shù)據(jù)架構(gòu)商業(yè)之路:從業(yè)務(wù)需求到技術(shù)方案
深度 | 大數(shù)據(jù)之殤
基于Hadoop的大數(shù)據(jù)平臺的整體架構(gòu)介紹
一個(gè)常見大數(shù)據(jù)平臺架構(gòu)
后Hadoop時(shí)代的大數(shù)據(jù)架構(gòu)
對比解讀五種主流大數(shù)據(jù)架構(gòu)的數(shù)據(jù)分析能力
常用的幾種大數(shù)據(jù)架構(gòu)剖析
基于Hadoop的數(shù)據(jù)分析平臺搭建
基于Hadoop的大數(shù)據(jù)平臺實(shí)施——整體架構(gòu)設(shè)計(jì)
解讀主流大數(shù)據(jù)架構(gòu)技術(shù)
DB、DW莉钙、DM廓脆、ODS、OLAP磁玉、OLTP和BI的概念理解
最值得參閱的大數(shù)據(jù)的技術(shù)圖譜
大數(shù)據(jù)工程師必備技能
大數(shù)據(jù)組件圖譜---比較齊全
數(shù)據(jù)倉庫和數(shù)據(jù)倉庫分層
Hive(數(shù)據(jù)倉庫)與數(shù)據(jù)庫的區(qū)別數(shù)據(jù)可視化
30個(gè)值得推薦的數(shù)據(jù)可視化工具(2019年更新)
4個(gè)最受歡迎的大數(shù)據(jù)可視化工具
大數(shù)據(jù)可視化概念簡介以及相關(guān)工具介紹
大道至簡:玩轉(zhuǎn)數(shù)據(jù)可視化
幾款數(shù)據(jù)可視化的工具介紹