大數(shù)據(jù)一詞最早出現(xiàn)于20世紀(jì)90年代超升,作為一個(gè)技術(shù)術(shù)語(yǔ)流行起來則是自2012年嗓违。時(shí)至今日九巡,該詞仍沒有統(tǒng)一明確的定義。人們通常從Volume蹂季、Velocity冕广、Variety等角度定義大數(shù)據(jù),而最吸引大眾眼球是 Volume偿洁。根據(jù)維基百科撒汉,自20世紀(jì)80年代起,人均存儲(chǔ)信息的能力每40個(gè)月增加一倍父能;截至2012年神凑,全世界每天產(chǎn)生2.5艾字節(jié)(1018字節(jié))的數(shù)據(jù)。根據(jù)IDC報(bào)告預(yù)測(cè)何吝,全球數(shù)據(jù)將從 2018 年的 33 澤字節(jié)(1021字節(jié))增長(zhǎng)到 2025 年的 175 澤字節(jié)溉委,其中近 30% 數(shù)據(jù)需要實(shí)時(shí)處理。世界正在以前所未有的速度數(shù)字化和創(chuàng)造數(shù)據(jù)爱榕。數(shù)字化時(shí)代到來了瓣喊,數(shù)據(jù)時(shí)代到來了。
隨著數(shù)據(jù)時(shí)代的到來黔酥,越來越多的企業(yè)和政府開始重視大數(shù)據(jù)及相關(guān)技術(shù)藻三。2012年美國(guó)政府宣布投資2億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家意志跪者。美國(guó)政府將數(shù)據(jù)定義為“未來的新石油”棵帽,并表示一個(gè)國(guó)家擁有數(shù)據(jù)的規(guī)模、活性及解釋運(yùn)用的能力將成為綜合國(guó)力的重要組成部分渣玲,未來逗概,對(duì)數(shù)據(jù)的占有和控制甚至將成為陸權(quán)、海權(quán)忘衍、空權(quán)之外的另一種國(guó)家核心資產(chǎn)逾苫。隨后多個(gè)政府和組織提出了相應(yīng)的大數(shù)據(jù)戰(zhàn)略卿城。
然而任何行業(yè)的升級(jí)發(fā)展都不是一蹴而就的。就目前來看铅搓,不同企業(yè)和組織處于四種不同的數(shù)字化和大數(shù)據(jù)階段:傳統(tǒng)階段瑟押、數(shù)字階段、數(shù)據(jù)階段和數(shù)學(xué)階段星掰。傳統(tǒng)階段指企業(yè)仍然以傳統(tǒng)的方式使用軟件技術(shù)多望,其主要特點(diǎn)是軟件用以支撐企業(yè)內(nèi)部的流程,通常是企業(yè)內(nèi)部的IT部門氢烘;數(shù)字階段指企業(yè)開始用全新的視角看待和使用軟件便斥,軟件成為公司主營(yíng)業(yè)務(wù)的重要組成部分或者主要組成部分;數(shù)據(jù)階段指企業(yè)通過全業(yè)務(wù)的數(shù)字化威始,積累大量的數(shù)據(jù),通過數(shù)據(jù)分析像街,從數(shù)據(jù)中獲取洞見黎棠,反過來促進(jìn)業(yè)務(wù)健康發(fā)展;數(shù)學(xué)階段是指自動(dòng)化智能化達(dá)到了高階階段镰绎,通過算法和模型的自動(dòng)優(yōu)化為公司提供動(dòng)力脓斩,數(shù)學(xué)算法和模型是公司發(fā)展的核心引擎。目前來看畴栖,雖然大數(shù)據(jù)一詞已經(jīng)耳熟能詳随静,可以說是毫無(wú)新意,然而大多數(shù)企業(yè)和組織仍然處于傳統(tǒng)階段或者數(shù)字階段早期吗讶。造成這一現(xiàn)象的主要原因之一是人才的匱乏燎猛。根據(jù)中國(guó)商業(yè)聯(lián)合會(huì)數(shù)據(jù)分析專業(yè)委員會(huì)統(tǒng)計(jì),未來中國(guó)基礎(chǔ)性數(shù)據(jù)分析人才缺口將達(dá)到1400萬(wàn)照皆。而大數(shù)據(jù)專業(yè)技術(shù)人才缺口也達(dá)數(shù)百萬(wàn)重绷。優(yōu)秀的專業(yè)書籍對(duì)緩解這一缺口大有裨益。
目前市面上大數(shù)據(jù)相關(guān)書籍仍然比較欠缺膜毁。而已有的大多數(shù)書籍要么側(cè)重于大數(shù)據(jù)思維昭卓,要么側(cè)重于某種或者某幾種具體的大數(shù)據(jù)技術(shù)。本書立意新穎瘟滨,涵蓋范圍很廣候醒,從多個(gè)角度對(duì)大數(shù)據(jù)及技術(shù)進(jìn)行了介紹。本書橫向從商業(yè)考量角度介紹了大數(shù)據(jù)杂瘸、云計(jì)算和人工智能的關(guān)系倒淫,從高階數(shù)字化戰(zhàn)略高度解讀大數(shù)據(jù)戰(zhàn)略;縱向從數(shù)據(jù)處理背后技術(shù)推動(dòng)力的角度胧沫,闡述了大數(shù)據(jù)發(fā)展的主要?dú)v程及未來趨勢(shì)昌简;從技術(shù)實(shí)戰(zhàn)角度則詳細(xì)介紹了如何使用 Greenplum 大數(shù)據(jù)和機(jī)器學(xué)習(xí)平臺(tái)實(shí)現(xiàn)大數(shù)據(jù)戰(zhàn)略占业。
Greenplum 是最先進(jìn)的開源分布式數(shù)據(jù)庫(kù)之一,創(chuàng)建于2003年纯赎,2010年被 EMC 收購(gòu)谦疾。其技術(shù)能力、易用性和豐富的企業(yè)級(jí)特性犬金,受到了大量用戶的歡迎念恍,被廣泛的應(yīng)用于包括金融、保險(xiǎn)晚顷、證券峰伙、通信、航空该默、物流瞳氓、零售、媒體栓袖、政府匣摘、醫(yī)療、制造裹刮、能源等行業(yè)音榜,在國(guó)內(nèi)外有一大批擁躉。2015年開源后更是發(fā)展迅速捧弃,目前在全球擁有大量的開源用戶赠叼。主流的云廠商包括騰訊云,都將其列為重要的大數(shù)據(jù)存儲(chǔ)违霞、處理和分析服務(wù)之一嘴办。
本書作者均為 Greenplum內(nèi)核開發(fā)團(tuán)隊(duì)核心成員,在大數(shù)據(jù)和機(jī)器學(xué)習(xí)行業(yè)具有豐富經(jīng)驗(yàn)买鸽,全球視野和技術(shù)前瞻性都毋庸置疑户辞。我也有幸和作者團(tuán)隊(duì)多次緊密合作,相信他們精心打造的此書可以給讀者全新的啟發(fā)癞谒、理念和方法論來迎接大數(shù)據(jù)和機(jī)器學(xué)習(xí)時(shí)代的挑戰(zhàn)和機(jī)遇底燎。
本書還沒有上市,如果想先睹為快弹砚,可以掃描文中的二維碼進(jìn)行試讀作者原稿双仍,與作者進(jìn)行互動(dòng)。