2018年10月煮嫌,兩家大數(shù)據(jù)領(lǐng)域的代表性企業(yè)Cloudera和Hortonworks宣布了它們所謂的相對(duì)平等的合并阳欲,宣稱新公司將創(chuàng)建世界領(lǐng)先的下一代數(shù)據(jù)平臺(tái)并提供業(yè)界首個(gè)企業(yè)數(shù)據(jù)云,這令很多人感到意外办绝,大數(shù)據(jù)的未來何去何從循签,一時(shí)成為大數(shù)據(jù)產(chǎn)業(yè)從業(yè)人員關(guān)心的話題。
大數(shù)據(jù)蹣跚前行撕瞧,邁進(jìn)下半場
隨著2012年維克托·邁爾-舍恩伯格《大數(shù)據(jù)時(shí)代》一書的出版,“大數(shù)據(jù)”這一概念乘著互聯(lián)網(wǎng)的浪潮在各行各業(yè)中扮演了舉足輕重的角色狞尔,得大數(shù)據(jù)者得天下丛版,業(yè)界紛紛用大數(shù)據(jù)這個(gè)詞來描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新偏序。
2013年被稱為中國的“大數(shù)據(jù)元年”页畦,大數(shù)據(jù)開始在我國流行,以勢不可擋的姿態(tài)進(jìn)入人們的思想意識(shí)研儒,并在社會(huì)的各個(gè)領(lǐng)域探索與落地實(shí)踐豫缨。涂子沛先生的《大數(shù)據(jù)》一時(shí)成為暢銷讀物,大數(shù)據(jù)的概念風(fēng)行大江南北端朵,阿里巴巴成為最早提出通過數(shù)據(jù)進(jìn)行企業(yè)數(shù)據(jù)化運(yùn)營的企業(yè)好芭。2015年,我國政府通過了《關(guān)于促進(jìn)大數(shù)據(jù)發(fā)展的行動(dòng)綱要》冲呢,大數(shù)據(jù)更是上升為國家戰(zhàn)略舍败。
同美國市場一樣,以Hadoop為代表的大數(shù)據(jù)技術(shù)敬拓,在中國的大數(shù)據(jù)產(chǎn)業(yè)中也經(jīng)歷了一段狂熱期邻薯,在很長一段時(shí)期內(nèi),Hadoop幾乎成了大數(shù)據(jù)的代名詞乘凸。在這個(gè)數(shù)據(jù)大爆炸的時(shí)代厕诡,企業(yè)需要對(duì)海量數(shù)據(jù)存儲(chǔ)、快速處理和分析营勤,Hadoop正是為此而生木人。但目前看來信柿,這股浪潮正漸漸退去冀偶,Hadoop正在逐漸變成一項(xiàng)傳統(tǒng)技術(shù)醒第。
從誕生到現(xiàn)在,Hadoop已經(jīng)走過十多年的歷史进鸠,但近年來稠曼,以Hadoop為代表的大數(shù)據(jù)產(chǎn)業(yè)生態(tài),在實(shí)際落地中卻面臨著尷尬的局面客年。首先是霞幅,大數(shù)據(jù)的價(jià)值被夸大,在投入產(chǎn)出比上差強(qiáng)人意量瓜。其次司恳,中小企業(yè)對(duì)大數(shù)據(jù)的應(yīng)用極為有限。目前看來绍傲,需求主要來源于一些大型企業(yè)扔傅,數(shù)據(jù)量過大,數(shù)據(jù)分析需求旺盛烫饼,但中小企業(yè)自身數(shù)據(jù)量并不大猎塞,需求度較低,同時(shí)也缺少相應(yīng)的大數(shù)據(jù)技術(shù)人才杠纵。最后荠耽,大數(shù)據(jù)管理難度大,數(shù)據(jù)開放共享比藻、數(shù)據(jù)質(zhì)量铝量、數(shù)據(jù)安全、個(gè)人隱私信息保護(hù)等已經(jīng)成為管理大數(shù)據(jù)最頭疼的問題银亲。今年5月慢叨,歐盟數(shù)據(jù)保護(hù)法規(guī)《通用數(shù)據(jù)保護(hù)條例》(GDPR)發(fā)布,就會(huì)對(duì)大數(shù)據(jù)企業(yè)采集的個(gè)人隱私數(shù)據(jù)管理工作產(chǎn)生極大的挑戰(zhàn)群凶。
2018年10月底插爹,IBM宣布以高達(dá)340億美元的價(jià)格收購Red Hat,IBM宣稱其將成為全球的頭號(hào)混合云提供商请梢,而亞馬遜赠尾、微軟、阿里巴巴等云計(jì)算巨頭早已將計(jì)算毅弧、存儲(chǔ)气嫁、網(wǎng)絡(luò)資源和應(yīng)用軟件(大多來自開源社區(qū))作為在線云服務(wù)來提供。Anaconda 產(chǎn)品和營銷高級(jí)副總裁 Mathew Lodge指出够坐,大數(shù)據(jù)的中心已經(jīng)從 Hadoop 轉(zhuǎn)移到了云端寸宵,在云環(huán)境下的對(duì)象存儲(chǔ)系統(tǒng)(如亞馬遜 S3崖面、微軟 Azure Blob Storage 和 Google Cloud Storage)中存儲(chǔ)數(shù)據(jù)比在 HDFS 中便宜了五倍。
盡管現(xiàn)在就談Hadoop已死為時(shí)尚早梯影,但大數(shù)據(jù)產(chǎn)業(yè)面臨的以上問題已經(jīng)累積很久巫员,也沒有被很好的解決,能否解決以上問題將直接關(guān)乎大數(shù)據(jù)的未來發(fā)展甲棍。
人工智能方興未艾简识,取得新突破
人工智能(AI)是研究用于模擬、延伸和擴(kuò)展人的智能的理論感猛、方法七扰、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué),目前在商業(yè)和生活中已有大量應(yīng)用場景陪白,被產(chǎn)業(yè)界寄望為下一輪技術(shù)革命颈走,對(duì)它的關(guān)注熱度已經(jīng)超過大數(shù)據(jù)。
人工智能的發(fā)展歷程一波三折咱士,呈螺旋式發(fā)展立由,在歷史上共經(jīng)歷三個(gè)時(shí)期。首先是1956年達(dá)特茅斯會(huì)議提出了人工智能的概念司致,但當(dāng)時(shí)的計(jì)算機(jī)處理性能和數(shù)據(jù)容量制約了人工智能技術(shù)的發(fā)展拆吆。然后在上個(gè)世紀(jì)80年代,專家系統(tǒng)興起脂矫,人工智能算法模型有了重大發(fā)明枣耀,包括多層神經(jīng)網(wǎng)絡(luò)和BP反向傳播算法的提出,出現(xiàn)了能與人類下象棋的高度智能機(jī)器庭再,但隨著臺(tái)式機(jī)的出現(xiàn)捞奕,使得人工智能專家系統(tǒng)走向沒落。再往后就是2006年拄轻,Hinton論文開啟了深度學(xué)習(xí)時(shí)代颅围,特別是2016年,AlphaGo大敗李世石恨搓,將人工智能從后臺(tái)推到了科技界的聚光燈下院促,一時(shí)間萬眾矚目。
人工智能已經(jīng)替代了早些年的大數(shù)據(jù)斧抱,成為新的商業(yè)科技風(fēng)口常拓。2017年全球AI融資超150億美元,谷歌辉浦、亞馬遜弄抬、蘋果、微軟以及阿里宪郊、百度掂恕、騰訊等中美科技巨頭紛紛布局拖陆。以深度學(xué)習(xí)為代表的AI算法,PC/移動(dòng)互聯(lián)網(wǎng)上海量懊亡、多維度依啰、高價(jià)值大數(shù)據(jù),以及以GPU斋配、FPGA孔飒、ASIC為代表的AI計(jì)算芯片,成為本輪AI發(fā)展的核心驅(qū)動(dòng)力艰争。
人工智能技術(shù)體系一般分為基礎(chǔ)層、技術(shù)層和應(yīng)用層(如圖1所示)桂对,在人工智能大發(fā)展的浪潮中甩卓,AI技術(shù)體系中的各模塊發(fā)展特點(diǎn)各不相同。
基礎(chǔ)層對(duì)應(yīng)著算法(包括回歸蕉斜、分類逾柿、聚類、深度學(xué)習(xí)算法等)宅此、算力(即AI芯片)和軟件框架(實(shí)現(xiàn)對(duì)AI算法的封裝)机错。算法部分,深度學(xué)習(xí)帶動(dòng)了本輪人工智能的大躍進(jìn)父腕,深度學(xué)習(xí)已經(jīng)在語音識(shí)別弱匪、圖像識(shí)別等領(lǐng)域取得突破,而海量的數(shù)據(jù)和高效的算力支撐是深度學(xué)習(xí)算法實(shí)現(xiàn)的基礎(chǔ)璧亮,同時(shí)還有很多新的算法理論成果正在被提出和應(yīng)用萧诫,如強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)枝嘶、膠囊網(wǎng)絡(luò)帘饶、生成對(duì)抗網(wǎng)絡(luò)等。
算力部分群扶,由各種AI芯片來提供基礎(chǔ)計(jì)算能力及刻。AI芯片除了傳統(tǒng)的CPU及 GPU 外,還包括為特定場景應(yīng)用而定制的計(jì)算芯片竞阐。深度學(xué)習(xí)既要求計(jì)算芯片支持對(duì)存儲(chǔ)介質(zhì)中海量數(shù)據(jù)的高效存取缴饭,還要能支持一些特定AI計(jì)算需求,因此GPU 成為目前深度學(xué)習(xí)算法應(yīng)用中的首要選擇馁菜。FPGA(現(xiàn)場可編程門陣列)可以實(shí)現(xiàn)應(yīng)用場景的高度定制茴扁,屬于一種半定制化芯片。ASIC(專用集成電路)是不可配置的高度定制專用計(jì)算芯片汪疮,其性能也是最優(yōu)的峭火。TPU(張量處理單元)是谷歌公司設(shè)計(jì)的處理器毁习,非常適合運(yùn)行TensorFlow軟件,還有寒武紀(jì)的NPU卖丸,都是ASIC的典型代表纺且。另外,還涌現(xiàn)出各類定制化的高性能AI計(jì)算服務(wù)器稍浆,或稱之為GPU一體機(jī)载碌,一站式提供人工智能所需的算力。
軟件框架部分衅枫,目前人工智能軟件框架百花齊放嫁艇,軟件框架是整個(gè)技術(shù)體系的核心,實(shí)現(xiàn)對(duì)人工智能算法的封裝弦撩、數(shù)據(jù)的調(diào)用以及計(jì)算資源的調(diào)度使用步咪。軟件框架好比是人工智能應(yīng)用開發(fā)的操作系統(tǒng),為開發(fā)者提供編程環(huán)境和算法庫益楼,并按需分配AI芯片等硬件資源猾漫,目的是構(gòu)建人工智能系統(tǒng)開發(fā)和運(yùn)行的軟件環(huán)境。目前主流的AI軟件框架主要有 TensorFlow感凤、MXNet悯周、Caffe、Torch陪竿、CNTK禽翼、Theano、SciKit-Learn等萨惑,軟件框架的用戶包括了人工智能服務(wù)的開發(fā)者和使用者捐康。
技術(shù)層負(fù)責(zé)解決具體類別的AI技術(shù)問題。其中語音識(shí)別技術(shù)負(fù)責(zé)將語音轉(zhuǎn)換為文本或命令庸蔼,自然語言處理技術(shù)實(shí)現(xiàn)人和機(jī)器之間的自然語言通信解总,計(jì)算機(jī)視覺技術(shù)用于處理圖形圖像和視頻內(nèi)容的識(shí)別。
應(yīng)用層立足于解決各行業(yè)領(lǐng)域?qū)嶋H場景問題姐仅,如安防場景下花枫,用于警訊發(fā)現(xiàn)、人臉識(shí)別掏膏、道路監(jiān)控等劳翰;金融場景下,可用于資產(chǎn)異動(dòng)監(jiān)測馒疹、征信風(fēng)控和智能投顧等佳簸;醫(yī)療場景下,可應(yīng)用于對(duì)醫(yī)學(xué)影像、電子病例處理來輔助診療生均;還有目前最為火熱的自動(dòng)駕駛場景听想,谷歌、特斯拉和百度三巨頭的無人駕駛汽車已經(jīng)上路試運(yùn)行马胧。
以云服務(wù)方式提供人工智能服務(wù)已成為當(dāng)前的趨勢汉买,人工智能云服務(wù)一般分為平臺(tái)類服務(wù)和軟件類服務(wù)。平臺(tái)類服務(wù)包含GPU云服務(wù)佩脊、深度學(xué)習(xí)平臺(tái)等蛙粘,GPU云服務(wù)是以虛擬機(jī)的形式,為用戶提供GPU計(jì)算資源威彰。深度學(xué)習(xí)平臺(tái)則是以TensorFlow出牧、Caffe、MXNet等主流深度學(xué)習(xí)軟件框架為基礎(chǔ)抱冷,提供相應(yīng)的常用深度學(xué)習(xí)算法和模型崔列,組合各種數(shù)據(jù)源、組件模塊旺遮,讓用戶可以基于該平臺(tái)對(duì)語音、文本盈咳、圖片耿眉、視頻等海量數(shù)據(jù)進(jìn)行離線模型訓(xùn)練、在線模型預(yù)測及可視化模型評(píng)估鱼响。軟件類服務(wù)包括提供API程序接口鸣剪、SDK包、消息服務(wù)接口的形式提供人工智能相關(guān)的在線網(wǎng)絡(luò)服務(wù)丈积,可包括語音識(shí)別筐骇、文字處理、圖像檢測江滨、智能推薦等應(yīng)用方式铛纬。
大數(shù)據(jù)的未來:掘金數(shù)據(jù)資產(chǎn),探索數(shù)據(jù)智能
大數(shù)據(jù)為人工智能發(fā)展提供了基礎(chǔ)資源唬滑,人工智能技術(shù)的核心就在于通過計(jì)算找尋大數(shù)據(jù)中的規(guī)律告唆,對(duì)具體場景問題進(jìn)行預(yù)測和判斷。想要訓(xùn)練出成功的人工智能算法晶密,需要運(yùn)算力和大量的數(shù)據(jù)需了,其中最重要的就是數(shù)據(jù)量要足夠大茸炒。除了數(shù)據(jù)量足夠大,大數(shù)據(jù)還需要通過采集、清洗帝雇、標(biāo)注等處理工作后才能夠作為人工智能算法模型訓(xùn)練的輸入,但目前在實(shí)際應(yīng)用中,數(shù)據(jù)流通不暢、數(shù)據(jù)質(zhì)量不高和數(shù)據(jù)安全風(fēng)險(xiǎn)等問題仍然極大制約著人工智能的發(fā)展和應(yīng)用畜侦。
大數(shù)據(jù)的未來何去何從,與人工智能技術(shù)如何完美結(jié)合拼弃,共同驅(qū)動(dòng)數(shù)字經(jīng)濟(jì)發(fā)展夏伊,數(shù)據(jù)智能或?qū)⒊蔀樾碌臒狳c(diǎn)和大趨勢。
“數(shù)據(jù)智能”是百度公司在2014年提出的概念吻氧,百度對(duì)數(shù)據(jù)智能的定義溺忧,指基于大數(shù)據(jù)引擎,通過大規(guī)模機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等技術(shù)盯孙,對(duì)海量數(shù)據(jù)進(jìn)行處理鲁森、分析和挖掘,提取數(shù)據(jù)中所包含的有價(jià)值的信息和知識(shí)振惰,使數(shù)據(jù)具有“智能”歌溉,并通過建立模型尋求現(xiàn)有問題的解決方案以及實(shí)現(xiàn)預(yù)測等。
2018年10月骑晶,?第五屆中國國際大數(shù)據(jù)大會(huì)上發(fā)布的《2018年數(shù)據(jù)智能生態(tài)報(bào)告》中提出痛垛,在機(jī)器學(xué)習(xí)、分布式計(jì)算等技術(shù)發(fā)展的基礎(chǔ)上桶蛔,數(shù)據(jù)逐漸呈現(xiàn)出高維度匙头、高階態(tài)、異構(gòu)性的形勢仔雷,把能夠?qū)A繑?shù)據(jù)進(jìn)行分析蹂析、處理和挖掘,并且通過建模碟婆、工程等方式來解決實(shí)際預(yù)測問題电抚,最終實(shí)現(xiàn)決策的行動(dòng),稱之為數(shù)據(jù)智能竖共。
對(duì)數(shù)據(jù)智能的信息化落地蝙叛,業(yè)界一般稱之為數(shù)據(jù)智能平臺(tái)或數(shù)據(jù)中臺(tái)。
據(jù)阿里巴巴公共數(shù)據(jù)平臺(tái)負(fù)責(zé)人介紹肘迎,阿里巴巴數(shù)據(jù)中臺(tái)戰(zhàn)略在2015年首次提出甥温,旨在對(duì)內(nèi)提供數(shù)據(jù)基礎(chǔ)建設(shè)和統(tǒng)一的數(shù)據(jù)服務(wù),對(duì)外提供服務(wù)商家的統(tǒng)一化數(shù)據(jù)產(chǎn)品妓布。阿里數(shù)據(jù)中臺(tái)基于OneData體系建立的集團(tuán)數(shù)據(jù)公共層姻蚓,從設(shè)計(jì)、開發(fā)匣沼、部署和使用上保障了數(shù)據(jù)口徑的規(guī)范和統(tǒng)一狰挡,實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)全鏈路管理,并提供標(biāo)準(zhǔn)數(shù)據(jù)輸出〖尤基于阿里數(shù)據(jù)中臺(tái)輸出的生意參謀產(chǎn)品倦沧,是阿里巴巴首個(gè)統(tǒng)一的商家數(shù)據(jù)產(chǎn)品平臺(tái),為中小企業(yè)商家提供數(shù)據(jù)披露它匕、分析展融、診斷、建議豫柬、優(yōu)化告希、預(yù)測等多項(xiàng)數(shù)據(jù)服務(wù)。
另外烧给,據(jù)百度公司的百度數(shù)智平臺(tái)(Baidu DI)官網(wǎng)介紹燕偶,該平臺(tái)定位為提供大規(guī)模機(jī)器學(xué)習(xí)、深度學(xué)習(xí)础嫡、數(shù)據(jù)分析及展現(xiàn)指么、數(shù)據(jù)應(yīng)用等產(chǎn)品與服務(wù),包括了大數(shù)據(jù)基礎(chǔ)產(chǎn)品和大數(shù)據(jù)應(yīng)用產(chǎn)品兩大類榴鼎,大數(shù)據(jù)基礎(chǔ)產(chǎn)品包括大數(shù)據(jù)傳輸Minos伯诬、數(shù)據(jù)工廠Pingo、數(shù)據(jù)治理Dayu巫财、數(shù)據(jù)分析與開發(fā)Jarvis姑廉、大數(shù)據(jù)可視化Habo等產(chǎn)品,大數(shù)據(jù)應(yīng)用產(chǎn)品包括百度智客翁涤、百度覓客、百度匯客萌踱、百度客情葵礼、百度商情等產(chǎn)品,百度公司將其數(shù)智平臺(tái)定位為AI時(shí)代的企業(yè)數(shù)據(jù)管家并鸵,服務(wù)于公司內(nèi)部和各行業(yè)合作伙伴鸳粉。
在2018年10月由中國聯(lián)通大數(shù)據(jù)公司主辦的加速-U10大數(shù)據(jù)價(jià)值峰會(huì)上,中國聯(lián)通大數(shù)據(jù)公司負(fù)責(zé)人以“數(shù)智”為主題發(fā)表演講园担,她認(rèn)為當(dāng)前大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)進(jìn)入“數(shù)智”時(shí)代届谈,聯(lián)通大數(shù)據(jù)的數(shù)智升級(jí),在于更大規(guī)模的數(shù)據(jù)弯汰、更深度的智能艰山,打造數(shù)智新架構(gòu)體系,做值得信賴的數(shù)據(jù)智能服務(wù)運(yùn)營商咏闪,同時(shí)介紹了中國聯(lián)通UBD數(shù)智中臺(tái)的建設(shè)思路曙搬。
可以看出,以上代表性企業(yè)建設(shè)數(shù)據(jù)智能平臺(tái)或數(shù)據(jù)中臺(tái)的意義主要在于,一是幫助企業(yè)管理好內(nèi)部現(xiàn)有的數(shù)據(jù)資產(chǎn)纵装,即數(shù)據(jù)資產(chǎn)管理征讲;二是為企業(yè)提供基于大數(shù)據(jù)的預(yù)測分析產(chǎn)品,即人工智能服務(wù)橡娄。數(shù)據(jù)資產(chǎn)管理的目的是為了準(zhǔn)備和提供高質(zhì)量的數(shù)據(jù)給人工智能應(yīng)用诗箍,對(duì)數(shù)據(jù)的規(guī)范化和標(biāo)準(zhǔn)化是企業(yè)實(shí)現(xiàn)基于大數(shù)據(jù)提供智能化服務(wù)的關(guān)鍵,也是決定大數(shù)據(jù)價(jià)值實(shí)現(xiàn)的基礎(chǔ)挽唉。
大數(shù)據(jù)進(jìn)入下半場滤祖,人工智能已然崛起,現(xiàn)有的大數(shù)據(jù)技術(shù)亟需和人工智能技術(shù)結(jié)合橱夭,孕育新的產(chǎn)業(yè)生態(tài)氨距,從百度、阿里和中國聯(lián)通等企業(yè)的做法可以看出棘劣,向數(shù)據(jù)智能型企業(yè)轉(zhuǎn)型正在成為大型科技企業(yè)新的行動(dòng)方向俏让,阿里巴巴提出的“大中臺(tái)、小前臺(tái)”的做法已經(jīng)成為了業(yè)界主流數(shù)字化轉(zhuǎn)型思路茬暇。企業(yè)通過建設(shè)數(shù)據(jù)智能平臺(tái)或數(shù)據(jù)中臺(tái)首昔,打破內(nèi)部數(shù)據(jù)壁壘、盤活數(shù)據(jù)資產(chǎn)糙俗、提升數(shù)據(jù)價(jià)值勒奇,對(duì)外提供統(tǒng)一的智能化數(shù)據(jù)服務(wù),有望再次重構(gòu)大數(shù)據(jù)產(chǎn)業(yè)生態(tài)環(huán)境巧骚,進(jìn)一步深挖和釋放大數(shù)據(jù)的價(jià)值紅利赊颠。
來源:中國信息產(chǎn)業(yè)網(wǎng)