大數(shù)據(jù)到底怎么學(xué):數(shù)據(jù)科學(xué)概論與大數(shù)據(jù)學(xué)習(xí)誤區(qū)

作者|杜圣東
“數(shù)據(jù)科學(xué)家走在通往無所不知的路上,走到盡頭才發(fā)現(xiàn)夜惭,自己一無所知姻灶。”-Will Cukierski诈茧,Head of Competitions & Data Scientist at Kaggle
最近不少網(wǎng)友向我咨詢?nèi)绾螌W(xué)習(xí)大數(shù)據(jù)技術(shù)产喉?大數(shù)據(jù)怎么入門漫谷?怎么做大數(shù)據(jù)分析徽级?數(shù)據(jù)科學(xué)需要學(xué)習(xí)那些技術(shù)魂拦?大數(shù)據(jù)的應(yīng)用前景等等問題岖瑰。由于大數(shù)據(jù)技術(shù)涉及內(nèi)容太龐雜公给,大數(shù)據(jù)應(yīng)用領(lǐng)域廣泛轻抱,而且各領(lǐng)域和方向采用的關(guān)鍵技術(shù)差異性也會(huì)較大奕剃,難以三言兩語說清楚渣窜,本文從數(shù)據(jù)科學(xué)和大數(shù)據(jù)關(guān)鍵技術(shù)體系角度吏垮,來說說大數(shù)據(jù)的核心技術(shù)什么障涯,到底要怎么學(xué)習(xí)它,以及怎么避免大數(shù)據(jù)學(xué)習(xí)的誤區(qū)惫皱,以供參考像樊。
1.大數(shù)據(jù)應(yīng)用的目標(biāo)是普適智能
要學(xué)好大數(shù)據(jù),首先要明確大數(shù)據(jù)應(yīng)用的目標(biāo)旅敷,我曾經(jīng)講過大數(shù)據(jù)就好比萬金油生棍,像百度幾年前提的框計(jì)算,這個(gè)框什么都能往里裝媳谁。為什么會(huì)這樣涂滴,因?yàn)榇髷?shù)據(jù)這個(gè)框太大,其終極目標(biāo)是利用一系列信息技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)條件下的人類深度洞察和決策智能化晴音,最終走向普適的人機(jī)智能融合柔纵!
這不僅是傳統(tǒng)信息化管理的擴(kuò)展延伸,也是人類社會(huì)發(fā)展管理智能化的核心技術(shù)驅(qū)動(dòng)力锤躁。通過大數(shù)據(jù)應(yīng)用搁料,面向過去,發(fā)現(xiàn)數(shù)據(jù)規(guī)律,歸納已知郭计;面向未來霸琴,挖掘數(shù)據(jù)趨勢(shì),預(yù)測(cè)未知昭伸。從而提高人們對(duì)事物的理解和決策處置能力梧乘,最終實(shí)現(xiàn)社會(huì)的普適智能。不管是商業(yè)智能庐杨,機(jī)器智能选调,人工智能,還是智能客服灵份,智能問答仁堪,智能推薦,智慧醫(yī)療各吨、智慧交通等相關(guān)技術(shù)和系統(tǒng)枝笨,其本質(zhì)都是朝著這一目標(biāo)在演進(jìn)。隨著云計(jì)算平臺(tái)和大數(shù)據(jù)技術(shù)的高速發(fā)展揭蜒,獲得大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)相關(guān)技術(shù)和支持越來越容易横浑。同時(shí),移動(dòng)互聯(lián)網(wǎng)和物聯(lián)網(wǎng)技術(shù)所具備的全面數(shù)據(jù)采集能力屉更,客觀上促進(jìn)了大數(shù)據(jù)的積累和爆發(fā)徙融。
總之大數(shù)據(jù)就是個(gè)大框,什么都能往里裝瑰谜,大數(shù)據(jù)源的采集如果用傳感器的話離不開物聯(lián)網(wǎng)欺冀、大數(shù)據(jù)源的采集用智能手機(jī)的話離不開移動(dòng)互聯(lián)網(wǎng),大數(shù)據(jù)海量數(shù)據(jù)存儲(chǔ)要高擴(kuò)展就離不開云計(jì)算萨脑,大數(shù)據(jù)計(jì)算分析采用傳統(tǒng)的機(jī)器學(xué)習(xí)隐轩、數(shù)據(jù)挖掘技術(shù)會(huì)比較慢,需要做并行計(jì)算和分布式計(jì)算擴(kuò)展渤早,大數(shù)據(jù)要自動(dòng)特征工程離不開深度學(xué)習(xí)职车、大數(shù)據(jù)要互動(dòng)展示離不開可視化,而面向特定領(lǐng)域和多模態(tài)數(shù)據(jù)的大數(shù)據(jù)分析技術(shù)更是十分廣泛鹊杖,金融大數(shù)據(jù)悴灵、交通大數(shù)據(jù)、醫(yī)療大數(shù)據(jù)骂蓖、安全大數(shù)據(jù)积瞒、電信大數(shù)據(jù)、電商大數(shù)據(jù)登下、社交大數(shù)據(jù)茫孔,文本大數(shù)據(jù)叮喳、圖像大數(shù)據(jù)、視頻大數(shù)據(jù)…諸如此類等等范圍太廣缰贝,所以首先我們要搞清楚大數(shù)據(jù)應(yīng)用的核心目標(biāo)嘲更,這個(gè)明確之后,才利于結(jié)合不同行業(yè)特點(diǎn)把握住共性關(guān)鍵技術(shù)揩瞪,從而有針對(duì)性的學(xué)習(xí)。

36大數(shù)據(jù)

圖1 國(guó)外大數(shù)據(jù)企業(yè)關(guān)系圖篓冲,傳統(tǒng)信息技術(shù)企業(yè)也在向智能化發(fā)展李破,與新興大數(shù)據(jù)企業(yè)互為競(jìng)爭(zhēng)和支持。
2.從大數(shù)據(jù)版圖看數(shù)據(jù)科學(xué)及其關(guān)鍵技術(shù)體系
明確大數(shù)據(jù)應(yīng)用目標(biāo)之后壹将,我們?cè)倏纯磾?shù)據(jù)科學(xué)(Data Science)嗤攻,數(shù)據(jù)科學(xué)可以理解為一個(gè)跨多學(xué)科領(lǐng)域的,從數(shù)據(jù)中獲取知識(shí)的科學(xué)方法诽俯,技術(shù)和系統(tǒng)集合妇菱,其目標(biāo)是從數(shù)據(jù)中提取出有價(jià)值的信息,它結(jié)合了諸多領(lǐng)域中的理論和技術(shù)暴区,包括應(yīng)用數(shù)學(xué)闯团,統(tǒng)計(jì),模式識(shí)別仙粱,機(jī)器學(xué)習(xí)房交,人工智能,深度學(xué)習(xí)伐割,數(shù)據(jù)可視化候味,數(shù)據(jù)挖掘,數(shù)據(jù)倉庫隔心,以及高性能計(jì)算等白群。圖靈獎(jiǎng)得主Jim Gray把數(shù)據(jù)科學(xué)喻為科學(xué)的“第四范式”(經(jīng)驗(yàn)、理論硬霍、計(jì)算和數(shù)據(jù)驅(qū)動(dòng))帜慢,并斷言因?yàn)樾畔⒓夹g(shù)的影響和數(shù)據(jù)的泛濫增長(zhǎng),未來不管什么領(lǐng)域的科學(xué)問題都將由數(shù)據(jù)所驅(qū)動(dòng)须尚。
36大數(shù)據(jù)

圖2 典型的數(shù)據(jù)科學(xué)過程:包括原始數(shù)據(jù)采集崖堤,數(shù)據(jù)預(yù)處理和清洗,數(shù)據(jù)探索式分析耐床,數(shù)據(jù)計(jì)算建模密幔,數(shù)據(jù)可視化和報(bào)表,數(shù)據(jù)產(chǎn)品和決策支持等撩轰。
傳統(tǒng)信息化技術(shù)多是在結(jié)構(gòu)化和小規(guī)模數(shù)據(jù)上進(jìn)行計(jì)算處理胯甩,大數(shù)據(jù)時(shí)代呢昧廷,數(shù)據(jù)變大了,數(shù)據(jù)多源異構(gòu)了偎箫,需要智能預(yù)測(cè)和分析支持了木柬,所以核心技術(shù)離不開機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘淹办、人工智能等眉枕,另外還需考慮海量數(shù)據(jù)的分布式存儲(chǔ)管理和機(jī)器學(xué)習(xí)算法并行處理,所以數(shù)據(jù)的大規(guī)模增長(zhǎng)客觀上促進(jìn)了DT(Data Technology)技術(shù)生態(tài)的繁榮與發(fā)展怜森,包括大數(shù)據(jù)采集速挑、數(shù)據(jù)預(yù)處理、分布式存儲(chǔ)副硅、NOSQL數(shù)據(jù)庫姥宝、多模式計(jì)算(批處理、在線處理恐疲、實(shí)時(shí)流處理腊满、內(nèi)存處理)、多模態(tài)計(jì)算(圖像培己、文本碳蛋、視頻、音頻)省咨、數(shù)據(jù)倉庫疮蹦、數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)茸炒、人工智能愕乎、深度學(xué)習(xí)、并行計(jì)算壁公、可視化等各種技術(shù)范疇和不同的層面感论。
可見DT這種新技術(shù)泛型生態(tài)下的大數(shù)據(jù)版圖十分龐雜,當(dāng)然也有泡沫的成分存在紊册,這個(gè)版圖也會(huì)時(shí)刻處于變化之中比肄,就像PC時(shí)代的應(yīng)用程序,互聯(lián)網(wǎng)上的網(wǎng)站囊陡,移動(dòng)互聯(lián)網(wǎng)的APP芳绩,大數(shù)據(jù)時(shí)代的技術(shù)和產(chǎn)品也正處于優(yōu)勝劣汰的過程。下面我們來看2017版的大數(shù)據(jù)版圖:
36大數(shù)據(jù)
36大數(shù)據(jù)

圖3 國(guó)外和國(guó)內(nèi)中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)版圖(包括數(shù)據(jù)撞反、技術(shù)妥色、應(yīng)用、企業(yè)等)
上述大數(shù)據(jù)版圖基本涵蓋了國(guó)外大數(shù)據(jù)相關(guān)技術(shù)和產(chǎn)業(yè)鏈(國(guó)內(nèi)中關(guān)村版的大數(shù)據(jù)技術(shù)和企業(yè)還是太少遏片,多是傳統(tǒng)信息技術(shù)企業(yè)在湊數(shù))嘹害,從大數(shù)據(jù)源撮竿,開源技術(shù)框架,大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)笔呀,大數(shù)據(jù)核心的計(jì)算挖掘分析幢踏,大數(shù)據(jù)行業(yè)應(yīng)用等方面進(jìn)行了相關(guān)技術(shù)、產(chǎn)品和企業(yè)的展示许师。大數(shù)據(jù)產(chǎn)業(yè)鏈從數(shù)據(jù)源〉開源技術(shù)〉基礎(chǔ)設(shè)施〉分析計(jì)算〉行業(yè)應(yīng)用到產(chǎn)品落地房蝉,每個(gè)鏈條環(huán)節(jié)和下轄的細(xì)分內(nèi)容都涉及大量數(shù)據(jù)分析技術(shù)。不管是學(xué)習(xí)技術(shù)還是開發(fā)產(chǎn)品微渠,分析和理解這個(gè)大數(shù)據(jù)產(chǎn)業(yè)版圖都十分必要惨驶。
版圖細(xì)節(jié)不做贅述,我們重點(diǎn)從學(xué)習(xí)的角度來看DT(Data technology)技術(shù)泛型下包括那些核心技術(shù)敛助,各技術(shù)領(lǐng)域之間是什么樣的邏輯關(guān)系,這是學(xué)習(xí)大數(shù)據(jù)首先要搞清楚的問題:
(1)機(jī)器學(xué)習(xí)(machine learning)
首先我們說說機(jī)器學(xué)習(xí)屋确,為什么先說它纳击,因?yàn)闄C(jī)器學(xué)習(xí)是大數(shù)據(jù)處理承上啟下的關(guān)鍵技術(shù),機(jī)器學(xué)習(xí)往上是深度學(xué)習(xí)攻臀、人工智能焕数,機(jī)器學(xué)習(xí)往下是數(shù)據(jù)挖掘和統(tǒng)計(jì)學(xué)習(xí)。機(jī)器學(xué)習(xí)屬于計(jì)算機(jī)和統(tǒng)計(jì)學(xué)交叉學(xué)科刨啸,核心目標(biāo)是通過函數(shù)映射堡赔、數(shù)據(jù)訓(xùn)練、最優(yōu)化求解设联、模型評(píng)估等一系列算法實(shí)現(xiàn)讓計(jì)算機(jī)擁有對(duì)數(shù)據(jù)進(jìn)行自動(dòng)分類和預(yù)測(cè)的功能善已,機(jī)器學(xué)習(xí)領(lǐng)域包括很多種類的智能處理算法,分類离例、聚類换团、回歸、相關(guān)分析等每類下面都有很多算法進(jìn)行支撐宫蛆,如SVM艘包,神經(jīng)網(wǎng)絡(luò),Logistic回歸耀盗,決策樹想虎、EM、HMM叛拷、貝葉斯網(wǎng)絡(luò)舌厨、隨機(jī)森林、LDA等忿薇,無論是網(wǎng)絡(luò)排名的十大算法還是二十大算法邓线,都只能說是冰山一角淌友,隨著深度學(xué)習(xí)核心技術(shù)的突破性發(fā)展,機(jī)器學(xué)習(xí)算法得以高速擴(kuò)張骇陈;總之大數(shù)據(jù)處理要智能化震庭,機(jī)器學(xué)習(xí)是核心的核心,深度學(xué)習(xí)你雌、數(shù)據(jù)挖掘器联、商業(yè)智能、人工智能婿崭,大數(shù)據(jù)等概念的核心技術(shù)就是機(jī)器學(xué)習(xí)拨拓,機(jī)器學(xué)習(xí)用于圖像處理和識(shí)別就是機(jī)器視覺,機(jī)器學(xué)習(xí)用于模擬人類語言就是自然語言處理氓栈,機(jī)器視覺和自然語言處理也是支撐人工智能的核心技術(shù)渣磷,機(jī)器學(xué)習(xí)用于通用的數(shù)據(jù)分析就是數(shù)據(jù)挖掘。深度學(xué)習(xí)(deep learning)是機(jī)器學(xué)習(xí)里面現(xiàn)在比較火的一個(gè)子領(lǐng)域授瘦,屬于原來人工神經(jīng)網(wǎng)絡(luò)算法的一系列變種醋界,由于在大數(shù)據(jù)條件下圖像,語音識(shí)別等領(lǐng)域的學(xué)習(xí)效果顯著提完,有望成為人工智能取得突破的關(guān)鍵性技術(shù)形纺,所以各大研究機(jī)構(gòu)和IT巨頭們都對(duì)其投入了極大的關(guān)注。
(2)數(shù)據(jù)挖掘(data mining)
數(shù)據(jù)挖掘可以說是機(jī)器學(xué)習(xí)的一個(gè)超集徒欣,是一個(gè)較為寬泛的概念逐样,類似于采礦,要從大量礦石里面挖出寶石打肝,從海量數(shù)據(jù)里面挖掘有價(jià)值有規(guī)律的信息同理脂新。數(shù)據(jù)挖掘核心技術(shù)來自于機(jī)器學(xué)習(xí)領(lǐng)域,如深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中一類比較火的算法粗梭,當(dāng)然也可以用于數(shù)據(jù)挖掘戏羽。還有傳統(tǒng)的商業(yè)智能(BI)領(lǐng)域也包括數(shù)據(jù)挖掘,OLAP多維數(shù)據(jù)分析可以做挖掘分析楼吃,甚至Excel基本的統(tǒng)計(jì)分析也可以做挖掘始花。關(guān)鍵是你的技術(shù)能否真正挖掘出有用的信息,然后這些信息可以指導(dǎo)決策孩锡。數(shù)據(jù)挖掘的提法比機(jī)器學(xué)習(xí)要早酷宵,應(yīng)用范圍要廣,數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)是大數(shù)據(jù)分析的核心技術(shù)躬窜,互為支撐浇垦,為大數(shù)據(jù)處理提供相關(guān)模型和算法,而模型和算法是大數(shù)據(jù)處理的關(guān)鍵荣挨,探索式交互式分析男韧、可視化分析朴摊、數(shù)據(jù)的采集存儲(chǔ)和管理等都較少用到學(xué)習(xí)模型。
(3)人工智能(artifical intelligence)
AI和大數(shù)據(jù)是相互促進(jìn)的關(guān)系此虑,一方面甚纲,AI基礎(chǔ)理論技術(shù)的發(fā)展為大數(shù)據(jù)機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘提供了更豐富的模型和算法,如近幾年的深度學(xué)習(xí)一系列技術(shù)(強(qiáng)化學(xué)習(xí)朦前、對(duì)抗學(xué)習(xí)等)和方法介杆;另一方面,大數(shù)據(jù)為AI的發(fā)展提供了新的動(dòng)力和燃料韭寸,數(shù)據(jù)規(guī)模大了之后春哨,傳統(tǒng)機(jī)器學(xué)習(xí)算法面臨挑戰(zhàn),要做并行化恩伺、要加速要改進(jìn)赴背。AI的終極目標(biāo)是機(jī)器智能化擬人化,機(jī)器能完成和人一樣的工作晶渠,人腦僅憑幾十瓦的功率凰荚,能夠處理種種復(fù)雜的問題,怎樣看都是很神奇的事情乱陡。雖然機(jī)器的計(jì)算能力比人類強(qiáng)很多,但人類的理解能力仪壮,感性的推斷憨颠,記憶和幻想,心理學(xué)等方面的功能积锅,機(jī)器是難以比肩的爽彤,所以機(jī)器要擬人化很難單從技術(shù)角度把人工智能講清楚。人工智能與機(jī)器學(xué)習(xí)的關(guān)系缚陷,兩者的相當(dāng)一部分技術(shù)适篙、算法都是重合的,深度學(xué)習(xí)在計(jì)算機(jī)視覺和棋牌走步等領(lǐng)域取得了巨大的成功箫爷,比如谷歌自動(dòng)識(shí)別一只貓嚷节,谷歌的AlpaGo還擊敗了人類頂級(jí)的專業(yè)圍棋手等。但深度學(xué)習(xí)在現(xiàn)階段還不能實(shí)現(xiàn)類腦計(jì)算虎锚,最多達(dá)到仿生層面硫痰,情感,記憶窜护,認(rèn)知效斑,經(jīng)驗(yàn)等人類獨(dú)有能力機(jī)器在短期難以達(dá)到。
(4)其它大數(shù)據(jù)處理基礎(chǔ)技術(shù)
如圖4柱徙,大數(shù)據(jù)基礎(chǔ)技術(shù)包括計(jì)算機(jī)科學(xué)相關(guān)如編程缓屠、云計(jì)算奇昙、分布式計(jì)算、系統(tǒng)架構(gòu)設(shè)計(jì)等方向敌完,還有機(jī)器學(xué)習(xí)的理論基礎(chǔ)包括如算法储耐、數(shù)據(jù)結(jié)構(gòu)、概率論蠢挡、代數(shù)弧岳、矩陣分析、統(tǒng)計(jì)學(xué)習(xí)业踏、特征工程等方面禽炬;商業(yè)分析與理解如領(lǐng)域知識(shí)管理、產(chǎn)品設(shè)計(jì)勤家、可視化等技術(shù)腹尖;數(shù)據(jù)管理如數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理伐脖、數(shù)據(jù)庫热幔、數(shù)據(jù)倉庫、信息檢索讼庇、多維分析绎巨、分布式存儲(chǔ)等技術(shù)。這些理論與技術(shù)是為大數(shù)據(jù)的基礎(chǔ)管理蠕啄、機(jī)器學(xué)習(xí)和應(yīng)用決策等多個(gè)方面服務(wù)的场勤。
36大數(shù)據(jù)

圖4 數(shù)據(jù)科學(xué)的技術(shù)維度
上圖是數(shù)據(jù)科學(xué)的5個(gè)技術(shù)維度,基本涵蓋了數(shù)據(jù)科學(xué)的關(guān)鍵支撐技術(shù)體系歼跟,從數(shù)據(jù)管理和媳、計(jì)算機(jī)科學(xué)基礎(chǔ)理論技術(shù)、數(shù)據(jù)分析哈街、商業(yè)理解決策與設(shè)計(jì)幾個(gè)方面進(jìn)行了數(shù)據(jù)科學(xué)相關(guān)技術(shù)的梳理留瞳,其中計(jì)算機(jī)科學(xué)基礎(chǔ)理論方法與數(shù)據(jù)分析兩個(gè)板塊的學(xué)習(xí)內(nèi)容是最多的,也是最重要的∩兀現(xiàn)階段的大數(shù)據(jù)產(chǎn)品和服務(wù)多是在數(shù)據(jù)管理版塊她倘,分析板塊和業(yè)務(wù)決策板塊的對(duì)接是數(shù)據(jù)科學(xué)和大數(shù)據(jù)產(chǎn)業(yè)后續(xù)發(fā)展的關(guān)鍵突破點(diǎn)。
另外圖中的Art&Design版塊只列了交通溝通和可視化作箍,其實(shí)還不夠帝牡,這個(gè)藝術(shù)(Art)還說明了數(shù)據(jù)科學(xué)與傳統(tǒng)信息化技術(shù)的本質(zhì)不同,數(shù)據(jù)科學(xué)的核心能力是根據(jù)問題提出設(shè)想蒙揣,再把設(shè)想轉(zhuǎn)化為學(xué)習(xí)模型靶溜,這種能力是要講藝術(shù)的,沒有這樣的設(shè)計(jì)藝術(shù),計(jì)算機(jī)要智能化不是那么容易罩息。
為什么上升為藝術(shù)了嗤详?因?yàn)榻?jīng)驗(yàn)告訴我們,把現(xiàn)實(shí)問題轉(zhuǎn)化為模型沒有標(biāo)準(zhǔn)答案瓷炮,可選的模型不只一種葱色,技術(shù)路線多樣,評(píng)價(jià)指標(biāo)也有多個(gè)維度娘香,甚至優(yōu)化方法也有很多種苍狰,機(jī)器學(xué)習(xí)的本質(zhì)就是在處理這門藝術(shù),給定原始數(shù)據(jù)烘绽、限制條件和問題描述淋昭,沒有標(biāo)準(zhǔn)答案,每種方案的選擇就是一種設(shè)想假設(shè)安接,需要具備利用精確的測(cè)試和實(shí)驗(yàn)方法來驗(yàn)證和證偽這些假設(shè)的能力翔忽,從這個(gè)層面講,未來所有科學(xué)問題以及商業(yè)盏檐、政府管理決策問題都將是數(shù)據(jù)科學(xué)問題歇式,而機(jī)器學(xué)習(xí)是數(shù)據(jù)科學(xué)的核心。
3.大數(shù)據(jù)盲人摸象:如何構(gòu)建完整的知識(shí)結(jié)構(gòu)和分析能力
從數(shù)字化胡野、信息化材失、網(wǎng)絡(luò)化到未來的智能化時(shí)代,移動(dòng)互聯(lián)網(wǎng)硫豆、物聯(lián)網(wǎng)龙巨、云計(jì)算、大數(shù)據(jù)够庙、人工智能等前沿信息技術(shù)領(lǐng)域恭应,逐個(gè)火了一遍抄邀。也代表了信息技術(shù)發(fā)展的大趨勢(shì)耘眨,什么是大數(shù)據(jù),大數(shù)據(jù)的技術(shù)范疇及其邏輯關(guān)系境肾,估計(jì)很多人都是根據(jù)自己所熟悉的領(lǐng)域在盲人摸象(如圖5)剔难。
其實(shí)我這里講的盲人摸象并不是貶義,畢竟一個(gè)領(lǐng)域的學(xué)習(xí)到精通就是從盲人摸象式開始的奥喻。大數(shù)據(jù)偶宫、數(shù)據(jù)科學(xué)都是很虛的一個(gè)概念,分析目標(biāo)和采用技術(shù)都包羅萬象环鲤,就好比寫程序纯趋,分前端和后端,分B/S和C/S,分嵌入式吵冒、企業(yè)應(yīng)用和APP等纯命,開發(fā)語言更是有數(shù)十種,不同方向所需要的技術(shù)也是大不相同痹栖。
36大數(shù)據(jù)

圖5 大數(shù)據(jù)盲人摸象
所以怎么從點(diǎn)到面亿汞,構(gòu)建大數(shù)據(jù)領(lǐng)域完整的知識(shí)結(jié)構(gòu)和分析能力至關(guān)重要,某方面的技術(shù)和語言只是工具而已揪阿。
大數(shù)據(jù)知識(shí)結(jié)構(gòu)疗我,就是既有精深的大數(shù)據(jù)基礎(chǔ)理論知識(shí),又有廣博的知識(shí)面和應(yīng)用全局觀南捂,具有大數(shù)據(jù)產(chǎn)業(yè)發(fā)展所需要的最合理吴裤、最優(yōu)化、最關(guān)鍵的核心技術(shù)與知識(shí)體系黑毅。通過合理的知識(shí)結(jié)構(gòu)和科學(xué)的大數(shù)據(jù)思維方法嚼摩,提高大數(shù)據(jù)分析實(shí)戰(zhàn)技能。這個(gè)目標(biāo)很大矿瘦,但還是可以達(dá)到的枕面,首先要搞清楚大數(shù)據(jù)產(chǎn)業(yè)鏈的情況,接下來要明確大數(shù)據(jù)技術(shù)棧也就是相關(guān)技術(shù)體系缚去,最后定下學(xué)習(xí)目標(biāo)和應(yīng)用方向潮秘,是面對(duì)什么行業(yè)的數(shù)據(jù),是關(guān)注存儲(chǔ)還是機(jī)器學(xué)習(xí)易结,數(shù)據(jù)規(guī)模是什么量級(jí)枕荞,數(shù)據(jù)類型是文本、圖像搞动、網(wǎng)頁還是商業(yè)數(shù)據(jù)庫躏精?每個(gè)方向所用技術(shù)有較大差異,需要找準(zhǔn)學(xué)習(xí)的興趣點(diǎn)和切入點(diǎn)鹦肿。
36大數(shù)據(jù)

圖6 大數(shù)據(jù)技術(shù)棧與學(xué)習(xí)路線參考圖
上面這個(gè)大數(shù)據(jù)技術(shù)棧和學(xué)習(xí)路線圖矗烛,可以說是一個(gè)大數(shù)據(jù)學(xué)習(xí)的總綱,專業(yè)性很強(qiáng)箩溃,值得初學(xué)者深入研究和理解瞭吃,對(duì)我在前面提到的數(shù)據(jù)科學(xué)技術(shù)體系來講,是更豐富的補(bǔ)充涣旨。比如基礎(chǔ)學(xué)習(xí)部分包括線性代數(shù)歪架、關(guān)系代數(shù)、數(shù)據(jù)庫基礎(chǔ)霹陡、CAP理論和蚪、OLAP止状、多維數(shù)據(jù)模型、數(shù)據(jù)預(yù)處理ETL等都分析得很到位攒霹。
總之大數(shù)據(jù)學(xué)習(xí)不能像炒菜一樣导俘,等到把所有材料準(zhǔn)備好了才下鍋(因?yàn)檫@個(gè)領(lǐng)域技術(shù)體系龐雜應(yīng)用目標(biāo)廣泛,就算學(xué)個(gè)十年二十年也難以掌握其大部分核心理論技術(shù))剔蹋,而是結(jié)合自己的興趣或工作需求旅薄,找一個(gè)點(diǎn)猛扎進(jìn)去,掌握這個(gè)點(diǎn)的相關(guān)技術(shù)泣崩,深入理解其分析的流程少梁、應(yīng)用和評(píng)價(jià)等環(huán)節(jié),搞透徹一個(gè)點(diǎn)之后矫付,再以點(diǎn)帶面凯沪,舉一反三,逐步覆蓋大數(shù)據(jù)各個(gè)領(lǐng)域买优,從而構(gòu)建完整的知識(shí)結(jié)構(gòu)和技術(shù)能力體系妨马,這才是大數(shù)據(jù)學(xué)習(xí)的最佳路徑。
4.大數(shù)據(jù)要怎么學(xué):數(shù)據(jù)科學(xué)特點(diǎn)與大數(shù)據(jù)學(xué)習(xí)誤區(qū)
(1)大數(shù)據(jù)學(xué)習(xí)要業(yè)務(wù)驅(qū)動(dòng)杀赢,不要技術(shù)驅(qū)動(dòng):數(shù)據(jù)科學(xué)的核心能力是解決問題烘跺。
大數(shù)據(jù)的核心目標(biāo)是數(shù)據(jù)驅(qū)動(dòng)的智能化,要解決具體的問題脂崔,不管是科學(xué)研究問題滤淳,還是商業(yè)決策問題,抑或是政府管理問題砌左。
所以學(xué)習(xí)之前要明確問題脖咐,理解問題,所謂問題導(dǎo)向汇歹、目標(biāo)導(dǎo)向屁擅,這個(gè)明確之后再研究和選擇合適的技術(shù)加以應(yīng)用,這樣才有針對(duì)性产弹,言必hadoop,spark的大數(shù)據(jù)分析是不嚴(yán)謹(jǐn)?shù)摹?br> 不同的業(yè)務(wù)領(lǐng)域需要不同方向理論派歌、技術(shù)和工具的支持。如文本取视、網(wǎng)頁要自然語言建模硝皂,隨時(shí)間變化數(shù)據(jù)流需要序列建模常挚,圖像音頻和視頻多是時(shí)空混合建模作谭;大數(shù)據(jù)處理如采集需要爬蟲、倒入導(dǎo)出和預(yù)處理等支持奄毡,存儲(chǔ)需要分布式云存儲(chǔ)折欠、云計(jì)算資源管理等支持,計(jì)算需要分類、預(yù)測(cè)锐秦、描述等模型支持咪奖,應(yīng)用需要可視化、知識(shí)庫酱床、決策評(píng)價(jià)等支持羊赵。所以是業(yè)務(wù)決定技術(shù),而不是根據(jù)技術(shù)來考慮業(yè)務(wù)扇谣,這是大數(shù)據(jù)學(xué)習(xí)要避免的第一個(gè)誤區(qū)昧捷。
(2)大數(shù)據(jù)學(xué)習(xí)要善用開源,不要重復(fù)造輪子:數(shù)據(jù)科學(xué)的技術(shù)基因在于開源罐寨。IT前沿領(lǐng)域的開源化已成不可逆轉(zhuǎn)的趨勢(shì)靡挥,Android開源讓智能手機(jī)平民化,讓我們跨入了移動(dòng)互聯(lián)網(wǎng)時(shí)代鸯绿,智能硬件開源將帶領(lǐng)跨入物聯(lián)網(wǎng)時(shí)代跋破,以Hadoop和Spark為代表的大數(shù)據(jù)開源生態(tài)加速了去IOE(IBM、ORACLE瓶蝴、EMC)進(jìn)程毒返,倒逼傳統(tǒng)IT巨頭擁抱開源,谷歌和OpenAI聯(lián)盟的深度學(xué)習(xí)開源(以Tensorflow,Torch,Caffe等為代表)正在加速人工智能技術(shù)的發(fā)展舷手。
數(shù)據(jù)科學(xué)的標(biāo)配語言R和Python更是因開源而生饿悬,因開源而繁榮,諾基亞因沒把握開源大勢(shì)而衰落聚霜。為什么要開源狡恬,這得益于IT發(fā)展的工業(yè)化和構(gòu)件化,各大領(lǐng)域的基礎(chǔ)技術(shù)棧和工具庫已經(jīng)很成熟蝎宇,下一階段就是怎么快速組合弟劲、快速搭積木、快速產(chǎn)出的問題姥芥,不管是linux,anroid還是tensorflow兔乞,其基礎(chǔ)構(gòu)件庫基本就是利用已有開源庫,結(jié)合新的技術(shù)方法實(shí)現(xiàn)凉唐,組合構(gòu)建而成庸追,很少在重復(fù)造輪子。
另外台囱,開源這種眾包開發(fā)模式淡溯,是一種集體智慧編程的體現(xiàn),一個(gè)公司無法積聚全球工程師的開發(fā)智力簿训,而一個(gè)GitHub上的明星開源項(xiàng)目可以咱娶,所以要善用開源和集體智慧編程米间,而不要重復(fù)造輪子,這是大數(shù)據(jù)學(xué)習(xí)要避免的第二個(gè)誤區(qū)膘侮。
(3)大數(shù)據(jù)學(xué)習(xí)要以點(diǎn)帶面屈糊,不貪大求全:數(shù)據(jù)科學(xué)要把握好碎片化與系統(tǒng)性。根據(jù)前文的大數(shù)據(jù)技術(shù)體系分析琼了,我們可以看到大數(shù)據(jù)技術(shù)的深度和廣度都是傳統(tǒng)信息技術(shù)難以比擬的逻锐。
我們的精力很有限,短時(shí)間內(nèi)很難掌握多個(gè)領(lǐng)域的大數(shù)據(jù)理論和技術(shù)雕薪,數(shù)據(jù)科學(xué)要把握好碎片化和系統(tǒng)性的關(guān)系谦去。
何為碎片化,這個(gè)碎片化包括業(yè)務(wù)層面和技術(shù)層面蹦哼,大數(shù)據(jù)不只是谷歌鳄哭,亞馬遜,BAT等互聯(lián)網(wǎng)企業(yè)纲熏,每一個(gè)行業(yè)妆丘、企業(yè)里面都有它去關(guān)注數(shù)據(jù)的痕跡:一條生產(chǎn)線上的實(shí)時(shí)傳感器數(shù)據(jù),車輛身上的傳感數(shù)據(jù)局劲,高鐵設(shè)備的運(yùn)行狀態(tài)數(shù)據(jù)勺拣,交通部門的監(jiān)控?cái)?shù)據(jù),醫(yī)療機(jī)構(gòu)的病例數(shù)據(jù)鱼填,政府部門的海量數(shù)據(jù)等等药有,大數(shù)據(jù)的業(yè)務(wù)場(chǎng)景和分析目標(biāo)是碎片化的,而且相互之間分析目標(biāo)的差異很大苹丸;另外愤惰,技術(shù)層面來講,大數(shù)據(jù)技術(shù)就是萬金油赘理,一切服務(wù)于數(shù)據(jù)分析和決策的技術(shù)都屬于這個(gè)范疇宦言,其技術(shù)體系也是碎片化的。
那怎么把握系統(tǒng)性呢商模,不同領(lǐng)域的大數(shù)據(jù)應(yīng)用有其共性關(guān)鍵技術(shù)奠旺,其系統(tǒng)技術(shù)架構(gòu)也有相通的地方购裙,如系統(tǒng)的高度可擴(kuò)展性旱爆,能進(jìn)行橫向數(shù)據(jù)大規(guī)模擴(kuò)張,縱向業(yè)務(wù)大規(guī)模擴(kuò)展译荞,高容錯(cuò)性和多源異構(gòu)環(huán)境的支持瞪醋,對(duì)原有系統(tǒng)的兼容和集成等等忿晕,每個(gè)大數(shù)據(jù)系統(tǒng)都應(yīng)該考慮上述問題。如何把握大數(shù)據(jù)的碎片化學(xué)習(xí)和系統(tǒng)性設(shè)計(jì)趟章,離不開前面提出的兩點(diǎn)誤區(qū)杏糙,建議從應(yīng)用切入、以點(diǎn)帶面蚓土,先從一個(gè)實(shí)際的應(yīng)用領(lǐng)域需求出發(fā)宏侍,搞定一個(gè)一個(gè)技術(shù)點(diǎn),有一定功底之后蜀漆,再舉一反三橫向擴(kuò)展逐步理解其系統(tǒng)性技術(shù)谅河。
(4)大數(shù)據(jù)學(xué)習(xí)要勇于實(shí)踐,不要紙上談兵:數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程确丢?
大數(shù)據(jù)只有和特定領(lǐng)域的應(yīng)用結(jié)合起來才能產(chǎn)生價(jià)值绷耍,數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程是大數(shù)據(jù)學(xué)習(xí)要明確的關(guān)鍵問題,搞學(xué)術(shù)發(fā)paper數(shù)據(jù)科學(xué)OK鲜侥,但要大數(shù)據(jù)應(yīng)用落地褂始,如果把數(shù)據(jù)科學(xué)成果轉(zhuǎn)化為數(shù)據(jù)工程進(jìn)行落地應(yīng)用,難度很大描函,這也是很多企業(yè)質(zhì)疑數(shù)據(jù)科學(xué)價(jià)值的原因崎苗。且不說這種轉(zhuǎn)化需要一個(gè)過程,從業(yè)人員自身也是需要審視思考的舀寓。
工業(yè)界包括政府管理機(jī)構(gòu)如何引入研究智力胆数,數(shù)據(jù)分析如何轉(zhuǎn)化和價(jià)值變現(xiàn)?數(shù)據(jù)科學(xué)研究人員和企業(yè)大數(shù)據(jù)系統(tǒng)開發(fā)工程人員都得想想這些關(guān)鍵問題互墓。
目前數(shù)據(jù)工程要解決的關(guān)鍵問題主線是數(shù)據(jù)(Data)>知識(shí)(Knowledge)>服務(wù)(Service)必尼,數(shù)據(jù)采集和管理,挖掘分析獲取知識(shí)篡撵,知識(shí)規(guī)律進(jìn)行決策支持和應(yīng)用轉(zhuǎn)化為持續(xù)服務(wù)判莉。解決好這三個(gè)問題,才算大數(shù)據(jù)應(yīng)用落地育谬,那么從學(xué)習(xí)角度講骂租,DWS就是大數(shù)據(jù)學(xué)習(xí)要解決問題的總目標(biāo),特別要注重?cái)?shù)據(jù)科學(xué)的實(shí)踐應(yīng)用能力斑司,而且實(shí)踐要重于理論渗饮。從模型,特征宿刮,誤差互站,實(shí)驗(yàn),測(cè)試到應(yīng)用僵缺,每一步都要考慮是否能解決現(xiàn)實(shí)問題胡桃,模型是否具備可解釋性,要勇于嘗試和迭代磕潮,模型和軟件包本身不是萬能的翠胰,大數(shù)據(jù)應(yīng)用要注重魯棒性和實(shí)效性容贝,溫室模型是沒有用的,訓(xùn)練集和測(cè)試集就OK了嗎之景?
大數(shù)據(jù)如何走出實(shí)驗(yàn)室和工程化落地斤富,一是不能閉門造車,模型收斂了就想當(dāng)然萬事大吉了锻狗;二是要走出實(shí)驗(yàn)室充分與業(yè)界實(shí)際決策問題對(duì)接满力;三是關(guān)聯(lián)關(guān)系和因果關(guān)系都不能少,不能描述因果關(guān)系的模型無助于解決現(xiàn)實(shí)問題轻纪;四是注重模型的迭代和產(chǎn)品化油额,持續(xù)升級(jí)和優(yōu)化,解決新數(shù)據(jù)增量學(xué)習(xí)和模型動(dòng)態(tài)調(diào)整的問題刻帚。
所以潦嘶,大數(shù)據(jù)學(xué)習(xí)一定要清楚我是在做數(shù)據(jù)科學(xué)還是數(shù)據(jù)工程,各需要哪些方面的技術(shù)能力崇众,現(xiàn)在處于哪一個(gè)階段等衬以,不然為了技術(shù)而技術(shù),是難以學(xué)好和用好大數(shù)據(jù)的校摩。
(5)大數(shù)據(jù)學(xué)習(xí)的三個(gè)階段:不同階段的技術(shù)路線各有側(cè)重看峻,把握主要矛盾。在大數(shù)據(jù)應(yīng)用實(shí)施過程中衙吩,由于技術(shù)和成本考慮互妓,不可能短時(shí)間內(nèi)解決所有問題,大數(shù)據(jù)應(yīng)用本身有其規(guī)律和特點(diǎn)坤塞,比如分析目標(biāo)一定是要跟數(shù)據(jù)規(guī)模匹配冯勉,分析技術(shù)的采用取決于數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)源條件,數(shù)據(jù)集成一定要覆蓋比較全面的業(yè)務(wù)背景摹芙,關(guān)鍵環(huán)節(jié)數(shù)據(jù)不能有缺失等等灼狰。大數(shù)據(jù)學(xué)習(xí)可以根據(jù)應(yīng)用目標(biāo)分三個(gè)階段:
(1)大數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)階段:這個(gè)階段的重點(diǎn)是把大數(shù)據(jù)存起來,管起來浮禾,能用起來交胚,同時(shí)要考慮大數(shù)據(jù)平臺(tái)和原有業(yè)務(wù)系統(tǒng)的互通聯(lián)合問題。一句話盈电,做好全局?jǐn)?shù)據(jù)集成解決數(shù)據(jù)孤島問題蝴簇!要完成大數(shù)據(jù)基礎(chǔ)設(shè)施系統(tǒng)建設(shè)開發(fā),需要明確數(shù)據(jù)采集匆帚、存儲(chǔ)和分析各層核心組件的選型和使用熬词,搭建穩(wěn)定的大數(shù)據(jù)集群,或選擇私有云方案的服務(wù)集群,與生產(chǎn)系統(tǒng)并線運(yùn)行互拾,使待分析的歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)得以采集并源源不斷流入大數(shù)據(jù)系統(tǒng)歪今。這個(gè)階段的關(guān)鍵技術(shù)學(xué)習(xí)包括采集爬蟲、數(shù)據(jù)接口颜矿、分布式存儲(chǔ)寄猩、數(shù)據(jù)預(yù)處理ETL、數(shù)據(jù)集成或衡、數(shù)據(jù)庫和數(shù)據(jù)倉庫管理焦影、云計(jì)算和資源調(diào)度管理等等內(nèi)容车遂。
(2)大數(shù)據(jù)描述性分析階段:此階段主要定位于離線或在線對(duì)數(shù)據(jù)進(jìn)行基本描述統(tǒng)計(jì)和探索式可視化分析封断,對(duì)管理起來的大數(shù)據(jù)能進(jìn)行海量存儲(chǔ)條件下的交互式查詢、匯總舶担、統(tǒng)計(jì)和可視化坡疼,如果建設(shè)了BI系統(tǒng)的,還需整合傳統(tǒng)BI技術(shù)進(jìn)行OLAP衣陶、KPI柄瑰、Report、Chart剪况、Dashboard等分析和初步的描述型數(shù)據(jù)挖掘分析教沾。這個(gè)基礎(chǔ)分析階段是對(duì)數(shù)據(jù)集成質(zhì)量的檢驗(yàn),也是對(duì)海量數(shù)據(jù)條件下的分布式存儲(chǔ)管理技術(shù)應(yīng)用穩(wěn)定性的測(cè)試译断,同時(shí)要能替代或集成傳統(tǒng)BI的各類報(bào)表授翻。這個(gè)階段的關(guān)鍵技術(shù)學(xué)習(xí)包括可視化、探索式交互式分析孙咪、多維分析堪唐、各類基本報(bào)表和圖表的查詢?cè)O(shè)計(jì)等等。
(3)大數(shù)據(jù)高級(jí)預(yù)測(cè)分析和生產(chǎn)部署階段:在初步描述分析結(jié)果合理翎蹈,符合預(yù)期目標(biāo)淮菠,數(shù)據(jù)分布式管理和描述型分析穩(wěn)定成熟的條件下,可結(jié)合進(jìn)一步智能化分析需求荤堪,采用如深度學(xué)習(xí)等適用海量數(shù)據(jù)處理的機(jī)器學(xué)習(xí)模型合陵,進(jìn)行高級(jí)預(yù)測(cè)性挖掘分析。并通過逐步迭代優(yōu)化挖掘模型和數(shù)據(jù)質(zhì)量澄阳,形成穩(wěn)定可靠和性能可擴(kuò)展的智能預(yù)測(cè)模型曙寡,并在企業(yè)相關(guān)業(yè)務(wù)服務(wù)中進(jìn)行分析結(jié)果的決策支持,進(jìn)行驗(yàn)證寇荧、部署举庶、評(píng)估和反饋。這個(gè)階段的關(guān)鍵技術(shù)包括機(jī)器學(xué)習(xí)建模揩抡、決策支持户侥、可視化镀琉、模型部署和運(yùn)維等。
在上述幾個(gè)階段的技術(shù)學(xué)習(xí)過程中蕊唐,需要注意幾個(gè)關(guān)鍵問題:
一是重視可視化和業(yè)務(wù)決策屋摔,大數(shù)據(jù)分析結(jié)果是為決策服務(wù),而大數(shù)據(jù)決策的表現(xiàn)形式替梨,可視化技術(shù)的優(yōu)劣起決定性作用钓试;
二是問問自己,Hadoop副瀑、Spark等是必須的嗎弓熏?要從整個(gè)大數(shù)據(jù)技術(shù)棧來考慮技術(shù)選型和技術(shù)路線的確定;
三是建模問題處于核心地位糠睡,模型的選擇和評(píng)估至關(guān)重要挽鞠,在課堂和實(shí)驗(yàn)室中,多數(shù)模型的評(píng)估是靜態(tài)的狈孔,少有考慮其運(yùn)行速度信认、實(shí)時(shí)性及增量處理,因此多使用復(fù)雜的臃腫模型均抽,其特征變量往往及其復(fù)雜嫁赏。而Kaggle競(jìng)賽中的各種Boost方法,XGBDT油挥、隨機(jī)森林等模型潦蝇,在數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)教材中卻少有提及,所以要充分參考業(yè)界實(shí)戰(zhàn)經(jīng)驗(yàn)不能盡信書喘漏;
四是開發(fā)語言的選擇护蝶,基礎(chǔ)框架系統(tǒng)Java是必須掌握的,應(yīng)用級(jí)的機(jī)器學(xué)習(xí)和數(shù)據(jù)分析庫Python是必須掌握的翩迈,而要深入各種框架和學(xué)習(xí)庫的底層持灰,C++是必須掌握的;五是模型的產(chǎn)品化负饲,需要將實(shí)際數(shù)據(jù)通過管道設(shè)計(jì)轉(zhuǎn)換為輸入特征傳遞給模型堤魁,如何最小化模型在線上和線下的表現(xiàn)差距,這些都是要解決關(guān)鍵的問題返十。
(6)其它補(bǔ)充:Kaggle,眾包與培訓(xùn)妥泉。眾包是一種基于互聯(lián)網(wǎng)的創(chuàng)新生產(chǎn)組織形式,企業(yè)利用網(wǎng)絡(luò)將工作分配出去洞坑,通過讓更合適的人群參與其中來發(fā)現(xiàn)創(chuàng)意和解決問題盲链,如維基百科,還有IT資源社區(qū)GitHub,都是典型的眾包平臺(tái)刽沾。
眾包+開源極大推動(dòng)了IT產(chǎn)業(yè)的快速發(fā)展本慕,當(dāng)然Kaggle作為數(shù)據(jù)科學(xué)領(lǐng)域頂級(jí)的眾包平臺(tái),其影響力遠(yuǎn)不止于此(所以剛剛被谷歌收購)侧漓。
企業(yè)和研究者可在Kaggle上發(fā)布數(shù)據(jù)锅尘,數(shù)據(jù)分析人員可在其上進(jìn)行競(jìng)賽以產(chǎn)生最好的模型。這一眾包模式本質(zhì)就是集體智慧編程的體現(xiàn)布蔗,即有眾多策略可以用于解決幾乎所有預(yù)測(cè)建模問題藤违,而分析人員不可能一開始就能找到最佳方案,Kaggle的目標(biāo)就是通過眾包的形式來解決這一難題纵揍,進(jìn)而使數(shù)據(jù)科學(xué)成為一場(chǎng)集體智慧運(yùn)動(dòng)顿乒。所以說要學(xué)好大數(shù)據(jù),嚴(yán)重推薦去Kaggle沖沖浪骡男,很好的歷練平臺(tái)淆游。
至于大數(shù)據(jù)培訓(xùn)嘛傍睹,基礎(chǔ)理論和技術(shù)還不甚了解的情況下可以去培訓(xùn)學(xué)習(xí)隔盛,有基礎(chǔ)之后還得靠自己多練多解決實(shí)際問題。
5.結(jié)論與展望
做個(gè)小結(jié)拾稳,大數(shù)據(jù)不是銀彈(Silver Bullet)吮炕,大數(shù)據(jù)的興起只是說明了一種現(xiàn)象,隨著科技的高速發(fā)展访得,數(shù)據(jù)在人類生活和決策中所占的比重越來越大龙亲。面對(duì)如此廣度和深度的大數(shù)據(jù)技術(shù)棧和工具集,如何學(xué)習(xí)和掌握好大數(shù)據(jù)分析這種技能悍抑,猶如盲人摸象鳄炉,冷暖自知。
不過技術(shù)的學(xué)習(xí)和應(yīng)用也是相通的搜骡,條條大路通羅馬拂盯,關(guān)鍵是要找準(zhǔn)切入點(diǎn),理論與實(shí)踐結(jié)合记靡,有全局觀谈竿,工程化思維,對(duì)復(fù)雜系統(tǒng)設(shè)計(jì)開發(fā)與關(guān)鍵技術(shù)體系的主要矛盾要有所把握摸吠。熟悉大數(shù)據(jù)基礎(chǔ)理論與算法空凸、應(yīng)用切入、以點(diǎn)帶面寸痢、舉一反三呀洲、橫向擴(kuò)展,從而構(gòu)建完整的大數(shù)據(jù)知識(shí)結(jié)構(gòu)和核心技術(shù)能力,這樣的學(xué)習(xí)效果就會(huì)好很多道逗。
另外丛楚,技術(shù)發(fā)展也遵循量變到質(zhì)變規(guī)律,人工智能+物聯(lián)網(wǎng)+大數(shù)據(jù)+云計(jì)算是四位一體發(fā)展的(時(shí)間有先后憔辫,但技術(shù)實(shí)質(zhì)性突破都在最近幾年)趣些,未來智能時(shí)代的基礎(chǔ)設(shè)施、核心架構(gòu)將基于這四個(gè)層面贰您,這種社會(huì)演化趨勢(shì)也很明顯:農(nóng)業(yè)時(shí)代〉工業(yè)時(shí)代〉互聯(lián)網(wǎng)時(shí)代〉智能化時(shí)代坏平。在這個(gè)四位一體智能技術(shù)鏈條里面,物聯(lián)網(wǎng)重在數(shù)據(jù)采集锦亦,云計(jì)算重在基礎(chǔ)設(shè)施舶替,大數(shù)據(jù)技術(shù)處于核心地位,人工智能則是發(fā)展目標(biāo)杠园,所以學(xué)習(xí)大數(shù)據(jù)技術(shù)還需要對(duì)這四個(gè)方面加以綜合研究和理解顾瞪。
最后潑點(diǎn)冷水,簡(jiǎn)單說說大數(shù)據(jù)的前景抛蚁,未來大數(shù)據(jù)崗位需求不會(huì)有媒體宣傳的那么多陈醒,大數(shù)據(jù)具體工作不會(huì)有美國(guó)大片里那么炫酷,不要老盯著BAT瞧甩,我國(guó)大數(shù)據(jù)的發(fā)展還處于初級(jí)階段钉跷。總之技術(shù)歸于技術(shù)肚逸,實(shí)踐才能出真知爷辙,落地解決問題是關(guān)鍵,Palantir也是十年才磨出一劍朦促。
不過在大數(shù)據(jù)時(shí)代膝晾,人人都得懂點(diǎn)數(shù)據(jù)分析,這倒是最實(shí)在的务冕,不懂編程血当?那就學(xué)Python吧,如果說人工智能時(shí)代的大媽和小學(xué)生都能編程的話洒疚,那一定用的是Python:)
本文由 點(diǎn)睛大數(shù)據(jù)杜圣東 投稿至36大數(shù)據(jù)歹颓,并經(jīng)由36大數(shù)據(jù)編輯發(fā)布,轉(zhuǎn)載必須獲得原作者和36大數(shù)據(jù)許可油湖,并標(biāo)注來源36大數(shù)據(jù)http://www.36dsj.com/archives/81486巍扛,任何不經(jīng)同意的轉(zhuǎn)載均為侵權(quán)。
End.

大數(shù)據(jù)到底怎么學(xué):數(shù)據(jù)科學(xué)概論與大數(shù)據(jù)學(xué)習(xí)誤區(qū)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末乏德,一起剝皮案震驚了整個(gè)濱河市撤奸,隨后出現(xiàn)的幾起案子吠昭,更是在濱河造成了極大的恐慌,老刑警劉巖胧瓜,帶你破解...
    沈念sama閱讀 206,126評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件矢棚,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡府喳,警方通過查閱死者的電腦和手機(jī)蒲肋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,254評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來钝满,“玉大人兜粘,你說我怎么就攤上這事⊥溲粒” “怎么了孔轴?”我有些...
    開封第一講書人閱讀 152,445評(píng)論 0 341
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)碎捺。 經(jīng)常有香客問我路鹰,道長(zhǎng),這世上最難降的妖魔是什么收厨? 我笑而不...
    開封第一講書人閱讀 55,185評(píng)論 1 278
  • 正文 為了忘掉前任晋柱,我火速辦了婚禮,結(jié)果婚禮上帽氓,老公的妹妹穿的比我還像新娘趣斤。我一直安慰自己俩块,他們只是感情好黎休,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,178評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著玉凯,像睡著了一般势腮。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上漫仆,一...
    開封第一講書人閱讀 48,970評(píng)論 1 284
  • 那天捎拯,我揣著相機(jī)與錄音,去河邊找鬼盲厌。 笑死署照,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的吗浩。 我是一名探鬼主播建芙,決...
    沈念sama閱讀 38,276評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼懂扼!你這毒婦竟也來了禁荸?” 一聲冷哼從身側(cè)響起右蒲,我...
    開封第一講書人閱讀 36,927評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎赶熟,沒想到半個(gè)月后瑰妄,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,400評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡映砖,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,883評(píng)論 2 323
  • 正文 我和宋清朗相戀三年间坐,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片邑退。...
    茶點(diǎn)故事閱讀 37,997評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡眶诈,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出瓜饥,到底是詐尸還是另有隱情逝撬,我是刑警寧澤,帶...
    沈念sama閱讀 33,646評(píng)論 4 322
  • 正文 年R本政府宣布乓土,位于F島的核電站宪潮,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏趣苏。R本人自食惡果不足惜狡相,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,213評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望食磕。 院中可真熱鬧尽棕,春花似錦、人聲如沸彬伦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,204評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽单绑。三九已至回官,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間搂橙,已是汗流浹背歉提。 一陣腳步聲響...
    開封第一講書人閱讀 31,423評(píng)論 1 260
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留区转,地道東北人苔巨。 一個(gè)月前我還...
    沈念sama閱讀 45,423評(píng)論 2 352
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像废离,于是被迫代替她去往敵國(guó)和親侄泽。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,722評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容

  • 大數(shù)據(jù)學(xué)習(xí)交流群:808769635 前段時(shí)間有報(bào)道稱厅缺,有學(xué)者質(zhì)疑“大數(shù)據(jù)”理論蔬顾,也有硅谷公司負(fù)責(zé)人質(zhì)疑大數(shù)據(jù)應(yīng)用...
    順治帝閱讀 3,222評(píng)論 0 5
  • 前段時(shí)間有報(bào)道稱宴偿,有學(xué)者質(zhì)疑“大數(shù)據(jù)”理論,也有硅谷公司負(fù)責(zé)人質(zhì)疑大數(shù)據(jù)應(yīng)用的效果诀豁。結(jié)合2011年Gartner關(guān)...
    梔子花_ef39閱讀 1,414評(píng)論 0 5
  • 一天沒有做什么正事窄刘,試了下買的沖鋒衣褲,并不是特別滿意舷胜,然后又去萬達(dá)逛了下戶外店娩践。 最近幾天在追《秦時(shí)明月》,心思...
    我是路索閱讀 209評(píng)論 0 0
  • 仙小賢閱讀 125評(píng)論 0 0
  • 迭代啟動(dòng)后烹骨,每天會(huì)進(jìn)行站會(huì)(Daily scrum)翻伺,站會(huì)大概是敏捷的標(biāo)志性實(shí)踐,目的在于反饋進(jìn)展沮焕,協(xié)調(diào)工作吨岭,識(shí)別...
    楚秀才閱讀 646評(píng)論 0 0