大數(shù)據(jù)在越來越多的領(lǐng)域得到了關(guān)注煞烫,將成為今后很長(zhǎng)時(shí)間內(nèi)科研浑此、技術(shù)、產(chǎn)業(yè)滞详、市場(chǎng)的焦點(diǎn)凛俱。作為大數(shù)據(jù)技術(shù)的學(xué)習(xí)者和應(yīng)用開發(fā)者,應(yīng)該從哪個(gè)角度入手掌握大數(shù)據(jù)技術(shù)? 在目前紛繁復(fù)雜的各類教材和參考書中如何選擇適合自己的書籍? 本文介紹并分析了學(xué)習(xí)大數(shù)據(jù)技術(shù)時(shí)料饥,需要考慮的問題蒲犬。
首要的問題:學(xué)習(xí)大數(shù)據(jù)要有充足的大數(shù)據(jù)源。也許很多人會(huì)想到使用交通大數(shù)據(jù)岸啡、金融大數(shù)據(jù)原叮、醫(yī)療大數(shù)據(jù)、政務(wù)大數(shù)據(jù)等巡蘸,但是仔細(xì)一想奋隶,這些數(shù)據(jù)的開放性很差。5月24日在貴陽的大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上悦荒,大批專家學(xué)者還在爭(zhēng)論數(shù)據(jù)開放共享和數(shù)字政府治理的相關(guān)政策問題唯欣,還是一個(gè)務(wù)虛會(huì),可見此類數(shù)據(jù)要真正開放共享搬味、真正讓普通學(xué)習(xí)者使用還有很長(zhǎng)的路境氢。從根本上講蟀拷,這些數(shù)據(jù)涉及到民眾的大量隱私問題,即使能開放共享萍聊,也需要在特定的匹厘、受控的場(chǎng)合下使用,而這實(shí)際上這并不可行脐区。在《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》一書中愈诚,我們闡述了互聯(lián)網(wǎng)大數(shù)據(jù)作為教學(xué)、學(xué)習(xí)以及開發(fā)應(yīng)用的重要性和可行性牛隅。
其次炕柔,要認(rèn)識(shí)自己的技術(shù)特長(zhǎng)、興趣和學(xué)習(xí)的目的媒佣,選擇合適的切入點(diǎn)進(jìn)行學(xué)習(xí)匕累。我們知道大數(shù)據(jù)技術(shù)通常包含3或4層的技術(shù),以互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)為例默伍,其技術(shù)體系包含四層欢嘿,即數(shù)據(jù)獲取層、大數(shù)據(jù)計(jì)算與存儲(chǔ)層也糊、數(shù)據(jù)挖掘模型與算法層以及應(yīng)用領(lǐng)域技術(shù)層炼蹦。
作為大數(shù)據(jù)的學(xué)習(xí)者可以選擇這四個(gè)層面作為自己的切入點(diǎn)。作為高校大數(shù)據(jù)教學(xué)狸剃,讓學(xué)生進(jìn)行系統(tǒng)地學(xué)習(xí)則是很重要的掐隐,這樣有利于給學(xué)生一個(gè)全局、整體的理解钞馁,這樣就要求以“系統(tǒng)學(xué)習(xí)的切入點(diǎn)”入手虑省。如圖所示,互聯(lián)網(wǎng)大數(shù)據(jù)知識(shí)體系中標(biāo)注了這些不同的切入點(diǎn)僧凰。
接下來探颈,分析各個(gè)層次選擇的一些考慮。如果你對(duì)大數(shù)據(jù)開發(fā)感興趣训措,想系統(tǒng)學(xué)習(xí)大數(shù)據(jù)的話伪节,可以加入大數(shù)據(jù)技術(shù)學(xué)習(xí)交流扣扣群:458數(shù)字345數(shù)字782,歡迎添加隙弛,私信管理員架馋,了解課程介紹狞山,獲取學(xué)習(xí)資源
數(shù)據(jù)獲取層:技術(shù)手段比較多樣化全闷,對(duì)于互聯(lián)網(wǎng)大數(shù)據(jù)而言,數(shù)據(jù)的獲取主要有三類方法萍启,即網(wǎng)絡(luò)爬蟲总珠、網(wǎng)絡(luò)探針以及ETL屏鳍。雖然爬蟲技術(shù)也被越來越多的人所認(rèn)識(shí),但是爬蟲形式多樣化局服,包含普通爬蟲钓瞭、主題爬蟲、微博爬蟲淫奔、DeppWeb爬蟲山涡、動(dòng)態(tài)爬蟲甚至Dark Web爬蟲技術(shù),有共同的技術(shù)特點(diǎn)唆迁,也有較大的差異鸭丛。以該層作為重點(diǎn)的話,應(yīng)當(dāng)深入理解爬蟲的技術(shù)原理唐责,以便能對(duì)爬蟲采集的性能進(jìn)行底層優(yōu)化鳞溉,特別是在爬行策略的設(shè)計(jì)上。
大數(shù)據(jù)計(jì)算與存儲(chǔ)層:這個(gè)層次上的計(jì)算是指面向大數(shù)據(jù)分析的一些底層算法鼠哥,典型的包括排序熟菲、搜索、查找朴恳、最短路徑抄罕、矩陣運(yùn)算等。這些算法與具體應(yīng)用無關(guān)于颖,它們?yōu)樯蠈拥臄?shù)據(jù)挖掘提供基本的函數(shù)調(diào)用贞绵,算法性能的重要性不言而喻。一般需要一些分布式計(jì)算平臺(tái)支持恍飘,例如Spark榨崩、Hadoop。但是該層作為研究和學(xué)習(xí)的重點(diǎn)章母,存在一定風(fēng)險(xiǎn)母蛛,就是平臺(tái)技術(shù)的迭代太快,或許你還沒有把Spark的技術(shù)原理徹底搞清楚乳怎,就有新的更好的平臺(tái)出現(xiàn)彩郊,大家都追隨新平臺(tái)去了,老平臺(tái)被大家拋棄蚪缀。
數(shù)據(jù)挖掘模型與算法層:這個(gè)層次對(duì)采集的數(shù)據(jù)進(jìn)行處理秫逝,根據(jù)具體應(yīng)用需求,運(yùn)用大數(shù)據(jù)分析算法進(jìn)行數(shù)據(jù)分析询枚,建立相關(guān)模型违帆。各種大數(shù)據(jù)分析挖掘算法主要包括數(shù)據(jù)聚類、分類金蜀、相關(guān)性計(jì)算刷后、回歸的畴、預(yù)測(cè)等。這些算法的輸出結(jié)果將直接為領(lǐng)域提供具體的分析結(jié)果尝胆,是大數(shù)據(jù)分析的真正產(chǎn)出丧裁。在這個(gè)層次中,隱私保護(hù)技術(shù)是一種比較特殊的技術(shù)手段含衔,主要用于對(duì)大數(shù)據(jù)中涉及個(gè)人和單位的敏感信息進(jìn)行脫敏煎娇。針對(duì)該層,也有一些典型的開源系統(tǒng)贪染,如運(yùn)行于Hadoop 上的Mahout逊桦、Weka、oryx 以及運(yùn)行于Spark上的MLib 等抑进,都對(duì)大數(shù)據(jù)分析提供了支撐强经,同時(shí)也允許自己對(duì)算法進(jìn)行改進(jìn)和提升。是一個(gè)不錯(cuò)的切入點(diǎn)寺渗。
應(yīng)用領(lǐng)域技術(shù)層:在這個(gè)層次匿情,主要涉及到與具體應(yīng)用領(lǐng)域有關(guān)的技術(shù)。這些技術(shù)通常就與用戶UI信殊、系統(tǒng)管理炬称、輸出有關(guān)。
最后涡拘,回答前面提到的問題×崆現(xiàn)在大數(shù)據(jù)技術(shù)方面的參考書或教材很多,但是大都針對(duì)大數(shù)據(jù)計(jì)算與存儲(chǔ)層或數(shù)據(jù)挖掘模型與算法層鳄乏,技術(shù)層次的闡述不夠完整跷车,也不利于進(jìn)行系統(tǒng)學(xué)習(xí)〕饕埃《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》的特色是完整包含這四層技術(shù)朽缴,并且在數(shù)據(jù)挖掘模型與算法層中以非結(jié)構(gòu)化數(shù)據(jù)為主,書中有許多例子水援,在清華大學(xué)出版社的圖書主頁(yè)上可以下載PPT密强。