大數(shù)據(jù)技術(shù)知識(shí)的學(xué)習(xí)及其切入點(diǎn)

大數(shù)據(jù)在越來越多的領(lǐng)域得到了關(guān)注煞烫,將成為今后很長(zhǎng)時(shí)間內(nèi)科研浑此、技術(shù)、產(chǎn)業(yè)滞详、市場(chǎng)的焦點(diǎn)凛俱。作為大數(shù)據(jù)技術(shù)的學(xué)習(xí)者和應(yīng)用開發(fā)者,應(yīng)該從哪個(gè)角度入手掌握大數(shù)據(jù)技術(shù)? 在目前紛繁復(fù)雜的各類教材和參考書中如何選擇適合自己的書籍? 本文介紹并分析了學(xué)習(xí)大數(shù)據(jù)技術(shù)時(shí)料饥,需要考慮的問題蒲犬。

首要的問題:學(xué)習(xí)大數(shù)據(jù)要有充足的大數(shù)據(jù)源。也許很多人會(huì)想到使用交通大數(shù)據(jù)岸啡、金融大數(shù)據(jù)原叮、醫(yī)療大數(shù)據(jù)、政務(wù)大數(shù)據(jù)等巡蘸,但是仔細(xì)一想奋隶,這些數(shù)據(jù)的開放性很差。5月24日在貴陽的大數(shù)據(jù)產(chǎn)業(yè)博覽會(huì)上悦荒,大批專家學(xué)者還在爭(zhēng)論數(shù)據(jù)開放共享和數(shù)字政府治理的相關(guān)政策問題唯欣,還是一個(gè)務(wù)虛會(huì),可見此類數(shù)據(jù)要真正開放共享搬味、真正讓普通學(xué)習(xí)者使用還有很長(zhǎng)的路境氢。從根本上講蟀拷,這些數(shù)據(jù)涉及到民眾的大量隱私問題,即使能開放共享萍聊,也需要在特定的匹厘、受控的場(chǎng)合下使用,而這實(shí)際上這并不可行脐区。在《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》一書中愈诚,我們闡述了互聯(lián)網(wǎng)大數(shù)據(jù)作為教學(xué)、學(xué)習(xí)以及開發(fā)應(yīng)用的重要性和可行性牛隅。

其次炕柔,要認(rèn)識(shí)自己的技術(shù)特長(zhǎng)、興趣和學(xué)習(xí)的目的媒佣,選擇合適的切入點(diǎn)進(jìn)行學(xué)習(xí)匕累。我們知道大數(shù)據(jù)技術(shù)通常包含3或4層的技術(shù),以互聯(lián)網(wǎng)大數(shù)據(jù)技術(shù)為例默伍,其技術(shù)體系包含四層欢嘿,即數(shù)據(jù)獲取層、大數(shù)據(jù)計(jì)算與存儲(chǔ)層也糊、數(shù)據(jù)挖掘模型與算法層以及應(yīng)用領(lǐng)域技術(shù)層炼蹦。

作為大數(shù)據(jù)的學(xué)習(xí)者可以選擇這四個(gè)層面作為自己的切入點(diǎn)。作為高校大數(shù)據(jù)教學(xué)狸剃,讓學(xué)生進(jìn)行系統(tǒng)地學(xué)習(xí)則是很重要的掐隐,這樣有利于給學(xué)生一個(gè)全局、整體的理解钞馁,這樣就要求以“系統(tǒng)學(xué)習(xí)的切入點(diǎn)”入手虑省。如圖所示,互聯(lián)網(wǎng)大數(shù)據(jù)知識(shí)體系中標(biāo)注了這些不同的切入點(diǎn)僧凰。



接下來探颈,分析各個(gè)層次選擇的一些考慮。如果你對(duì)大數(shù)據(jù)開發(fā)感興趣训措,想系統(tǒng)學(xué)習(xí)大數(shù)據(jù)的話伪节,可以加入大數(shù)據(jù)技術(shù)學(xué)習(xí)交流扣扣群:458數(shù)字345數(shù)字782,歡迎添加隙弛,私信管理員架馋,了解課程介紹狞山,獲取學(xué)習(xí)資源

數(shù)據(jù)獲取層:技術(shù)手段比較多樣化全闷,對(duì)于互聯(lián)網(wǎng)大數(shù)據(jù)而言,數(shù)據(jù)的獲取主要有三類方法萍启,即網(wǎng)絡(luò)爬蟲总珠、網(wǎng)絡(luò)探針以及ETL屏鳍。雖然爬蟲技術(shù)也被越來越多的人所認(rèn)識(shí),但是爬蟲形式多樣化局服,包含普通爬蟲钓瞭、主題爬蟲、微博爬蟲淫奔、DeppWeb爬蟲山涡、動(dòng)態(tài)爬蟲甚至Dark Web爬蟲技術(shù),有共同的技術(shù)特點(diǎn)唆迁,也有較大的差異鸭丛。以該層作為重點(diǎn)的話,應(yīng)當(dāng)深入理解爬蟲的技術(shù)原理唐责,以便能對(duì)爬蟲采集的性能進(jìn)行底層優(yōu)化鳞溉,特別是在爬行策略的設(shè)計(jì)上。

大數(shù)據(jù)計(jì)算與存儲(chǔ)層:這個(gè)層次上的計(jì)算是指面向大數(shù)據(jù)分析的一些底層算法鼠哥,典型的包括排序熟菲、搜索、查找朴恳、最短路徑抄罕、矩陣運(yùn)算等。這些算法與具體應(yīng)用無關(guān)于颖,它們?yōu)樯蠈拥臄?shù)據(jù)挖掘提供基本的函數(shù)調(diào)用贞绵,算法性能的重要性不言而喻。一般需要一些分布式計(jì)算平臺(tái)支持恍飘,例如Spark榨崩、Hadoop。但是該層作為研究和學(xué)習(xí)的重點(diǎn)章母,存在一定風(fēng)險(xiǎn)母蛛,就是平臺(tái)技術(shù)的迭代太快,或許你還沒有把Spark的技術(shù)原理徹底搞清楚乳怎,就有新的更好的平臺(tái)出現(xiàn)彩郊,大家都追隨新平臺(tái)去了,老平臺(tái)被大家拋棄蚪缀。

數(shù)據(jù)挖掘模型與算法層:這個(gè)層次對(duì)采集的數(shù)據(jù)進(jìn)行處理秫逝,根據(jù)具體應(yīng)用需求,運(yùn)用大數(shù)據(jù)分析算法進(jìn)行數(shù)據(jù)分析询枚,建立相關(guān)模型违帆。各種大數(shù)據(jù)分析挖掘算法主要包括數(shù)據(jù)聚類、分類金蜀、相關(guān)性計(jì)算刷后、回歸的畴、預(yù)測(cè)等。這些算法的輸出結(jié)果將直接為領(lǐng)域提供具體的分析結(jié)果尝胆,是大數(shù)據(jù)分析的真正產(chǎn)出丧裁。在這個(gè)層次中,隱私保護(hù)技術(shù)是一種比較特殊的技術(shù)手段含衔,主要用于對(duì)大數(shù)據(jù)中涉及個(gè)人和單位的敏感信息進(jìn)行脫敏煎娇。針對(duì)該層,也有一些典型的開源系統(tǒng)贪染,如運(yùn)行于Hadoop 上的Mahout逊桦、Weka、oryx 以及運(yùn)行于Spark上的MLib 等抑进,都對(duì)大數(shù)據(jù)分析提供了支撐强经,同時(shí)也允許自己對(duì)算法進(jìn)行改進(jìn)和提升。是一個(gè)不錯(cuò)的切入點(diǎn)寺渗。

應(yīng)用領(lǐng)域技術(shù)層:在這個(gè)層次匿情,主要涉及到與具體應(yīng)用領(lǐng)域有關(guān)的技術(shù)。這些技術(shù)通常就與用戶UI信殊、系統(tǒng)管理炬称、輸出有關(guān)。

最后涡拘,回答前面提到的問題×崆現(xiàn)在大數(shù)據(jù)技術(shù)方面的參考書或教材很多,但是大都針對(duì)大數(shù)據(jù)計(jì)算與存儲(chǔ)層或數(shù)據(jù)挖掘模型與算法層鳄乏,技術(shù)層次的闡述不夠完整跷车,也不利于進(jìn)行系統(tǒng)學(xué)習(xí)〕饕埃《互聯(lián)網(wǎng)大數(shù)據(jù)處理技術(shù)與應(yīng)用》的特色是完整包含這四層技術(shù)朽缴,并且在數(shù)據(jù)挖掘模型與算法層中以非結(jié)構(gòu)化數(shù)據(jù)為主,書中有許多例子水援,在清華大學(xué)出版社的圖書主頁(yè)上可以下載PPT密强。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市蜗元,隨后出現(xiàn)的幾起案子或渤,更是在濱河造成了極大的恐慌,老刑警劉巖奕扣,帶你破解...
    沈念sama閱讀 217,734評(píng)論 6 505
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件薪鹦,死亡現(xiàn)場(chǎng)離奇詭異,居然都是意外死亡成畦,警方通過查閱死者的電腦和手機(jī)距芬,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,931評(píng)論 3 394
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來循帐,“玉大人框仔,你說我怎么就攤上這事≈粞” “怎么了离斩?”我有些...
    開封第一講書人閱讀 164,133評(píng)論 0 354
  • 文/不壞的土叔 我叫張陵,是天一觀的道長(zhǎng)瘪匿。 經(jīng)常有香客問我跛梗,道長(zhǎng),這世上最難降的妖魔是什么棋弥? 我笑而不...
    開封第一講書人閱讀 58,532評(píng)論 1 293
  • 正文 為了忘掉前任核偿,我火速辦了婚禮,結(jié)果婚禮上顽染,老公的妹妹穿的比我還像新娘漾岳。我一直安慰自己,他們只是感情好粉寞,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,585評(píng)論 6 392
  • 文/花漫 我一把揭開白布尼荆。 她就那樣靜靜地躺著,像睡著了一般唧垦。 火紅的嫁衣襯著肌膚如雪捅儒。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 51,462評(píng)論 1 302
  • 那天振亮,我揣著相機(jī)與錄音巧还,去河邊找鬼。 笑死坊秸,一個(gè)胖子當(dāng)著我的面吹牛狞悲,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播妇斤,決...
    沈念sama閱讀 40,262評(píng)論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼摇锋,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了站超?” 一聲冷哼從身側(cè)響起荸恕,我...
    開封第一講書人閱讀 39,153評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎死相,沒想到半個(gè)月后融求,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,587評(píng)論 1 314
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡算撮,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,792評(píng)論 3 336
  • 正文 我和宋清朗相戀三年生宛,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了县昂。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,919評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡陷舅,死狀恐怖倒彰,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情莱睁,我是刑警寧澤待讳,帶...
    沈念sama閱讀 35,635評(píng)論 5 345
  • 正文 年R本政府宣布,位于F島的核電站仰剿,受9級(jí)特大地震影響创淡,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜南吮,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,237評(píng)論 3 329
  • 文/蒙蒙 一琳彩、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧部凑,春花似錦汁针、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,855評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至必孤,卻和暖如春猾骡,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背敷搪。 一陣腳步聲響...
    開封第一講書人閱讀 32,983評(píng)論 1 269
  • 我被黑心中介騙來泰國(guó)打工兴想, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人赡勘。 一個(gè)月前我還...
    沈念sama閱讀 48,048評(píng)論 3 370
  • 正文 我出身青樓嫂便,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親闸与。 傳聞我的和親對(duì)象是個(gè)殘疾皇子毙替,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,864評(píng)論 2 354

推薦閱讀更多精彩內(nèi)容

  • 前段時(shí)間有報(bào)道稱,有學(xué)者質(zhì)疑“大數(shù)據(jù)”理論践樱,也有硅谷公司負(fù)責(zé)人質(zhì)疑大數(shù)據(jù)應(yīng)用的效果厂画。結(jié)合2011年Gartner關(guān)...
    梔子花_ef39閱讀 1,422評(píng)論 0 5
  • 大數(shù)據(jù)學(xué)習(xí)交流群:808769635 前段時(shí)間有報(bào)道稱,有學(xué)者質(zhì)疑“大數(shù)據(jù)”理論拷邢,也有硅谷公司負(fù)責(zé)人質(zhì)疑大數(shù)據(jù)應(yīng)用...
    順治帝閱讀 3,248評(píng)論 0 5
  • BI一詞早在20年前就被提出袱院,加特納集團(tuán)將商業(yè)智能定義為描述一系列的概念和方法,通過應(yīng)用基于事實(shí)的支持系統(tǒng)來輔助商...
    faa9660dbf08閱讀 949評(píng)論 0 7
  • 架構(gòu)設(shè)計(jì)系列文章,請(qǐng)參見連接忽洛。 十分鐘讓你透徹理解大數(shù)據(jù)的工作方式腻惠。大數(shù)據(jù)并不是深不可測(cè)、高不可攀的技術(shù)欲虚,這里用1...
    Wales_Kuo閱讀 2,792評(píng)論 0 12
  • 中年集灌,思維鈍牙齒松,尷尬!壯志未酬苍在,血未曾冷绝页,進(jìn)取荠商,有腳踏實(shí)地的腳步聲寂恬。2018,中年人生莱没,事情很多初肉,女兒很小,老...
    金容閱讀 312評(píng)論 0 9