工程師及數(shù)據(jù)科學家的大數(shù)據(jù)學習路徑

原文地址:Big Data Learning Path for all Engineers and Data Scientists out there

介紹

大數(shù)據(jù)領域十分龐大,對于任何開始學習大數(shù)據(jù)及其相關技術的人來說都是一個相當艱巨的任務。大數(shù)據(jù)技術繁多而使你不知從何處開始玛迄。

這是我寫這篇文章的原因负敏。本文為您提供了開始旅程學習大數(shù)據(jù)的指導途徑吗伤,并將幫助您在大數(shù)據(jù)行業(yè)獲得一份工作吃靠。我們面臨的最大挑戰(zhàn)是根據(jù)我們的興趣和技能來確定正確的角色贤姆。

為了解決這個問題内舟,我將考慮到工程師和計算機畢業(yè)生的不同情況的基礎上游桩,詳細的解釋每個大數(shù)據(jù)角色。

我試圖去回答所有你遇到的學習大數(shù)據(jù)遇到的問題股缸。

內(nèi)容列表

  1. 如何開始衡楞?
  2. 在大數(shù)據(jù)行業(yè)有哪些角色?
  3. 你的背景如何敦姻?什么崗位更適合你瘾境?
  4. 根據(jù)你的情況選擇角色
  5. 如何成為一個大數(shù)據(jù)工程師
    • 大數(shù)據(jù)術語
    • 您需要知道的系統(tǒng)和架構(gòu)
    • 學習設計解決方案和技術
  6. 大數(shù)據(jù)學習途徑
  7. 學習資源

1.如何開始?

大多數(shù)人在學習大數(shù)據(jù)前第一個問題總是:“我應該學習Hadoop替劈,分布式計算寄雀,Kafka,NoSQL還是Spark陨献?”

那么,我一般只有一個答案:“這取決于你想做什么”懂更。

那么眨业,讓我們以有條不紊的方式來解決這個問題。我們將一步一步來完成這個學習過程沮协。

2.在大數(shù)據(jù)行業(yè)有哪些職能龄捡?

在大數(shù)據(jù)行業(yè)里有很多職能,但總體來說它們被分為兩類:

  • 大數(shù)據(jù)工程
  • 大數(shù)據(jù)分析

這些領域相互依賴但又有不同慷暂。

大數(shù)據(jù)工程主要圍繞大量數(shù)據(jù)的設計聘殖、部署、獲取行瑞、維護(存儲)奸腺,大數(shù)據(jù)工程需要設計和部署系統(tǒng)使相關數(shù)據(jù)可用于面向消費者和內(nèi)部應用程序。

然而血久,大數(shù)據(jù)分析主要圍繞來自大數(shù)據(jù)工程設計和部署的系統(tǒng)的大量數(shù)據(jù)突照。大數(shù)據(jù)分析涉及分析趨勢,模式和建立各種分類氧吐,預測和預測系統(tǒng)讹蘑。

因此末盔,簡單來說,大數(shù)據(jù)分析涉及數(shù)據(jù)的高級計算座慰。 而大數(shù)據(jù)工程涉及系統(tǒng)和設置的設計和部署陨舱。

3.你的背景如何?什么崗位更適合你版仔?

現(xiàn)在游盲,我們知道在這行業(yè)中有哪些類型的職能。讓我們嘗試定義適合你的方面邦尊,以便你能夠分析出背桐,在這個行業(yè)里,哪兒更適合你蝉揍。

總的來說链峭,根據(jù)個人的教育背景及行業(yè)經(jīng)驗,可以分為以下幾種:

  • 教育背景(不僅僅是你的大學教育背景又沾,也包含興趣愛好)

    1. 計算機科學相關

    2. 數(shù)學相關

  • 行業(yè)經(jīng)驗

    1. 新手(技術小白)

    2. 數(shù)據(jù)科學家

    3. 計算機工程師(在數(shù)據(jù)相關項目里工作)

因此弊仪,通過以上分類,你可以按以下方式定義你的背景:

例1: “我是一個計算機研究生杖刷,但是沒有扎實的數(shù)學技能相關經(jīng)驗”

你對計算機科學和數(shù)學感興趣励饵,但是沒有相關經(jīng)驗,將被定義為“新手(技術小白)”

例2: “我是一個計算機研究生滑燃,進行一些數(shù)據(jù)庫相關工作”

你的興趣在計算機科學役听,你比較適合計算機工程師(在數(shù)據(jù)相關項目里工作)

例3: “我是在數(shù)據(jù)科學方面工作的統(tǒng)計學家”

你的興趣在數(shù)學,你比較適合數(shù)據(jù)科學家

4.職能列表

4.1 大數(shù)據(jù)工程

如果您有良好的編程技能表窘,并了解計算機如何通過互聯(lián)網(wǎng)進行互動(基礎知識)典予,但您對數(shù)學和統(tǒng)計學不感興趣。在這種情況下乐严,您應該去大數(shù)據(jù)工程瘤袖。

4.1 大數(shù)據(jù)分析

如果您善于編程,并且您的教育和興趣在于數(shù)學和統(tǒng)計學昂验,那么您應該去做大數(shù)據(jù)分析捂敌。

5.如何成為一個大數(shù)據(jù)工程師

首先我們得考慮為了在這個行業(yè)獲得一個位置,一個大數(shù)據(jù)工程師應該知道和學習的有哪些既琴。第一步占婉,也是最重要的一步是要明白自己的需求。你不能不明白自己的需求就開始學習呛梆,否則锐涯,你將一無所獲。

為了確定自己的需求填物,你必須知道大數(shù)據(jù)普通的行業(yè)術語纹腌,以此來明白大數(shù)據(jù)實際上是什么霎终。

5.1 大數(shù)據(jù)術語

大數(shù)據(jù)項目有兩個主要方面 - 數(shù)據(jù)要求和處理要求。

  • 5.1.1 數(shù)據(jù)要求

    1. 結(jié)構(gòu):如果數(shù)據(jù)是按照預定義的數(shù)據(jù)格式排列存儲(即具有表結(jié)構(gòu))升薯,則稱為結(jié)構(gòu)化數(shù)據(jù)莱褒。如果它存儲在文件中沒有固定的模式,則稱為非結(jié)構(gòu)化數(shù)據(jù)涎劈,一般數(shù)據(jù)分為這兩種結(jié)構(gòu)广凸,當然,像JSON這樣的則稱為半結(jié)構(gòu)化數(shù)據(jù)蛛枚。

    2. 大辛潞!:系統(tǒng)所處理的數(shù)據(jù)量評估,例如說大概一天會有100M以內(nèi)的數(shù)據(jù)需要系統(tǒng)處理蹦浦,那么則評估為S扭吁,往上以此增加為M,L,XL,XXL和最后的實時流處理等。

    3. Sink吞吐量:定義系統(tǒng)可以接收數(shù)據(jù)的速率盲镶,低速率的稱為L(如同2G網(wǎng)絡侥袜,中速的為M(如同3G)高速的稱為H(如同4G或者以上)。

    4. 源吞吐量:定義可以將數(shù)據(jù)更新和轉(zhuǎn)換到系統(tǒng)的速率溉贿,如同Sink吞吐量一樣分為三個等級枫吧。

  • 5.1.2 處理要求

    1. 查詢時間:系統(tǒng)執(zhí)行查詢所需的時間,其實等同于查詢效率(類型: Long/ Medium /Short)宇色。

    2. 處理時間:處理數(shù)據(jù)所需的時間(類型: Long/ Medium /Short)九杂。

    3. 精度:數(shù)據(jù)處理的準確性,有些數(shù)據(jù)需要非常精確宣蠕,有些只要大概的一個統(tǒng)計值來替代即可尼酿,則分為精確/近似。

5.2 你應該知道的系統(tǒng)和結(jié)構(gòu)

情景1: 通過從客戶數(shù)據(jù)植影,潛在客戶數(shù)據(jù),呼叫中心數(shù)據(jù)涎永,銷售數(shù)據(jù)思币,產(chǎn)品數(shù)據(jù),博客等多個數(shù)據(jù)源創(chuàng)建數(shù)據(jù)湖羡微,設計一個分析公司銷售業(yè)績的系統(tǒng)谷饿。

5.3 學習設計方法和技術

上述情景解決方法:銷售數(shù)據(jù)的數(shù)據(jù)湖(這只是我個人的解決方法,你可能有更優(yōu)雅的解決方法)

那么妈倔,一個數(shù)據(jù)工程師如何來處理這種問題呢博投?

需要記住一點的是,大數(shù)據(jù)系統(tǒng)不僅僅被設計成能夠無縫集成來自不同的資源并一直可用盯蝴,而且在某種程度上能夠?qū)﹂_發(fā)應用時毅哗,數(shù)據(jù)的分析和數(shù)據(jù)使用時更加簡單听怕、快速及可用(這種情況也稱為智能儀表盤)。

最終目標:

  1. 通過集成不同資源的數(shù)據(jù)創(chuàng)建數(shù)據(jù)湖

  2. 在定期的間隔時間里虑绵,自動的更新數(shù)據(jù)(可能是一周)

  3. 分析的數(shù)據(jù)可用性(全天候尿瞭,甚至每天)

  4. 進行架構(gòu),為了簡單訪問和無縫部署一個分析儀表盤

現(xiàn)在我們知道我們的最終目標是什么翅睛,讓我們嘗試在更正式的方式來制定我們的要求声搁。

5.3.1 數(shù)據(jù)相關要求

結(jié)構(gòu):大部分數(shù)據(jù)是結(jié)構(gòu)化的且定義了一個數(shù)據(jù)模型,但數(shù)據(jù)源捕发,如網(wǎng)絡日志疏旨,客戶互動/呼叫中心數(shù)據(jù),銷售目錄中的圖像數(shù)據(jù)扎酷,產(chǎn)品廣告數(shù)據(jù)檐涝。圖像和多媒體廣告數(shù)據(jù)的可用性和要求可能取決于公司。

結(jié)論: 需要兼顧結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)

大邢夹:L 或 XL(選擇Hadoop)

Sink吞吐量:高

質(zhì)量:中等的(Hadoop & Kafka)

完整性:不完整

5.3.2 處理相關要求

查詢時間:Medium 到 Long

處理時間:Medium 到 Short

精確度:精確

當不同的資源被集成骤铃,重要的是不同的數(shù)據(jù)將以不同的速率進入系統(tǒng)。例如坷剧,網(wǎng)絡日志以高級別粒度的連續(xù)流進入惰爬;

基于以上對系統(tǒng)的要求分析,我們推薦以下大數(shù)據(jù)配置惫企;

大數(shù)據(jù)配置
大數(shù)據(jù)配置

6.大數(shù)據(jù)學習路徑

現(xiàn)在撕瞧,你已經(jīng)明白了大數(shù)據(jù)行業(yè)、不同角色職能和一個大數(shù)據(jù)從業(yè)者的要求狞尔;那么看下我們?nèi)绾尾拍艹蔀橐幻髷?shù)據(jù)工程師

我們知道丛版,大數(shù)據(jù)領域技術很雜亂,因此偏序,學習和你大數(shù)據(jù)工作職能相關的技術就非常重要页畦。它相對于一些像數(shù)據(jù)科學和機器學習這些常規(guī)領域有些不同,你需要在某些地方開始研儒,但要努力完成這個領域的每件事情豫缨。

為了找到屬于你的路徑,應該遍歷下面這顆的知識樹:

學習方法

在這個樹形圖的幫助下端朵,您可以根據(jù)您的興趣和目標選擇路徑好芭。 然后,您可以開始學習大數(shù)據(jù)的旅程冲呢。點此下載技術信息圖表

任何想要部署應用程序的工程師必須掌握的基本概念之一是Bash腳本,你必須非常了解Linux和bash腳本,這是處理大數(shù)據(jù)的基本要求舍败。

核心在于,大部分大數(shù)據(jù)技術是通過Java或者Scala實現(xiàn)的,但是不必擔心邻薯,如果你不想使用這些語言裙戏,我們可以選擇Python 或者 R,因為目前大多數(shù)大數(shù)據(jù)技術支持Python 或者 R弛说。

因此挽懦,你可以使用上面提到的語言開始,我比較推薦使用Python或者Java木人。

另外信柿,你需要熟悉在云端服務器工作,因為如果你沒有在云端處理過大數(shù)據(jù)醒第,沒有人會重視你渔嚷。可以嘗試使用AWS稠曼、或阿里云等提供商的小型數(shù)據(jù)集形病,大多數(shù)都有一個小型的免費服務版本讓你練習。如果您愿意霞幅,您可以暫時跳過此步驟漠吻,但在找工作之前請務必在云端工作。

還有司恳,你需要學習分布式文件系統(tǒng)途乃,最流行的DFS是Hadoop 提供的文件系統(tǒng),在這一階段扔傅,你也可以學習一些你領域相關的NoSQL數(shù)據(jù)庫耍共。

到目前為止這些,是每個大數(shù)據(jù)工程師必須知道的基礎知識猎塞。

現(xiàn)在试读,你決定是否要處理數(shù)據(jù)流或存儲著的大量數(shù)據(jù),這是用于定義大數(shù)據(jù)(Volume荠耽,Velocity钩骇,Variety和Veracity)的四個維度中兩個之間的選擇。

假設你決定使用數(shù)據(jù)流來開發(fā)實時或近實時分析系統(tǒng)铝量。那么你應該采取Kafka路徑伊履,或者你采取Map reduce路徑,你就需要按照你創(chuàng)建的路徑學習款违。請注意,在MapReduce路徑中群凶,不需要Pig和Hive都學習插爹,只學習其中之一就足夠了。

總結(jié):學習知識樹的方式

  1. 先從起始路徑開始,用深度優(yōu)先策略遍歷赠尾。

  2. 到下一個節(jié)點前先停止力穗,檢查文章最后學習資源附錄中給出的資源。

  3. 如果你充分了解并且在使用該技術方面有相當?shù)男判钠蓿敲凑堔D(zhuǎn)到下一個節(jié)點当窗。

  4. 在每個節(jié)點嘗試完成至少3個編程問題。

  5. 轉(zhuǎn)入下一個節(jié)點學習寸宵。

  6. 到達路徑尾端節(jié)點崖面。

  7. 從另外一條路徑再開始。

最后一步梯影,說實話巫员,沒有應用僅僅是流處理或者低速延遲處理,因此甲棍,您在技術上需要成為執(zhí)行完整的lambda架構(gòu)的高手简识。

而且,這并不是學習大數(shù)據(jù)的唯一路徑感猛,你可以擁有自己的一套學習路徑七扰。但是,這個路徑陪白,可以適用于任何人颈走。

如果你想進入大數(shù)據(jù)分析領域,也可以使用這一套學習路徑拷泽。

對于能夠處理大數(shù)據(jù)的數(shù)據(jù)科學家疫鹊,需要在下面部分的樹中有機器學習、深度學習司致、可視乎研究等拆吆,先要將重點放在機器學習上。

7.資源

1.Bash Scripting

2.Python

3.Java

4.Cloud

5.HDFS

6.Apache Zookeeper

7.Apache Kafka

8.SQL

9.Hive

10.Pig

11.Apache Storm

12.Apache Kinesis

13.Apache Spark

14.Apache Spark Streaming

結(jié)語

我希望你能喜歡這篇文章脂矫,在這個路徑的幫助下枣耀,能夠開始你的大數(shù)據(jù)學習旅程,文章里也包含了你在找工作時需要的一些主要概念庭再。

最后編輯于
?著作權歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末捞奕,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子拄轻,更是在濱河造成了極大的恐慌颅围,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,744評論 6 502
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件恨搓,死亡現(xiàn)場離奇詭異院促,居然都是意外死亡筏养,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,505評論 3 392
  • 文/潘曉璐 我一進店門常拓,熙熙樓的掌柜王于貴愁眉苦臉地迎上來渐溶,“玉大人,你說我怎么就攤上這事弄抬【シ” “怎么了?”我有些...
    開封第一講書人閱讀 163,105評論 0 353
  • 文/不壞的土叔 我叫張陵掂恕,是天一觀的道長拖陆。 經(jīng)常有香客問我,道長竹海,這世上最難降的妖魔是什么慕蔚? 我笑而不...
    開封第一講書人閱讀 58,242評論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮斋配,結(jié)果婚禮上孔飒,老公的妹妹穿的比我還像新娘。我一直安慰自己艰争,他們只是感情好坏瞄,可當我...
    茶點故事閱讀 67,269評論 6 389
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著甩卓,像睡著了一般鸠匀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上逾柿,一...
    開封第一講書人閱讀 51,215評論 1 299
  • 那天缀棍,我揣著相機與錄音,去河邊找鬼机错。 笑死爬范,一個胖子當著我的面吹牛,可吹牛的內(nèi)容都是我干的弱匪。 我是一名探鬼主播青瀑,決...
    沈念sama閱讀 40,096評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼萧诫!你這毒婦竟也來了斥难?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,939評論 0 274
  • 序言:老撾萬榮一對情侶失蹤帘饶,失蹤者是張志新(化名)和其女友劉穎哑诊,沒想到半個月后,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體及刻,經(jīng)...
    沈念sama閱讀 45,354評論 1 311
  • 正文 獨居荒郊野嶺守林人離奇死亡搭儒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,573評論 2 333
  • 正文 我和宋清朗相戀三年穷当,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片淹禾。...
    茶點故事閱讀 39,745評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖茴扁,靈堂內(nèi)的尸體忽然破棺而出铃岔,到底是詐尸還是另有隱情,我是刑警寧澤峭火,帶...
    沈念sama閱讀 35,448評論 5 344
  • 正文 年R本政府宣布毁习,位于F島的核電站,受9級特大地震影響卖丸,放射性物質(zhì)發(fā)生泄漏纺且。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 41,048評論 3 327
  • 文/蒙蒙 一稍浆、第九天 我趴在偏房一處隱蔽的房頂上張望载碌。 院中可真熱鬧,春花似錦衅枫、人聲如沸嫁艇。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,683評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽步咪。三九已至,卻和暖如春益楼,著一層夾襖步出監(jiān)牢的瞬間猾漫,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 32,838評論 1 269
  • 我被黑心中介騙來泰國打工感凤, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留悯周,地道東北人。 一個月前我還...
    沈念sama閱讀 47,776評論 2 369
  • 正文 我出身青樓俊扭,卻偏偏與公主長得像队橙,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子萨惑,可洞房花燭夜當晚...
    茶點故事閱讀 44,652評論 2 354

推薦閱讀更多精彩內(nèi)容