如何系統(tǒng)規(guī)劃大數(shù)據(jù)學(xué)習(xí)之路公罕?

大數(shù)據(jù)的領(lǐng)域非常廣泛,往往使想要開始學(xué)習(xí)大數(shù)據(jù)及相關(guān)技術(shù)的人望而生畏伶跷。大數(shù)據(jù)技術(shù)的種類眾多,這同樣使得初學(xué)者難以選擇從何處下手秘狞。

這正是我想要撰寫本文的原因叭莫。本文將為你開始學(xué)習(xí)大數(shù)據(jù)的征程以及在大數(shù)據(jù)產(chǎn)業(yè)領(lǐng)域找到工作指明道路,提供幫助烁试。目前我們面臨的最大挑戰(zhàn)就是根據(jù)我們的興趣和技能選定正確的角色雇初。

為了解決這個問題,我在本文詳細(xì)闡述了每個與大數(shù)據(jù)有關(guān)的角色减响,同時考量了工程師以及計算機(jī)科學(xué)畢業(yè)生的不同職位角色靖诗。

我盡量詳細(xì)地回答了每一項(xiàng)人們在學(xué)習(xí)大數(shù)據(jù)過程中遇到或可能會遇到的問題。為幫助你根據(jù)興趣選擇發(fā)展途徑支示,我添加了一組樹圖刊橘,相信會對你找到正確的途徑有所幫助。

學(xué)習(xí)之路樹狀圖

在這個樹狀圖的幫助下颂鸿,你可以根據(jù)你的興趣和目標(biāo)選擇路徑促绵。 然后,你可以開始學(xué)習(xí)大數(shù)據(jù)的旅程了嘴纺。

目錄表

1.如何開始败晴?

2.在大數(shù)據(jù)領(lǐng)域有哪些職位需求?

3.你的領(lǐng)域是什么栽渴,適合什么方向尖坤?

4.勾勒你在大數(shù)據(jù)領(lǐng)域的角色

5.如何成為一名大數(shù)據(jù)工程師?

? ? o什么是大數(shù)據(jù)行業(yè)術(shù)語闲擦?

? ?o你需要了解的系統(tǒng)和結(jié)構(gòu)

? ?o學(xué)習(xí)去設(shè)計解決方案并且學(xué)習(xí)相關(guān)技術(shù)

6.大數(shù)據(jù)學(xué)習(xí)路徑

7.資源

1.如何開始慢味?

人們想開始學(xué)習(xí)大數(shù)據(jù)的時候,最常問我的問題是墅冷,“我應(yīng)該學(xué)Hadoop(hadoop是一款開源軟件纯路,主要用于分布式存儲和計算,他由HDFS和MapReduce計算框架組成的俺榆,他們分別是Google的GFS和MapReduce的開源實(shí)現(xiàn)感昼。由于hadoop的易用性和可擴(kuò)展性,因此成為最近流行的海量數(shù)據(jù)處理框架罐脊。hadoop這個單詞來源于其發(fā)明者的兒子為一個玩具大象起的名字定嗓。), 分布式計算蜕琴,Kafka(Kafka是由LinkedIn開發(fā)的一個分布式基于發(fā)布/訂閱的消息系統(tǒng)),NoSQL(泛指非關(guān)系型的數(shù)據(jù)庫)還是Spark(Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處)宵溅?”

而我通常只有一個答案:“這取決于你究竟想做什么凌简。”

因此恃逻,讓我們用一種有條理的方式來解決這個問題雏搂。我們將一步步地探索這條學(xué)習(xí)之路。

2. 在大數(shù)據(jù)行業(yè)有哪些職業(yè)需求寇损?

在大數(shù)據(jù)行業(yè)中有很多領(lǐng)域凸郑。通常來說它們可以被分為兩類:

大數(shù)據(jù)工程

大數(shù)據(jù)分析

這些領(lǐng)域互相獨(dú)立又互相關(guān)聯(lián)。

大數(shù)據(jù)工程涉及大量數(shù)據(jù)的設(shè)計芙沥,部署,獲取以及維護(hù)(保存)浊吏。大數(shù)據(jù)工程師需要去設(shè)計和部署這樣一個系統(tǒng)而昨,使相關(guān)數(shù)據(jù)能面向不同的消費(fèi)者及內(nèi)部應(yīng)用。

大數(shù)據(jù)分析的工作則是利用大數(shù)據(jù)工程師設(shè)計的系統(tǒng)所提供的大量數(shù)據(jù)找田。大數(shù)據(jù)分析包括趨勢歌憨、圖樣分析以及開發(fā)不同的分類、預(yù)測預(yù)報系統(tǒng)墩衙。

因此务嫡,簡而言之,大數(shù)據(jù)分析是對數(shù)據(jù)的高級計算底桂。而大數(shù)據(jù)工程則是進(jìn)行系統(tǒng)設(shè)計植袍、部署以及計算運(yùn)行平臺的頂層構(gòu)建惧眠。

3.你的領(lǐng)域是什么籽懦,適合什么方向?

現(xiàn)在我們已經(jīng)了解了行業(yè)中可供選擇的職業(yè)種類氛魁,讓我們想辦法來確定哪個領(lǐng)域適合你暮顺。這樣,我們才能確定你在這個行業(yè)中的位置秀存。

通常來說捶码,基于你的教育背景和行業(yè)經(jīng)驗(yàn)我們可以進(jìn)行如下分類:

教育背景(包括興趣,而不一定與你的大學(xué)教育有關(guān))

計算機(jī)科學(xué)或链、數(shù)學(xué)惫恼、行業(yè)經(jīng)驗(yàn)、新人澳盐、數(shù)據(jù)學(xué)家祈纯、計算機(jī)工程師(在數(shù)據(jù)相關(guān)領(lǐng)域工作)

因此令宿,通過上面的分類,你可以把自己的領(lǐng)域定位如下:

例1:“我是一名計算機(jī)科學(xué)畢業(yè)生腕窥,不過沒有堅(jiān)實(shí)的數(shù)學(xué)技巧粒没。”

你對計算機(jī)科學(xué)或者數(shù)學(xué)有興趣簇爆,但是之前沒有相關(guān)經(jīng)驗(yàn)癞松,你將被定義為一個新人。

例2:“我是一個計算機(jī)科學(xué)畢業(yè)生入蛆,目前正從事數(shù)據(jù)庫開發(fā)工作响蓉。”

你的興趣在計算機(jī)科學(xué)方向哨毁,你適合計算機(jī)工程師(數(shù)據(jù)相關(guān)工程)的角色厕妖。

例3:“我正作為數(shù)據(jù)科學(xué)家從事統(tǒng)計工作√羰”

你對數(shù)學(xué)領(lǐng)域有興趣言秸,適合數(shù)據(jù)科學(xué)家的職業(yè)角色。

因此迎捺,參照著定位你的領(lǐng)域吧举畸。

(此處定義的領(lǐng)域?qū)δ愦_定在大數(shù)據(jù)行業(yè)的學(xué)習(xí)路徑至關(guān)重要。)

4.根據(jù)領(lǐng)域規(guī)劃你的角色

現(xiàn)在你已經(jīng)確定了你的領(lǐng)域凳枝,下一步抄沮,讓我們規(guī)劃出你要努力的目標(biāo)職位吧。

如果你有卓越的編程技巧并理解計算機(jī)如何在網(wǎng)絡(luò)(基礎(chǔ))上運(yùn)作岖瑰,而你對數(shù)學(xué)和統(tǒng)計學(xué)毫無興趣叛买,在這種情況下,你應(yīng)該朝著大數(shù)據(jù)工程職位努力蹋订。

如果你擅長編程同時有數(shù)學(xué)或者統(tǒng)計學(xué)的教育背景或興趣率挣,你應(yīng)該朝著大數(shù)據(jù)分析師職位努力

5.如何成為一名大數(shù)據(jù)工程師

讓我們先定義一下露戒,一名受到行業(yè)承認(rèn)的大數(shù)據(jù)工程師都需要學(xué)習(xí)和了解什么椒功。首先以及最重要的一步是確認(rèn)你的需求。你不能在不清楚個人需求的情況下直接開始學(xué)習(xí)大數(shù)據(jù)智什。否則动漾,你將一直盲人摸象。

為了明確你的需求荠锭,你必須了解常用的大數(shù)據(jù)術(shù)語旱眯。所以讓我們來看一下大數(shù)據(jù)到底意味著什么?

5.1 大數(shù)據(jù)術(shù)語

大數(shù)據(jù)工程通常包括兩個方面 – ?數(shù)據(jù)需求以及處理需求

5.1.1 數(shù)據(jù)需求術(shù)語

結(jié)構(gòu):你應(yīng)該知道數(shù)據(jù)可以儲存在表中或者文件中删豺。儲存在一個預(yù)定義的數(shù)據(jù)模型(即擁有架構(gòu))中的數(shù)據(jù)稱為結(jié)構(gòu)化數(shù)據(jù)础爬。如果數(shù)據(jù)儲存在文件中且沒有預(yù)定義模型,則稱為非結(jié)構(gòu)化數(shù)據(jù)吼鳞。(種類:結(jié)構(gòu)化/非結(jié)構(gòu)化)看蚜。

容量:我們用容量來定義數(shù)據(jù)的數(shù)量。(種類:S/M/L/XL/XXL/流)

Sink吞吐量:用系統(tǒng)所能接受的數(shù)據(jù)率來定義Sink吞吐量赔桌。(種類:H/M/L)

源吞吐量:定義為數(shù)據(jù)更新和轉(zhuǎn)化進(jìn)入系統(tǒng)的速度供炎。(種類:H/M/L)

5.1.2處理需求術(shù)語

查詢時間:系統(tǒng)查詢所需時間。(種類:長/中/短)

處理時間:處理數(shù)據(jù)所需時間疾党。(種類:長/中/短)

精度:數(shù)據(jù)處理的精確度音诫。(種類:準(zhǔn)確/大約)

5.2你需要知道的系統(tǒng)和架構(gòu)

情景1:

為分析一個公司的銷售表現(xiàn)需要設(shè)計一個系統(tǒng),即創(chuàng)建一個數(shù)據(jù)池雪位,數(shù)據(jù)池來自于多重數(shù)據(jù)源竭钝,比如客戶數(shù)據(jù)、領(lǐng)導(dǎo)數(shù)據(jù)雹洗、客服中心數(shù)據(jù)香罐、銷售數(shù)據(jù)、產(chǎn)品數(shù)據(jù)时肿、博客等庇茫。

5.3學(xué)習(xí)設(shè)計解決方案和技術(shù)

情節(jié)1的解決方案:銷售數(shù)據(jù)池

(這是我的個人解決方案,如果你想到一個更高明的解決方案請?jiān)谙旅娣窒硪幌拢?/p>

那么螃成,一個數(shù)據(jù)工程師會怎樣解決這個問題呢旦签?

需要記住的一點(diǎn)是,大數(shù)據(jù)系統(tǒng)的目的不僅僅是無縫整合各種來源的數(shù)據(jù)寸宏,而使其可用宁炫,同時它必須能使得,用于開發(fā)應(yīng)用系統(tǒng)的數(shù)據(jù)的分析和利用變得簡單迅速和易得(在這個案例中是智能控制面板)氮凝。

定義最后的目標(biāo):

1. 通過整合各種來源的數(shù)據(jù)創(chuàng)建一個數(shù)據(jù)池羔巢。

2. 每隔一定時間自動更新數(shù)據(jù)(在這個案例中可能是一周一次)。

3. 可用于分析的數(shù)據(jù)(在記錄時間內(nèi)覆醇,甚至可能是每天)

4. 易得的架構(gòu)和無縫部署的分析控制面板朵纷。

既然我們知道了我們最后的目標(biāo),讓我們盡量用正式術(shù)語制定我們的要求吧永脓。

文章來源:http://t.cn/RKVcn0t

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市鞋仍,隨后出現(xiàn)的幾起案子常摧,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 221,635評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件落午,死亡現(xiàn)場離奇詭異谎懦,居然都是意外死亡,警方通過查閱死者的電腦和手機(jī)溃斋,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,543評論 3 399
  • 文/潘曉璐 我一進(jìn)店門界拦,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人梗劫,你說我怎么就攤上這事享甸。” “怎么了梳侨?”我有些...
    開封第一講書人閱讀 168,083評論 0 360
  • 文/不壞的土叔 我叫張陵蛉威,是天一觀的道長。 經(jīng)常有香客問我走哺,道長蚯嫌,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,640評論 1 296
  • 正文 為了忘掉前任丙躏,我火速辦了婚禮择示,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘晒旅。我一直安慰自己对妄,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,640評論 6 397
  • 文/花漫 我一把揭開白布敢朱。 她就那樣靜靜地躺著剪菱,像睡著了一般。 火紅的嫁衣襯著肌膚如雪拴签。 梳的紋絲不亂的頭發(fā)上孝常,一...
    開封第一講書人閱讀 52,262評論 1 308
  • 那天,我揣著相機(jī)與錄音蚓哩,去河邊找鬼构灸。 笑死,一個胖子當(dāng)著我的面吹牛岸梨,可吹牛的內(nèi)容都是我干的喜颁。 我是一名探鬼主播,決...
    沈念sama閱讀 40,833評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼曹阔,長吁一口氣:“原來是場噩夢啊……” “哼半开!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起赃份,我...
    開封第一講書人閱讀 39,736評論 0 276
  • 序言:老撾萬榮一對情侶失蹤寂拆,失蹤者是張志新(化名)和其女友劉穎奢米,沒想到半個月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體纠永,經(jīng)...
    沈念sama閱讀 46,280評論 1 319
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡鬓长,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,369評論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發(fā)現(xiàn)自己被綠了尝江。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片涉波。...
    茶點(diǎn)故事閱讀 40,503評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖炭序,靈堂內(nèi)的尸體忽然破棺而出啤覆,到底是詐尸還是另有隱情,我是刑警寧澤少态,帶...
    沈念sama閱讀 36,185評論 5 350
  • 正文 年R本政府宣布城侧,位于F島的核電站,受9級特大地震影響彼妻,放射性物質(zhì)發(fā)生泄漏嫌佑。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,870評論 3 333
  • 文/蒙蒙 一侨歉、第九天 我趴在偏房一處隱蔽的房頂上張望屋摇。 院中可真熱鬧,春花似錦幽邓、人聲如沸炮温。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,340評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽柒啤。三九已至,卻和暖如春畸颅,著一層夾襖步出監(jiān)牢的瞬間担巩,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,460評論 1 272
  • 我被黑心中介騙來泰國打工没炒, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留涛癌,地道東北人。 一個月前我還...
    沈念sama閱讀 48,909評論 3 376
  • 正文 我出身青樓送火,卻偏偏與公主長得像拳话,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子种吸,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,512評論 2 359

推薦閱讀更多精彩內(nèi)容