大數(shù)據(jù)的領(lǐng)域非常廣泛,往往使想要開始學(xué)習(xí)大數(shù)據(jù)及相關(guān)技術(shù)的人望而生畏伶跷。大數(shù)據(jù)技術(shù)的種類眾多,這同樣使得初學(xué)者難以選擇從何處下手秘狞。
這正是我想要撰寫本文的原因叭莫。本文將為你開始學(xué)習(xí)大數(shù)據(jù)的征程以及在大數(shù)據(jù)產(chǎn)業(yè)領(lǐng)域找到工作指明道路,提供幫助烁试。目前我們面臨的最大挑戰(zhàn)就是根據(jù)我們的興趣和技能選定正確的角色雇初。
為了解決這個問題,我在本文詳細(xì)闡述了每個與大數(shù)據(jù)有關(guān)的角色减响,同時考量了工程師以及計算機(jī)科學(xué)畢業(yè)生的不同職位角色靖诗。
我盡量詳細(xì)地回答了每一項(xiàng)人們在學(xué)習(xí)大數(shù)據(jù)過程中遇到或可能會遇到的問題。為幫助你根據(jù)興趣選擇發(fā)展途徑支示,我添加了一組樹圖刊橘,相信會對你找到正確的途徑有所幫助。
在這個樹狀圖的幫助下颂鸿,你可以根據(jù)你的興趣和目標(biāo)選擇路徑促绵。 然后,你可以開始學(xué)習(xí)大數(shù)據(jù)的旅程了嘴纺。
目錄表
1.如何開始败晴?
2.在大數(shù)據(jù)領(lǐng)域有哪些職位需求?
3.你的領(lǐng)域是什么栽渴,適合什么方向尖坤?
4.勾勒你在大數(shù)據(jù)領(lǐng)域的角色
5.如何成為一名大數(shù)據(jù)工程師?
? ? o什么是大數(shù)據(jù)行業(yè)術(shù)語闲擦?
? ?o你需要了解的系統(tǒng)和結(jié)構(gòu)
? ?o學(xué)習(xí)去設(shè)計解決方案并且學(xué)習(xí)相關(guān)技術(shù)
6.大數(shù)據(jù)學(xué)習(xí)路徑
7.資源
1.如何開始慢味?
人們想開始學(xué)習(xí)大數(shù)據(jù)的時候,最常問我的問題是墅冷,“我應(yīng)該學(xué)Hadoop(hadoop是一款開源軟件纯路,主要用于分布式存儲和計算,他由HDFS和MapReduce計算框架組成的俺榆,他們分別是Google的GFS和MapReduce的開源實(shí)現(xiàn)感昼。由于hadoop的易用性和可擴(kuò)展性,因此成為最近流行的海量數(shù)據(jù)處理框架罐脊。hadoop這個單詞來源于其發(fā)明者的兒子為一個玩具大象起的名字定嗓。), 分布式計算蜕琴,Kafka(Kafka是由LinkedIn開發(fā)的一個分布式基于發(fā)布/訂閱的消息系統(tǒng)),NoSQL(泛指非關(guān)系型的數(shù)據(jù)庫)還是Spark(Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境,但是兩者之間還存在一些不同之處)宵溅?”
而我通常只有一個答案:“這取決于你究竟想做什么凌简。”
因此恃逻,讓我們用一種有條理的方式來解決這個問題雏搂。我們將一步步地探索這條學(xué)習(xí)之路。
2. 在大數(shù)據(jù)行業(yè)有哪些職業(yè)需求寇损?
在大數(shù)據(jù)行業(yè)中有很多領(lǐng)域凸郑。通常來說它們可以被分為兩類:
大數(shù)據(jù)工程
大數(shù)據(jù)分析
這些領(lǐng)域互相獨(dú)立又互相關(guān)聯(lián)。
大數(shù)據(jù)工程涉及大量數(shù)據(jù)的設(shè)計芙沥,部署,獲取以及維護(hù)(保存)浊吏。大數(shù)據(jù)工程師需要去設(shè)計和部署這樣一個系統(tǒng)而昨,使相關(guān)數(shù)據(jù)能面向不同的消費(fèi)者及內(nèi)部應(yīng)用。
而大數(shù)據(jù)分析的工作則是利用大數(shù)據(jù)工程師設(shè)計的系統(tǒng)所提供的大量數(shù)據(jù)找田。大數(shù)據(jù)分析包括趨勢歌憨、圖樣分析以及開發(fā)不同的分類、預(yù)測預(yù)報系統(tǒng)墩衙。
因此务嫡,簡而言之,大數(shù)據(jù)分析是對數(shù)據(jù)的高級計算底桂。而大數(shù)據(jù)工程則是進(jìn)行系統(tǒng)設(shè)計植袍、部署以及計算運(yùn)行平臺的頂層構(gòu)建惧眠。
3.你的領(lǐng)域是什么籽懦,適合什么方向?
現(xiàn)在我們已經(jīng)了解了行業(yè)中可供選擇的職業(yè)種類氛魁,讓我們想辦法來確定哪個領(lǐng)域適合你暮顺。這樣,我們才能確定你在這個行業(yè)中的位置秀存。
通常來說捶码,基于你的教育背景和行業(yè)經(jīng)驗(yàn)我們可以進(jìn)行如下分類:
教育背景(包括興趣,而不一定與你的大學(xué)教育有關(guān))
計算機(jī)科學(xué)或链、數(shù)學(xué)惫恼、行業(yè)經(jīng)驗(yàn)、新人澳盐、數(shù)據(jù)學(xué)家祈纯、計算機(jī)工程師(在數(shù)據(jù)相關(guān)領(lǐng)域工作)
因此令宿,通過上面的分類,你可以把自己的領(lǐng)域定位如下:
例1:“我是一名計算機(jī)科學(xué)畢業(yè)生腕窥,不過沒有堅(jiān)實(shí)的數(shù)學(xué)技巧粒没。”
你對計算機(jī)科學(xué)或者數(shù)學(xué)有興趣簇爆,但是之前沒有相關(guān)經(jīng)驗(yàn)癞松,你將被定義為一個新人。
例2:“我是一個計算機(jī)科學(xué)畢業(yè)生入蛆,目前正從事數(shù)據(jù)庫開發(fā)工作响蓉。”
你的興趣在計算機(jī)科學(xué)方向哨毁,你適合計算機(jī)工程師(數(shù)據(jù)相關(guān)工程)的角色厕妖。
例3:“我正作為數(shù)據(jù)科學(xué)家從事統(tǒng)計工作√羰”
你對數(shù)學(xué)領(lǐng)域有興趣言秸,適合數(shù)據(jù)科學(xué)家的職業(yè)角色。
因此迎捺,參照著定位你的領(lǐng)域吧举畸。
(此處定義的領(lǐng)域?qū)δ愦_定在大數(shù)據(jù)行業(yè)的學(xué)習(xí)路徑至關(guān)重要。)
4.根據(jù)領(lǐng)域規(guī)劃你的角色
現(xiàn)在你已經(jīng)確定了你的領(lǐng)域凳枝,下一步抄沮,讓我們規(guī)劃出你要努力的目標(biāo)職位吧。
如果你有卓越的編程技巧并理解計算機(jī)如何在網(wǎng)絡(luò)(基礎(chǔ))上運(yùn)作岖瑰,而你對數(shù)學(xué)和統(tǒng)計學(xué)毫無興趣叛买,在這種情況下,你應(yīng)該朝著大數(shù)據(jù)工程職位努力蹋订。
如果你擅長編程同時有數(shù)學(xué)或者統(tǒng)計學(xué)的教育背景或興趣率挣,你應(yīng)該朝著大數(shù)據(jù)分析師職位努力。
5.如何成為一名大數(shù)據(jù)工程師
讓我們先定義一下露戒,一名受到行業(yè)承認(rèn)的大數(shù)據(jù)工程師都需要學(xué)習(xí)和了解什么椒功。首先以及最重要的一步是確認(rèn)你的需求。你不能在不清楚個人需求的情況下直接開始學(xué)習(xí)大數(shù)據(jù)智什。否則动漾,你將一直盲人摸象。
為了明確你的需求荠锭,你必須了解常用的大數(shù)據(jù)術(shù)語旱眯。所以讓我們來看一下大數(shù)據(jù)到底意味著什么?
5.1 大數(shù)據(jù)術(shù)語
大數(shù)據(jù)工程通常包括兩個方面 – ?數(shù)據(jù)需求以及處理需求。
5.1.1 數(shù)據(jù)需求術(shù)語
結(jié)構(gòu):你應(yīng)該知道數(shù)據(jù)可以儲存在表中或者文件中删豺。儲存在一個預(yù)定義的數(shù)據(jù)模型(即擁有架構(gòu))中的數(shù)據(jù)稱為結(jié)構(gòu)化數(shù)據(jù)础爬。如果數(shù)據(jù)儲存在文件中且沒有預(yù)定義模型,則稱為非結(jié)構(gòu)化數(shù)據(jù)吼鳞。(種類:結(jié)構(gòu)化/非結(jié)構(gòu)化)看蚜。
容量:我們用容量來定義數(shù)據(jù)的數(shù)量。(種類:S/M/L/XL/XXL/流)
Sink吞吐量:用系統(tǒng)所能接受的數(shù)據(jù)率來定義Sink吞吐量赔桌。(種類:H/M/L)
源吞吐量:定義為數(shù)據(jù)更新和轉(zhuǎn)化進(jìn)入系統(tǒng)的速度供炎。(種類:H/M/L)
5.1.2處理需求術(shù)語
查詢時間:系統(tǒng)查詢所需時間。(種類:長/中/短)
處理時間:處理數(shù)據(jù)所需時間疾党。(種類:長/中/短)
精度:數(shù)據(jù)處理的精確度音诫。(種類:準(zhǔn)確/大約)
5.2你需要知道的系統(tǒng)和架構(gòu)
情景1:
為分析一個公司的銷售表現(xiàn)需要設(shè)計一個系統(tǒng),即創(chuàng)建一個數(shù)據(jù)池雪位,數(shù)據(jù)池來自于多重數(shù)據(jù)源竭钝,比如客戶數(shù)據(jù)、領(lǐng)導(dǎo)數(shù)據(jù)雹洗、客服中心數(shù)據(jù)香罐、銷售數(shù)據(jù)、產(chǎn)品數(shù)據(jù)时肿、博客等庇茫。
5.3學(xué)習(xí)設(shè)計解決方案和技術(shù)
情節(jié)1的解決方案:銷售數(shù)據(jù)池
(這是我的個人解決方案,如果你想到一個更高明的解決方案請?jiān)谙旅娣窒硪幌拢?/p>
那么螃成,一個數(shù)據(jù)工程師會怎樣解決這個問題呢旦签?
需要記住的一點(diǎn)是,大數(shù)據(jù)系統(tǒng)的目的不僅僅是無縫整合各種來源的數(shù)據(jù)寸宏,而使其可用宁炫,同時它必須能使得,用于開發(fā)應(yīng)用系統(tǒng)的數(shù)據(jù)的分析和利用變得簡單迅速和易得(在這個案例中是智能控制面板)氮凝。
定義最后的目標(biāo):
1. 通過整合各種來源的數(shù)據(jù)創(chuàng)建一個數(shù)據(jù)池羔巢。
2. 每隔一定時間自動更新數(shù)據(jù)(在這個案例中可能是一周一次)。
3. 可用于分析的數(shù)據(jù)(在記錄時間內(nèi)覆醇,甚至可能是每天)
4. 易得的架構(gòu)和無縫部署的分析控制面板朵纷。
既然我們知道了我們最后的目標(biāo),讓我們盡量用正式術(shù)語制定我們的要求吧永脓。
文章來源:http://t.cn/RKVcn0t