前言
這是我的第一篇博客玻孟,寫起來還真是有些小緊張~~~還請有緣看到的朋友多指點!
打算開始寫這些東西的契機(jī)是師兄給布置的學(xué)習(xí)記錄作業(yè)马靠,而我自己這方面的原因倒主要不是記錄學(xué)習(xí)(寫這些東西好花時間呀...)牲蜀,而是看到好多大神,尤其是國外的氮墨,都在貢獻(xiàn)自己的知識纺蛆,我被他們的精神感染了,也想自己貢獻(xiàn)些東西规揪!
大數(shù)據(jù)相關(guān)工作分類
大體可分為四種:
- 運維
- 平臺開發(fā)
- 數(shù)據(jù)分析
- 數(shù)據(jù)科學(xué)家
其中桥氏,平臺開發(fā)(大數(shù)據(jù)工程師),基本是結(jié)合公司業(yè)務(wù)場景及需求猛铅,以現(xiàn)已開源的大數(shù)據(jù)組件為基礎(chǔ)字支,打造公司自己的大數(shù)據(jù)平臺;數(shù)據(jù)分析則是運用公司的平臺奸忽,在其之上做些報表和數(shù)據(jù)變現(xiàn)(聽師兄說大公司將平臺封裝的很好堕伪,基本上都是敲SQL);至于運維栗菜,自然是為前兩者提供集群支持欠雌,如資源分配,組件配置優(yōu)化等疙筹。
在這三者之上便是數(shù)據(jù)科學(xué)家啦富俄!之前通過知乎Live得知,這里的數(shù)據(jù)科學(xué)家和大家傳統(tǒng)理解的科學(xué)家不一樣腌歉,就只是一個職業(yè)稱呼蛙酪。引用知乎上北冥承海生的話:
數(shù)據(jù)科學(xué)家是指能采用科學(xué)的方法論,調(diào)動充足的計算能力翘盖,將大量人類無法處理的數(shù)據(jù)轉(zhuǎn)化成有用的信息,以驅(qū)動自動化業(yè)務(wù)決策的專家凹蜂。
其中科學(xué)的方法論指的是堅實的理論基礎(chǔ)馍驯;大量的數(shù)據(jù)指如行為日志這種海量數(shù)據(jù);自動化業(yè)務(wù)決策是數(shù)據(jù)科學(xué)家的核心工作玛痊,體現(xiàn)數(shù)據(jù)優(yōu)先與經(jīng)驗汰瘫,計算優(yōu)先于人工的價值觀。
理論基礎(chǔ)方面擂煞,北冥承海生推薦了幾本書:
- 機(jī)器學(xué)習(xí):PRML混弥、Deep Learning
- 最優(yōu)化:Convex Optimization、Numerical Optimization
- 分布式計算:Hadoop/Spark各種書籍和MOOC
其中对省,最優(yōu)化好像很重要蝗拿,因為這些平時遇到的問題,其本質(zhì)好像都可以歸為一個優(yōu)化問題蒿涎,更一般的描述是求一個條件極值哀托。
至于將實際問題建成數(shù)學(xué)模型,及對已知的問題提供現(xiàn)在未知的解決方法劳秋,北冥承海生說在學(xué)校是學(xué)不到的仓手,需要一個大神級mentor悉心指導(dǎo)和經(jīng)歷大量的工程實踐...做到這個就能年薪百萬啦胖齐!當(dāng)然,錢不錢的無所謂嗽冒,更重要的是呀伙,這不是搬磚,這是人類創(chuàng)造力的體現(xiàn)添坊!在此之上更高級的創(chuàng)造剿另,我想可能是:導(dǎo)向世界(不光人類)需求,體察潛在需求帅腌,甚至創(chuàng)造需求驰弄!
一激動就扯遠(yuǎn)了,回歸正題速客。當(dāng)前大數(shù)據(jù)行業(yè)缺口巨大戚篙,有興趣的朋友也可以看看下面的文章,寫得比較務(wù)實溺职。
通向大數(shù)據(jù)的巴別塔:這個完整詳細(xì)的套路是否適合你岔擂?