大數據課程網上有很多資料,小編整理了一些有關數據分析師的一些基本工作內容什乙,同時推薦了一份擇業(yè)指南,科多大數據和你一起來看看吧已球。
大數據課堂:數據分析師都干啥
數據分析師臣镣,簡單切詞為“數據”,“分析”智亮,“師”忆某。因此,獲取必要的數據阔蛉,分析這些數據弃舒,然后從數據中發(fā)現一些問題提出自己的想法,這就是一個數據分析師的基本工作內容。
自己做了數據分析師聋呢,真的覺得古語說的對苗踪,“功夫在詩外”。一名好的數據分析師削锰,接到一個需求時通铲,會更多考慮這個需求本身,包括要做的東西是什么器贩,為什么這么做颅夺,還可以怎么做,怎么去做蛹稍,關鍵點是什么吧黄。都想清楚了,才去動手做唆姐。建議任何一名數據分析人員拗慨,都能在做以前把問題想清楚,確認清楚厦酬,不要等到做完才發(fā)現自己做錯了胆描,那樣會很浪費時間。自己這方面曾犯過N多錯誤仗阅。
下面簡單談下做一名數據分析師要經歷的幾個步驟:
(1)獲取數據
獲取相關的數據昌讲,是數據分析的前提。每個企業(yè)减噪,都有自己的一套存儲機制短绸。比如淘寶,所有的數據都在HADOOP上筹裕,很多數據都要經過HADOOP醋闭,hive來獲取。因此朝卒,基礎的SQL語言是必須的证逻。具備基本SQL基礎,再學習下HIVE的細節(jié)的語法抗斤,基本就可以通過HIVE拿到很多數據了囚企。每個需求明確以后,都要根據需要瑞眼,把相關的數據獲取到龙宏,做基礎數據。
(2)數據處理
獲取數據伤疙,把數據處理成自己想要的東西银酗,是一個關鍵點。很多時候,有了數據不是完成黍特,而是分析的開始蛙讥。數據分析師最重要的工作就是把數據根據需求處理好,只有數據跟需求結合起來衅澈,才能發(fā)揮數據的價值键菱,看到需求的問題和本質所在。如果連數據都沒處理好今布,何談從數據中發(fā)現問題呢?
對于數據的處理经备,有兩種形式:
a>如果初步提取的數據是在LINUX上,建議學一門腳本語言部默,比如AWK侵蒙,或者PYTHON。如果掌握一門腳本語言傅蹂,不僅可以在LINUX系統上寫很多自動腳本來運行纷闺,會大大節(jié)省自己的時間,而且可以通過腳本語言把基礎數據處理成自己想要的任何形式份蝴,直接可以使用犁功。
b>如果數據沒有在LINUX上,那可以download婚夫,然后通過其他統計軟件來處理浸卦。個人推薦SAS或者R語言。SAS的強大案糙,不必多說限嫌。沒有SAS解決不了的問題,而且SAS也有SQL时捌,處理起來也方便怒医。R語言最近也很火,而且免費奢讨,packages越來越多稚叹,畫圖也簡單,類似Matlab拿诸。如果前期數據處理的好入录,后續(xù)只需要通過R或者SAS畫一些圖就可以了。在數據分析師的世界佳镜,按照價值排序,圖>表>文字凡桥。
大數據研究常用軟件工具與應用場景
如今蟀伸,大數據日益成為研究行業(yè)的重要研究目標。面對其高數據量、多維度與異構化的特點啊掏,以及分析方法思路的擴展蠢络,傳統統計工具已經難以應對。
工欲善其事迟蜜,必先利其器刹孔。眾多新的軟件分析工具作為深入大數據洞察研究的重要助力,也成為數據科學家所必須掌握的知識技能娜睛。
然而髓霞,現實情況的復雜性決定了并不存在解決一切問題的終極工具。實際研究過程中畦戒,需要根據實際情況靈活選擇最合適的工具(甚至多種工具組合使用)方库,才能更好的完成研究探索。
為此障斋,本文針對研究人員(非技術人員)的實際情況纵潦,介紹當前大數據研究涉及的一些主要工具軟件(因為相關軟件眾多,只介紹常用的)垃环,并進一步闡述其應用特點和適合的場景邀层,以便于研究人員能有的放矢的學習和使用。
【基礎篇】
傳統分析/商業(yè)統計
Excel遂庄、SPSS寥院、SAS 這三者對于研究人員而言并不陌生。
◆ Excel 作為電子表格軟件涧团,適合簡單統計(分組/求和等)需求只磷,由于其方便好用,功能也能滿足很多場景需要泌绣,所以實際成為研究人員最常用的軟件工具钮追。其缺點在于功能單一,且可處理數據規(guī)模邪⒙酢(這一點讓很多研究人員尤為頭疼)元媚。這兩年Excel在大數據方面(如地理可視化和網絡關系分析)上也作出了一些增強,但應用能力有限苗沧。
SPSS(SPSS Statistics)和SAS作為商業(yè)統計軟件刊棕,提供研究常用的經典統計分析(如回歸、方差待逞、因子甥角、多變量分析等)處理。
◆ SPSS 輕量识樱、易于使用嗤无,但功能相對較少震束,適合常規(guī)基本統計分析
◆ SAS 功能豐富而強大(包括繪圖能力),且支持編程擴展其分析能力当犯,適合復雜與高要求的統計性分析垢村。
上述三個軟件在面對大數據環(huán)境出現了各種不適,具體不再贅述嚎卫。但這并不代表其沒有使用價值嘉栓。如果使用傳統研究方法論分析大數據時,海量原始數據資源經過前期處理(如降維和統計匯總等)得到的中間研究結果拓诸,就很適合使用它們進行進一步研究侵佃。
數據行業(yè)從業(yè)者到底能掙多少錢
隨著大數據時代的到來,數據分析與探勘成為科技顯學恰响,各行各業(yè)對于大數據的濃厚興趣也直接反映在大數據人才的豐厚薪資中趣钱。
根據美國大數據及商業(yè)智能軟體公司 SiSense 調查研究指出1,資訊分析相關人才起薪約為年薪 5.5 萬美元胚宦,換句話說首有,相較美國大學畢業(yè)生平均年薪為 4.76 萬美元,高出 7400 美元枢劝,而最高薪的數據科學家井联,平均年薪為 13.2 萬美元,打敗一大票科技公司的高階工程師您旁,而且這個差距還在繼續(xù)拉大中烙常。
以下根據 Payscale 所提供的職位基本年薪做參考,為大家整理了四個最常見的大數據人才工作內容以及薪資范圍鹤盒。
數據分析師
這個職位大概是最常見的蚕脏,「數據分析師」指的是不同行業(yè)中,專門從事行業(yè)內數據蒐集侦锯、整理驼鞭、分析,并依據這些數據做出研究尺碰、評估的專業(yè)人員挣棕。
這類職缺通常要求應徵者有數學、統計亲桥、或是電腦科學等的相關學位跟背景洛心,最常見的工作技能要求是 SQL、R题篷、SAS词身、SPSS、Excel番枚,以及隨著需要處理的數據量日漸龐大偿枕,Hadoop 也被許多公司列為必備的基本條件之一璧瞬。
美國地區(qū)數據科學家的年薪大約在 $36,139 到 $77,696 美元之間(約等于年薪臺幣 110 萬到 240 萬),中間值大約是 $51,224 美元(臺幣 160 萬)渐夸。擁有統計分析、數據建模(Data modeling)以及 SAS 等技能的應徵者一般來說更有機會得到高薪渔欢。
數據科學家
被《哈佛商業(yè)評論》譽為「21 世紀最性感工作」的數據科學家可以說是數據分析師的進化版墓塌。
兩者的分別可以從職稱的不同看出端倪:數據「分析師」統計分析數據作為評估基準來設計行銷方案時,數據「科學家」則是把心力放在設計分析數據的演算法奥额,提出不同的理論來測試這些結論苫幢,最后建立統計模型來判斷消費者行為、找出最關鍵的行為誘發(fā)因子垫挨。
因此數據科學家需要具備程式開發(fā)的能力韩肝,例如 Java 或 Python,而且對機器學習(Machine Learning)領域有所了解九榔。
美國地區(qū)的數據科學家年薪大約落在 $63,192 到 $142,118 美元間哀峻,中間值是 $96,579 美元,幾乎是數據分析師的兩倍哲泊。
數據架構師
數據架構師要負責建立和維持公司數據儲存的技術基準剩蟀,策劃硬體和軟體的結構,確保數據儲存系統可以支持未來的數據量和分析需求切威。
數據架構師通常擁有電腦科學學位育特,并且精通數據庫相關知識,像是關聯式數據庫(Relational database)先朦、數據倉儲(Data warehouse)缰冤、以及分散式數據系統(Distributed storage system)等等。
美國地區(qū)數據架構師的薪資范圍是 $65,928 到 $147,868 美元喳魏,中間值為 $105,581 美元棉浸,以目前的趨勢來看,比起 SQL 截酷,擅長 OracleDB 的人才較容易得到高薪涮拗。
數據分析師的擇業(yè)指南
數據分析師這個職業(yè)現在越來越火爆。本文面向那些準備投身于這個行當的年輕人迂苛,在選擇怎樣的公司上給出了三條參考標準三热。它們分別是:第一點:去供職于那些利用數據分析來做市場戰(zhàn)略定位的公司;第二點:去為一個擁有著偉大想法的公司工作三幻;第三點就漾,去選擇給一家即將進入空白市場的公司
現在確實是屬于數據分析師的天下了。如果你有能力念搬,有經驗抑堡,充滿好奇心以及永不倦怠的熱情摆出,作為數據分析師的你可謂前景廣闊,有一大批公司乖乖站在你家門前掛著牌子等著你的挑選首妖。但是在評估到底去哪家公司的平臺上施展你的才華的時候偎漫,卻是有著很多考量的。即便是一個從業(yè)多年的老手也不可能在各種大小規(guī)模不一有缆,發(fā)展階段不同象踊,擁有各自的企業(yè)文化的公司待過。他們也不可能橫跨多個領域棚壁,掌握多種技術杯矩。但是,在本文中卻給出所有有志于從事數據分析師這個職業(yè)的年輕人一些經驗袖外。大體上總結一下就三點內容史隆,憑借這三點內容,你可以非常理性曼验、客觀地分析出來眼前的這家公司到底是否值得去泌射。
第一點:去供職于那些利用數據分析來做市場戰(zhàn)略定位的公司
公司想要在市場上擁有特殊的競爭優(yōu)勢,從而實現與眾不同的市場地位蚣驼,其實途徑方法都有很多種魄幕。有一些利用價格來區(qū)分自己,比如靠低價來獲取市場競爭優(yōu)勢颖杏;還有一些公司愿意通過更加優(yōu)質的產品來達到鶴立雞群的效果纯陨;更有一些人通過訂單處理進程的快慢贏得顧客的認可與忠誠,更快的配送上門服務就是很好的例證留储。
一個數據分析師應該選的這家公司翼抠,應該憑借數據學來做到自己與其他競爭對手之間的「切割」。請注意获讳,有可能數據學可以用來支持更低的價格阴颖,更優(yōu)質的產品,更快的配送速度丐膝,但是它絕對不是實現這些優(yōu)勢的主要原因量愧。直接,且主要的原因通常情況下是規(guī)模經濟造成了更低的價格帅矗,專利和品牌帶來了更加優(yōu)質的產品偎肃,自動化的技術使得配送速度提升。如果公司核心競爭力是構建在數據和分析工具上浑此,那么它會迅速跟其他競爭者拉開幾個身位累颂。
一旦這種優(yōu)勢得以建立,整個公司都會瞄準數據學發(fā)力,所有的資源都是圍繞著數據分析投入紊馏。它會更加愿意投資料饥,獲得數據領域最頂尖的人才,打造最優(yōu)秀的底層系統朱监,不斷地將最前沿的算法和計算技術推向極致岸啡,開發(fā)各種不可思議的工程產品來展現數據學的魔力。
在做市場上戰(zhàn)略區(qū)分的時候赫编,「足夠好」這個詞是絕對不能出現的凰狞。公司和數據分析師雙方都應有著足夠強烈的意愿,推動技術再往前發(fā)展一點點沛慢,永無止境地去摸索極限,并愿意承擔更多的風險达布。你每天早上起床睜眼的時候团甲,你一想到這個公司,就能興奮的一個鯉魚打挺立刻翻身下床黍聂,精神抖擻躺苦,迫不及待的開展全新一天的工作,它是一個能夠拉動提升你产还,讓你成為這個世界最優(yōu)秀人才的平臺匹厘。