數(shù)據(jù)數(shù)據(jù)

帖子來自：大數(shù)據(jù)社區(qū)|大數(shù)據(jù)學(xué)習(xí)交流社區(qū)|大數(shù)據(jù)免費學(xué)習(xí)資源_大數(shù)據(jù)巴士

頭像

檸檬學(xué)院大數(shù)據(jù) LV1

2016-12-6 15:28:04

樓主

大數(shù)據(jù)入門書籍（二）

　　大數(shù)據(jù)是眼下非常時髦的技術(shù)名詞思灰，自然也催生出了一些與大數(shù)據(jù)相關(guān)的職業(yè)洒疚，通過對數(shù)據(jù)的分析挖掘來影響企業(yè)的商業(yè)決策。

　　這群人被稱做數(shù)據(jù)科學(xué)家(DataScientist)拳亿，這個頭銜最早由D.J.Pati和JeffHammerbacher于2008年提出愿伴，他們后來分別成為了領(lǐng)英(LinkedIn)和Facebook數(shù)據(jù)科學(xué)團隊的負責人电湘。而數(shù)據(jù)科學(xué)家目前也已經(jīng)在美國傳統(tǒng)的電信、零售寂呛、金融、制造幻妓、物流劫拢、醫(yī)療、教育等行業(yè)里開始創(chuàng)造價值舱沧。

　　不過在國內(nèi)，大數(shù)據(jù)的應(yīng)用才處于萌芽狀態(tài)距糖，人才市場還不太成熟，每家公司對大數(shù)據(jù)工作的要求不盡相同：有的強調(diào)資料庫編程悍引、有的突出應(yīng)用數(shù)學(xué)和統(tǒng)計學(xué)知識、有的則要求有咨詢公司相關(guān)的經(jīng)驗俩块、有些是希望能找到懂得產(chǎn)品和市場的應(yīng)用型人才唬渗。正因為如此，很多公司會針對自己的業(yè)務(wù)類型和團隊分工镊逝，給這群與大數(shù)據(jù)打交道的人一些新的頭銜和定義：數(shù)據(jù)挖掘工程師、大數(shù)據(jù)專家歹啼、數(shù)據(jù)研究員座菠、用戶分析專家等都是經(jīng)常在國內(nèi)公司里出現(xiàn)的Title，我們將其統(tǒng)稱為「大數(shù)據(jù)工程師」浴滴。

　　那么如何進行大數(shù)據(jù)的入門級學(xué)習(xí)呢？首先我們需要了解大數(shù)據(jù)工程師是做什么的以及需要具備什么樣的能力微王。

　　一：大數(shù)據(jù)工程師是做什么的?

　　用一句大數(shù)據(jù)研究員的話來說品嚣，大數(shù)據(jù)工程師就是一群「玩數(shù)據(jù)」的人，玩出數(shù)據(jù)的商業(yè)價值翰撑，讓數(shù)據(jù)變成生產(chǎn)力。大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的最大區(qū)別在于涨醋，它是在線的逝撬、實時的，規(guī)模海量且形式不規(guī)整球拦，無章法可循帐我，因此「會玩」這些數(shù)據(jù)的人就很重要愧膀。

　　分析歷史、預(yù)測未來芬为、優(yōu)化選擇蟀悦，這是大數(shù)據(jù)工程師在「玩數(shù)據(jù)」時最重要的三大任務(wù)。通過這三個工作方向日戈，他們幫助企業(yè)做出更好的商業(yè)決策。

　　二：需要具備的能力

　　數(shù)學(xué)及統(tǒng)計學(xué)相關(guān)的背景

　　就采訪過的BAT三家互聯(lián)網(wǎng)大公司來說份氧，對于大數(shù)據(jù)工程師的要求都是希望有統(tǒng)計學(xué)和數(shù)學(xué)背景的碩士或博士學(xué)歷弯屈。缺乏理論背景的數(shù)據(jù)工作者，更容易進入一個技能上的危險區(qū)域(DangerZone)—一堆數(shù)字厅缺，按照不同的數(shù)據(jù)模型和演算法總能捯飭出一些結(jié)果來宴偿，但如果你不知道那代表什么，就不是真正有意義的結(jié)果酪我，并且那樣的結(jié)果還容易誤導(dǎo)你且叁。但是，有統(tǒng)計學(xué)和數(shù)據(jù)碩士和博士的能是很少的欺矫，又是學(xué)習(xí)大數(shù)據(jù)的那就更少了展氓，所以，對于現(xiàn)在的大數(shù)據(jù)從業(yè)人員遇汞，90%都沒有那么高的學(xué)位簿废，只要你能完成企業(yè)交給你的任務(wù)络它，就行了。正所謂不看學(xué)歷单料，只看能力点楼，就是這個道理。

　　電腦編碼能力

　　實際開發(fā)能力和大規(guī)模的數(shù)據(jù)處理能力是作為大數(shù)據(jù)工程師的必備要素掠廓。舉例來說，現(xiàn)在人們在社交網(wǎng)路上所產(chǎn)生的許多記錄都是非結(jié)構(gòu)化的數(shù)據(jù)狰域，如何從這些毫無頭緒的文字黄橘、語音、圖像甚至視頻中攫取有意義的信息就需要大數(shù)據(jù)工程師親自挖掘塞关。即使在某些團隊中，大數(shù)據(jù)工程師的職責以商業(yè)分析為主小压，但也要熟悉電腦處理大數(shù)據(jù)的方式椰于。

　　三：如何進行入門級學(xué)習(xí)

　　雖然數(shù)據(jù)科學(xué)并沒有一個獨立的學(xué)科體系，統(tǒng)計學(xué)瘾婿，機器學(xué)習(xí)，數(shù)據(jù)挖掘抢呆，資料庫笛谦，分散式計算，云計算饥脑，信息可視化等技術(shù)或方法都可以來對付數(shù)據(jù)懦冰。但從狹義上來看轩娶，數(shù)據(jù)科學(xué)就是解決三個問題：

　　1.datapre-processing;

　　2.datainterpretation;

　　3.datamodelingandanalysis.

　　這也就是做數(shù)據(jù)工作的三個大步驟：

　　1、原始數(shù)據(jù)要經(jīng)過一連串收集闯捎、提取许溅、清洗、整理等等的預(yù)處理過程贤重，才能形成高質(zhì)量的數(shù)據(jù);

　　2、數(shù)據(jù)「長什么樣」祭犯，有什么特點和規(guī)律;

　　3滚停、按照需要，比如要對數(shù)據(jù)貼標簽分類键畴，或者預(yù)測，或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價值的且不易發(fā)現(xiàn)的信息起惕，都要對數(shù)據(jù)建模涡贱，得到output。

　　這三個步驟未必嚴謹惹想，每個大步驟下面可能根據(jù)問題的不同也會有不同的小步驟问词，但按照這個大思路走，數(shù)據(jù)一般不會做跑偏嘀粱。

　　四：有哪些適合初學(xué)者的書籍

　　這樣看來激挪，數(shù)據(jù)科學(xué)其實就是門復(fù)合型的技術(shù)，既然是技術(shù)就從編程語言談起草穆，為了簡練灌灾，只說說R和Python搓译。但既然是推薦數(shù)據(jù)科學(xué)方面的書，就不提R/Python編程基礎(chǔ)之類的書了些己，直接說跟數(shù)據(jù)科學(xué)相關(guān)的豌鸡。

　　1：Rprogramming

　　如果只是想初步了解一下R語言已經(jīng)R在數(shù)據(jù)分析方面的應(yīng)用嘿般，那不妨就看看這兩本：

　　2：Rinaction：其實對于一個沒有任何編程基礎(chǔ)的人來說，一開始就學(xué)這本書涯冠，學(xué)習(xí)曲線可能會比較陡峭炉奴。但如果配合上一些輔助材料，如官方發(fā)布的Rbasics蛇更，stackoverflow上有tag-R的問題集(Newest『r』Questions)瞻赶，遇到復(fù)雜的問題可在上面搜索，總會找到解決方案的派任。這樣一來砸逊，用這本書拿來入門學(xué)習(xí)也問題不大。而且這本書作者寫得也比較輕松掌逛，緊貼實戰(zhàn)师逸。

　　3：DataanalysisandgraphicswithR：使用R語言做數(shù)據(jù)分析的入門書。這本書的特點也是緊貼實戰(zhàn)豆混，沒有過多地講解統(tǒng)計學(xué)理論篓像，所以喜歡通過情境應(yīng)用來學(xué)習(xí)的人應(yīng)該會喜歡這本入門書。而且這本書可讀性比較強皿伺，也就是說哪怕你手頭沒電腦寫不了代碼员辩，有事沒事拿出這本書翻一翻，也能讀得進去心傀。

　　但如果你先用R來從事實實在在的數(shù)據(jù)工作屈暗，那么上面兩本恐怕不夠，還需要這些：

　　4：ModernappliedstatisticswithS：這本書里統(tǒng)計學(xué)的理論就講得比較多了脂男，好處就是你可以用一本書既復(fù)習(xí)了統(tǒng)計學(xué)养叛，又學(xué)了R語言。(S/Splus和R的關(guān)系就類似于Unix和Linux宰翅，所以用S教程學(xué)習(xí)R弃甥，一點問題都沒有)

　　5：DatamanipulationwithR：這本書實務(wù)性很強，它教給你怎么從不同格式的原始數(shù)據(jù)文件里讀取汁讼、清洗淆攻、轉(zhuǎn)換、整合成高質(zhì)量的數(shù)據(jù)嘿架。當然和任何一本注重實戰(zhàn)的書一樣瓶珊，這本書也有豐富的真實數(shù)據(jù)和模擬數(shù)據(jù)供你練習(xí)。對于真正從事數(shù)據(jù)處理工作的人來說耸彪，這本書的內(nèi)容非常重要伞芹，因為對于任何研究，一項熟練的數(shù)據(jù)預(yù)處理技能可以幫你節(jié)省大量的時間和精力。否則唱较，你的研究總是要等待你的數(shù)據(jù)扎唾。

　　6：RGraphicsCookbook：想用R做可視化，就用這本書南缓。150多個recipes胸遇，足以應(yīng)付絕大多數(shù)類型的數(shù)據(jù)。

　　7：AnintroductiontostatisticallearningwithapplicationinR：這本書算是著名的theelementofstatisticallearning的姊妹篇汉形，后者更注重統(tǒng)計(機器)學(xué)習(xí)的模型和演算法纸镊，而前者所涉及的模型和演算法原沒有后者全面或深入，但卻是用R來學(xué)習(xí)和應(yīng)用機器學(xué)習(xí)的很好的入口概疆。

　　8：AhandbookofstatisticalanalysisusingR：這本書內(nèi)容非常扎實薄腻，很多統(tǒng)計學(xué)的學(xué)生就是用這本書來學(xué)慣用R來進行統(tǒng)計建模的。

　　9：Python

　　ThinkPython届案，ThinkStats庵楷，ThinkBayes：這是AllenB.Downey寫的著名的ThinkXseries三大卷。其實是三本精致的小冊子楣颠，如果想快速地掌握Python在統(tǒng)計方面的操作尽纽，好好閱讀這三本書，認真做習(xí)題童漩，答案鏈接在書里有弄贿。這三本書學(xué)通了，就可以上手用Python進行基本的統(tǒng)計建模了矫膨。

　　10：PythonForDataAnalysis：作者是pandas的主要開發(fā)者差凹，也正是Pandas使Python能夠像R一樣擁有dataframe的功能，能夠處理結(jié)構(gòu)比較復(fù)雜的數(shù)據(jù)侧馅。這本書其實analysis講得不多危尿，說成數(shù)據(jù)處理應(yīng)該更合適。掌握了這本書馁痴，處理各種糟心的數(shù)據(jù)就問題不大了谊娇。

　　11：IntroductiontoPythonforEconometrics,StatisticsandDataAnalysis：這本書第一章就告訴你要安裝Numpy,Scipy,Matplotlib,Pandas,IPython等等。然后接下來的十好幾章就是逐一介紹這幾個庫該怎么用罗晕。很全面济欢，但讀起來比較枯燥，可以用來當工具書小渊。

　　12：PythonDataVisualizationCookbook：用Python做可視化的教材肯定不少法褥，我看過的也就這一本，覺得還不錯酬屉。其實這類書差別都不會很大半等，咬住一本啃下來就是王道。

全部回復(fù)只看樓主倒序排列

頭像 admin 2樓

感謝樓主{author}分享！給你233個贊酱鸭！

在大數(shù)據(jù)巴士~開開心心學(xué)大數(shù)據(jù)！

2016-12-7 18:16:47

回復(fù) ?

最后編輯于：2017.12.06 02:30:11

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末垛吗，一起剝皮案震驚了整個濱河市凹髓，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌怯屉，老刑警劉巖蔚舀，帶你破解...
沈念sama閱讀 206,482評論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異锨络，居然都是意外死亡赌躺，警方通過查閱死者的電腦和手機，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,377評論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門羡儿，熙熙樓的掌柜王于貴愁眉苦臉地迎上來礼患，“玉大人，你說我怎么就攤上這事掠归∶宓” “怎么了？”我有些...
開封第一講書人閱讀 152,762評論 0贊 342
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵虏冻，是天一觀的道長肤粱。經(jīng)常有香客問我，道長厨相，這世上最難降的妖魔是什么领曼？我笑而不...
開封第一講書人閱讀 55,273評論 1贊 279
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮蛮穿，結(jié)果婚禮上庶骄，老公的妹妹穿的比我還像新娘。我一直安慰自己践磅，他們只是感情好瓢姻，可當我...
茶點故事閱讀 64,289評論 5贊 373
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著音诈，像睡著了一般幻碱。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上细溅，一...
開封第一講書人閱讀 49,046評論 1贊 285
城市分裂傳說
那天褥傍，我揣著相機與錄音，去河邊找鬼喇聊。笑死恍风，一個胖子當著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播朋贬，決...
沈念sama閱讀 38,351評論 3贊 400
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼凯楔，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了锦募？” 一聲冷哼從身側(cè)響起摆屯，我...
開封第一講書人閱讀 36,988評論 0贊 259
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎糠亩，沒想到半個月后虐骑，有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 43,476評論 1贊 300
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡赎线，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點故事閱讀 35,948評論 2贊 324
?白月光啟示錄
正文我和宋清朗相戀三年廷没，在試婚紗的時候發(fā)現(xiàn)自己被綠了。大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片垂寥。...
茶點故事閱讀 38,064評論 1贊 333
活死人
序言：一個原本活蹦亂跳的男人離奇死亡颠黎，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出滞项，到底是詐尸還是另有隱情盏缤，我是刑警寧澤，帶...
沈念sama閱讀 33,712評論 4贊 323
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布蓖扑，位于F島的核電站唉铜，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏律杠。R本人自食惡果不足惜潭流，卻給世界環(huán)境...
茶點故事閱讀 39,261評論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望柜去。院中可真熱鬧灰嫉，春花似錦、人聲如沸嗓奢。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,264評論 0贊 19
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽股耽。三九已至根盒，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間物蝙，已是汗流浹背炎滞。一陣腳步聲響...
開封第一講書人閱讀 31,486評論 1贊 262
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留诬乞，地道東北人册赛。一個月前我還...
沈念sama閱讀 45,511評論 2贊 354
代替公主和親
正文我出身青樓钠导，卻偏偏與公主長得像，于是被迫代替她去往敵國和親森瘪。傳聞我的和親對象是個殘疾皇子牡属，可洞房花燭夜當晚...
茶點故事閱讀 42,802評論 2贊 345

數(shù)據(jù)數(shù)據(jù)

推薦閱讀更多精彩內(nèi)容