Zacharias Voulgaris 弗格里斯
完全不值得購(gòu)買(mǎi),內(nèi)容單薄赌厅。對(duì)于一點(diǎn)都不了解的人穷绵,或許還是能起到一點(diǎn)指導(dǎo)作用。里面提到了許多數(shù)據(jù)科學(xué)家需要知識(shí)技能特愿、軟件技能仲墨、學(xué)習(xí)資源,可以收集起來(lái)揍障,后續(xù)慢慢學(xué)習(xí)目养。
第1章 數(shù)據(jù)科學(xué)與大數(shù)據(jù)
- 大數(shù)據(jù)是一個(gè)最近發(fā)生的現(xiàn)象,具有大規(guī)模的數(shù)據(jù)毒嫡、快速移動(dòng)癌蚁、各種各樣的從結(jié)構(gòu)化到非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),以及各不相同的可靠性的特點(diǎn)兜畸。
- 四個(gè)V的維度:大體量努释,高速,多樣咬摇,精確性
第2章 數(shù)據(jù)科學(xué)的重要性
- 數(shù)據(jù)學(xué)導(dǎo)論伐蒂,2009,朱揚(yáng)勇肛鹏,熊赟
- 數(shù)據(jù)科學(xué)是黑科技能逸邦、數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)恩沛、研究專業(yè)知識(shí)的匯合
- 大數(shù)據(jù)的需求帶來(lái)了許多新的規(guī)則,改變了傳統(tǒng)的數(shù)據(jù)處理方式缕减。
- MapReduce雷客、Haddoop、高級(jí)文本分析桥狡、大數(shù)據(jù)分析語(yǔ)言(R佛纫、Pig、ECL等)总放、替代性的數(shù)據(jù)庫(kù)結(jié)構(gòu)(HBase呈宇、Cassandra、MongoDB等等)
第3章 數(shù)據(jù)科學(xué)家的類(lèi)型
- 數(shù)據(jù)開(kāi)發(fā)者:關(guān)注技術(shù)話題
- 數(shù)據(jù)研究者:擅長(zhǎng)學(xué)習(xí)新知識(shí)局雄,可以很快撿起其他的技能甥啄,擴(kuò)展技能樹(shù),根據(jù)需要快速適應(yīng)各類(lèi)職務(wù)
- 數(shù)據(jù)創(chuàng)意師:深厚的學(xué)術(shù)經(jīng)歷炬搭,擅長(zhǎng)大數(shù)據(jù)技術(shù)蜈漓。各個(gè)位置游刃有余
- 數(shù)據(jù)商務(wù)人士:擅長(zhǎng)業(yè)務(wù),最高等級(jí)宫盔,常常擔(dān)任數(shù)據(jù)科學(xué)家的管理職務(wù)
- 普適型:更加平衡
第4章 數(shù)據(jù)科學(xué)家的思維體系
- 特質(zhì):好奇融虽、樂(lè)于實(shí)驗(yàn)、系統(tǒng)性工作灼芭、創(chuàng)意有额、溝通
- 素質(zhì)和能力:
- 建模 model building
- 計(jì)劃 Plan
- 問(wèn)題解決
- 快速學(xué)習(xí)
- 適應(yīng)性
- 團(tuán)隊(duì)合作
- 變通
- 研究
- 關(guān)注細(xì)節(jié)
- 匯報(bào)
- 思維
- 創(chuàng)意、務(wù)實(shí)彼绷、自我反饋(元認(rèn)知)巍佑、不斷進(jìn)化提高
第5章 技術(shù)資質(zhì)
綜合編程能力:掌握的語(yǔ)言必須穩(wěn)健、業(yè)內(nèi)流行寄悯、可擴(kuò)展萤衰。常用的有 Java, Python, C++/C#, Perl,數(shù)據(jù)庫(kù)SQL也要了解一些猜旬。面向?qū)ο?/p>
-
科學(xué)背景:需要熟悉以下幾點(diǎn)
- 辨別何時(shí)采用何種工具
- 微調(diào)所需工具脆栋,自定義成解決問(wèn)題的樣式
- 知道如何處理工具所產(chǎn)生的結(jié)果
- 思考解決問(wèn)題的幾個(gè)備選方案,基于所能使用的資源對(duì)其排序
-
專業(yè)化的知識(shí)
- 至少掌握:R洒擦,SPSS椿争,SAS,State中的一個(gè)秘遏,還有Matlab
- 處理大數(shù)據(jù)(TB級(jí))的經(jīng)驗(yàn)
- 可視化
- 關(guān)系型數(shù)據(jù)庫(kù)
- 用戶建模
第6章 經(jīng)驗(yàn)
- 學(xué)術(shù)圈和產(chǎn)業(yè)圈的環(huán)境有所不同丘薛〖尉梗“在企業(yè)界你最多只會(huì)被大家稱贊一年”
- 如何獲得第一桶經(jīng)驗(yàn)邦危?
- 利用 UCI 機(jī)器學(xué)習(xí)知識(shí)庫(kù)的數(shù)據(jù)進(jìn)行練習(xí) http://archive.ics.uci.edu/ml
- 參加大數(shù)據(jù)項(xiàng)目洋侨,如 www.kaggle.com 的比賽
- 找實(shí)習(xí)
- 論文的案例研究
- 數(shù)據(jù)科學(xué)團(tuán)體中做志愿者
- 追隨導(dǎo)師 www.datasciencecentral.com/group/data-science-apprenticeship
第7章 社交圈
- 在職業(yè)生涯早期幫助巨大
- 可以幫助你培養(yǎng)溝通能力,獲得相近領(lǐng)域中的技術(shù)革命
- 需要與學(xué)術(shù)界保持健康的關(guān)系
- 通過(guò)社交圈跟進(jìn)最新進(jìn)展倦蚪、結(jié)識(shí)潛在的合作伙伴
第8章 所用的軟件
- Hadoop 套件(類(lèi)似于Office希坚,包含一系列組件)
- MapReduce,google創(chuàng)建陵且,是主要組件裁僧。
- HDFS,分布式文件系統(tǒng)
- Pig慕购,針對(duì) Hadoop 的高級(jí)編程語(yǔ)言
- Hive聊疲,數(shù)據(jù)倉(cāng)庫(kù)程序
- HBase、Sqoop沪悲、Flume获洲,數(shù)據(jù)庫(kù)組件
- Mahout 函數(shù)庫(kù)
- Zookeeper,調(diào)試管理殿如、協(xié)調(diào)程序
- Storm (twitter贡珊、阿里巴巴等使用)
- topology 一般由 Java、Ruby涉馁、Python和Fancy語(yǔ)言編寫(xiě)
- SPark(UC berkely的研究者)
- 至少能處理一種面向?qū)ο笳Z(yǔ)言 如Java门岔、C++、Ruby烤送、Python寒随、C#
- 熟悉流行的分析工具:R、Matlab帮坚、SPSS牢裳、SAS、State
- 可視化:Tableau
- 集成大數(shù)據(jù)系統(tǒng)叶沛,如IBM的BigInsigts
- 其他:Git蒲讯、Eclips
第9章 學(xué)習(xí)新知與解決問(wèn)題
- Workshop:為了確保你能夠找到真正合適的研討會(huì),先寫(xiě)一個(gè)你想學(xué)和所需要技能和知識(shí)的列表灰署,再去搜索判帮。
- 會(huì)議
- MOOC 推薦
- 機(jī)器學(xué)習(xí)-斯坦福大學(xué)-Andrew Ng教授 Coursera,最好的課程之一
- 數(shù)據(jù)分析-約翰霍普金斯大學(xué)溉箕,R語(yǔ)言
- 數(shù)據(jù)科學(xué)導(dǎo)論-華盛頓大學(xué)晦墙,Python 2.7、R肴茄、SQL
- 機(jī)器學(xué)習(xí)-華盛頓大學(xué)
第10章 機(jī)器學(xué)習(xí)與R語(yǔ)言平臺(tái)
- 機(jī)器學(xué)習(xí)相關(guān)
- Richard Duda 模式分類(lèi) Pattern Classification
以下這些都沒(méi)有什么價(jià)值
第11章 數(shù)據(jù)科學(xué)的處理流程
第12章 所需的具體技能
第13章 數(shù)據(jù)科學(xué)職位哪家尋
第14章 自我展示
第15章 自由職業(yè)數(shù)據(jù)科學(xué)家之路
第16章 職業(yè)數(shù)據(jù)科學(xué)家的案例學(xué)習(xí)
第17章 資深數(shù)據(jù)科學(xué)家案例學(xué)習(xí)
第18章 新數(shù)據(jù)科學(xué)家的召喚