筆記 | 《數(shù)據(jù)科學(xué)家修煉之道》

Zacharias Voulgaris 弗格里斯

完全不值得購(gòu)買(mǎi),內(nèi)容單薄赌厅。對(duì)于一點(diǎn)都不了解的人穷绵,或許還是能起到一點(diǎn)指導(dǎo)作用。里面提到了許多數(shù)據(jù)科學(xué)家需要知識(shí)技能特愿、軟件技能仲墨、學(xué)習(xí)資源,可以收集起來(lái)揍障,后續(xù)慢慢學(xué)習(xí)目养。

第1章 數(shù)據(jù)科學(xué)與大數(shù)據(jù)

  • 大數(shù)據(jù)是一個(gè)最近發(fā)生的現(xiàn)象,具有大規(guī)模的數(shù)據(jù)毒嫡、快速移動(dòng)癌蚁、各種各樣的從結(jié)構(gòu)化到非結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu),以及各不相同的可靠性的特點(diǎn)兜畸。
  • 四個(gè)V的維度:大體量努释,高速,多樣咬摇,精確性

第2章 數(shù)據(jù)科學(xué)的重要性

  • 數(shù)據(jù)學(xué)導(dǎo)論伐蒂,2009,朱揚(yáng)勇肛鹏,熊赟
  • 數(shù)據(jù)科學(xué)是黑科技能逸邦、數(shù)學(xué)和統(tǒng)計(jì)學(xué)知識(shí)恩沛、研究專業(yè)知識(shí)的匯合
  • 大數(shù)據(jù)的需求帶來(lái)了許多新的規(guī)則,改變了傳統(tǒng)的數(shù)據(jù)處理方式缕减。
  • MapReduce雷客、Haddoop、高級(jí)文本分析桥狡、大數(shù)據(jù)分析語(yǔ)言(R佛纫、Pig、ECL等)总放、替代性的數(shù)據(jù)庫(kù)結(jié)構(gòu)(HBase呈宇、Cassandra、MongoDB等等)

第3章 數(shù)據(jù)科學(xué)家的類(lèi)型

  • 數(shù)據(jù)開(kāi)發(fā)者:關(guān)注技術(shù)話題
  • 數(shù)據(jù)研究者:擅長(zhǎng)學(xué)習(xí)新知識(shí)局雄,可以很快撿起其他的技能甥啄,擴(kuò)展技能樹(shù),根據(jù)需要快速適應(yīng)各類(lèi)職務(wù)
  • 數(shù)據(jù)創(chuàng)意師:深厚的學(xué)術(shù)經(jīng)歷炬搭,擅長(zhǎng)大數(shù)據(jù)技術(shù)蜈漓。各個(gè)位置游刃有余
  • 數(shù)據(jù)商務(wù)人士:擅長(zhǎng)業(yè)務(wù),最高等級(jí)宫盔,常常擔(dān)任數(shù)據(jù)科學(xué)家的管理職務(wù)
  • 普適型:更加平衡

第4章 數(shù)據(jù)科學(xué)家的思維體系

  • 特質(zhì):好奇融虽、樂(lè)于實(shí)驗(yàn)、系統(tǒng)性工作灼芭、創(chuàng)意有额、溝通
  • 素質(zhì)和能力:
    • 建模 model building
    • 計(jì)劃 Plan
    • 問(wèn)題解決
    • 快速學(xué)習(xí)
    • 適應(yīng)性
    • 團(tuán)隊(duì)合作
    • 變通
  • 研究
    • 關(guān)注細(xì)節(jié)
    • 匯報(bào)
  • 思維
    • 創(chuàng)意、務(wù)實(shí)彼绷、自我反饋(元認(rèn)知)巍佑、不斷進(jìn)化提高

第5章 技術(shù)資質(zhì)

  • 綜合編程能力:掌握的語(yǔ)言必須穩(wěn)健、業(yè)內(nèi)流行寄悯、可擴(kuò)展萤衰。常用的有 Java, Python, C++/C#, Perl,數(shù)據(jù)庫(kù)SQL也要了解一些猜旬。面向?qū)ο?/p>

  • 科學(xué)背景:需要熟悉以下幾點(diǎn)

    • 辨別何時(shí)采用何種工具
    • 微調(diào)所需工具脆栋,自定義成解決問(wèn)題的樣式
    • 知道如何處理工具所產(chǎn)生的結(jié)果
    • 思考解決問(wèn)題的幾個(gè)備選方案,基于所能使用的資源對(duì)其排序
  • 專業(yè)化的知識(shí)

    • 至少掌握:R洒擦,SPSS椿争,SAS,State中的一個(gè)秘遏,還有Matlab
    • 處理大數(shù)據(jù)(TB級(jí))的經(jīng)驗(yàn)
    • 可視化
    • 關(guān)系型數(shù)據(jù)庫(kù)
    • 用戶建模

第6章 經(jīng)驗(yàn)

  • 學(xué)術(shù)圈和產(chǎn)業(yè)圈的環(huán)境有所不同丘薛〖尉梗“在企業(yè)界你最多只會(huì)被大家稱贊一年”
  • 如何獲得第一桶經(jīng)驗(yàn)邦危?

第7章 社交圈

  • 在職業(yè)生涯早期幫助巨大
  • 可以幫助你培養(yǎng)溝通能力,獲得相近領(lǐng)域中的技術(shù)革命
  • 需要與學(xué)術(shù)界保持健康的關(guān)系
  • 通過(guò)社交圈跟進(jìn)最新進(jìn)展倦蚪、結(jié)識(shí)潛在的合作伙伴

第8章 所用的軟件

  • Hadoop 套件(類(lèi)似于Office希坚,包含一系列組件)
    • MapReduce,google創(chuàng)建陵且,是主要組件裁僧。
    • HDFS,分布式文件系統(tǒng)
    • Pig慕购,針對(duì) Hadoop 的高級(jí)編程語(yǔ)言
    • Hive聊疲,數(shù)據(jù)倉(cāng)庫(kù)程序
    • HBase、Sqoop沪悲、Flume获洲,數(shù)據(jù)庫(kù)組件
    • Mahout 函數(shù)庫(kù)
    • Zookeeper,調(diào)試管理殿如、協(xié)調(diào)程序
  • Storm (twitter贡珊、阿里巴巴等使用)
    • topology 一般由 Java、Ruby涉馁、Python和Fancy語(yǔ)言編寫(xiě)
  • SPark(UC berkely的研究者)
  • 至少能處理一種面向?qū)ο笳Z(yǔ)言 如Java门岔、C++、Ruby烤送、Python寒随、C#
  • 熟悉流行的分析工具:R、Matlab帮坚、SPSS牢裳、SAS、State
  • 可視化:Tableau
  • 集成大數(shù)據(jù)系統(tǒng)叶沛,如IBM的BigInsigts
  • 其他:Git蒲讯、Eclips

第9章 學(xué)習(xí)新知與解決問(wèn)題

  • Workshop:為了確保你能夠找到真正合適的研討會(huì),先寫(xiě)一個(gè)你想學(xué)和所需要技能和知識(shí)的列表灰署,再去搜索判帮。
  • 會(huì)議
  • MOOC 推薦
    • 機(jī)器學(xué)習(xí)-斯坦福大學(xué)-Andrew Ng教授 Coursera,最好的課程之一
    • 數(shù)據(jù)分析-約翰霍普金斯大學(xué)溉箕,R語(yǔ)言
    • 數(shù)據(jù)科學(xué)導(dǎo)論-華盛頓大學(xué)晦墙,Python 2.7、R肴茄、SQL
    • 機(jī)器學(xué)習(xí)-華盛頓大學(xué)

第10章 機(jī)器學(xué)習(xí)與R語(yǔ)言平臺(tái)

  • 機(jī)器學(xué)習(xí)相關(guān)
  • Richard Duda 模式分類(lèi) Pattern Classification

以下這些都沒(méi)有什么價(jià)值

第11章 數(shù)據(jù)科學(xué)的處理流程
第12章 所需的具體技能
第13章 數(shù)據(jù)科學(xué)職位哪家尋
第14章 自我展示
第15章 自由職業(yè)數(shù)據(jù)科學(xué)家之路
第16章 職業(yè)數(shù)據(jù)科學(xué)家的案例學(xué)習(xí)
第17章 資深數(shù)據(jù)科學(xué)家案例學(xué)習(xí)
第18章 新數(shù)據(jù)科學(xué)家的召喚

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末晌畅,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子寡痰,更是在濱河造成了極大的恐慌抗楔,老刑警劉巖棋凳,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異连躏,居然都是意外死亡剩岳,警方通過(guò)查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門(mén)入热,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)拍棕,“玉大人,你說(shuō)我怎么就攤上這事勺良〈虏ィ” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵尚困,是天一觀的道長(zhǎng)幅垮。 經(jīng)常有香客問(wèn)我,道長(zhǎng)尾组,這世上最難降的妖魔是什么忙芒? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮讳侨,結(jié)果婚禮上呵萨,老公的妹妹穿的比我還像新娘。我一直安慰自己跨跨,他們只是感情好潮峦,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開(kāi)白布。 她就那樣靜靜地躺著勇婴,像睡著了一般忱嘹。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上耕渴,一...
    開(kāi)封第一講書(shū)人閱讀 52,246評(píng)論 1 308
  • 那天拘悦,我揣著相機(jī)與錄音,去河邊找鬼橱脸。 笑死础米,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的添诉。 我是一名探鬼主播屁桑,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼栏赴!你這毒婦竟也來(lái)了蘑斧?” 一聲冷哼從身側(cè)響起,我...
    開(kāi)封第一講書(shū)人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎竖瘾,沒(méi)想到半個(gè)月后沟突,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡准浴,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了捎稚。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片乐横。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖今野,靈堂內(nèi)的尸體忽然破棺而出葡公,到底是詐尸還是另有隱情,我是刑警寧澤条霜,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布催什,位于F島的核電站,受9級(jí)特大地震影響宰睡,放射性物質(zhì)發(fā)生泄漏蒲凶。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一拆内、第九天 我趴在偏房一處隱蔽的房頂上張望旋圆。 院中可真熱鬧,春花似錦麸恍、人聲如沸灵巧。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)刻肄。三九已至,卻和暖如春融欧,著一層夾襖步出監(jiān)牢的瞬間敏弃,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來(lái)泰國(guó)打工噪馏, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留权她,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓逝薪,卻偏偏與公主長(zhǎng)得像隅要,于是被迫代替她去往敵國(guó)和親。 傳聞我的和親對(duì)象是個(gè)殘疾皇子董济,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容