數(shù)據(jù)科學家的修煉之道體系篇

寫在年末柴罐』崭浚看了一本《數(shù)據(jù)科學家修煉之道》,想想自己還有許多不足革屠,新的一年即將到來凿试,為自己立下flag排宰。全書大而雜,結(jié)合自身實際情況總結(jié)了一下那婉。

【數(shù)據(jù)科學家】采用科學方法板甘,運用數(shù)據(jù)挖掘工具尋找新的數(shù)據(jù)洞察力的工程師,他們往往集技術(shù)專家和數(shù)據(jù)分析師的角色于一身详炬。

數(shù)據(jù)科學誕生了超過20年的歷史盐类,第一次是在1996年IFCS發(fā)表的《數(shù)據(jù)科學分類以及相關(guān)方法》,直到最近才起飛呛谜,源于相關(guān)技術(shù)的發(fā)展(并行計算在跳、智能數(shù)據(jù)分析方法和低成本的強大計算能力)。

數(shù)據(jù)科學的韋恩圖

每個行業(yè)的從業(yè)者都會表現(xiàn)出不同的特質(zhì),就比如數(shù)學家思維縝密象浑,小說家天馬行空,企業(yè)家勇于冒險積極進取.

1.好奇心琅豆。數(shù)據(jù)科學家總是自然地被周圍的數(shù)據(jù)現(xiàn)象所吸引愉豺,挖掘細節(jié),并不斷探索茫因,想要觸及它們的全部蚪拦。能快速學習,用來解決實際問題冻押。
2.溝通能力驰贷。數(shù)據(jù)科學是交叉學科,與各領(lǐng)域緊密相連洛巢,這種交叉性就會在工作中的組織的大量聯(lián)系和合作中體現(xiàn)出來括袒。數(shù)據(jù)科學家善于團隊合作,不僅需要能傳達他人的成果稿茉,同時也要清楚了解各種問題锹锰,并展開富有建設(shè)性的對話來解決他所承擔的項目中的各種問題芥炭。
3.創(chuàng)造力和系統(tǒng)性工作。數(shù)據(jù)科學家在他所參與的設(shè)計及其他創(chuàng)造性的工作中扮演著類似藝術(shù)家的角色恃慧。不局限于方法論的框架中园蝠,而是與實際問題結(jié)合來建立模型,靈活地處理特定問題痢士,甚至創(chuàng)造新的方法彪薛。

  • 數(shù)據(jù)科學家的技術(shù)資質(zhì)

扎實的技術(shù)資質(zhì)是進入某個領(lǐng)域前必不可少的。

1.綜合編程能力怠蹂。至少要熟悉一種面向?qū)ο缶幊陶Z言善延,JAVA、C++/C#褥蚯、python挚冤。SQL(結(jié)構(gòu)化查詢語言)也是必須的。
2.科學背景赞庶。在技術(shù)領(lǐng)域至少有一個碩士學位(通常是計算機科學训挡、統(tǒng)計、數(shù)學歧强、管理科學與工程澜薄,或其他相關(guān)專業(yè))。對各種高級分析技巧的扎實的理論理解和實際的專業(yè)知識同樣是科學背景的組成部分摊册。包括但不限于數(shù)據(jù)挖掘肤京、機器學習以及預(yù)測分析。
3.專業(yè)化知識茅特。足夠了解一些數(shù)據(jù)分析工具R忘分、Matlab、SPSS白修、SAS等妒峦。大數(shù)據(jù)存儲架構(gòu)的經(jīng)驗,像Hadoop兵睛、Spark肯骇、大規(guī)模分布式數(shù)據(jù)庫等∽婧埽可視化笛丙、大規(guī)模數(shù)據(jù)處理、用戶建模也是需要去熟悉的假颇。
4.經(jīng)驗胚鸯。有企業(yè)經(jīng)驗和學術(shù)經(jīng)驗。有企業(yè)經(jīng)驗最好拆融,畢竟在學術(shù)上的研究最終要用到企業(yè)的生產(chǎn)環(huán)境中蠢琳。學術(shù)上一般是研究生啊终,可以參加數(shù)據(jù)科學競賽或者研究課題,找相關(guān)的實習也能增加企業(yè)經(jīng)驗傲须。

  • 數(shù)據(jù)科學家的工作

該書這部分講的有點亂蓝牲,但還是有道理可循。主要還是參考CRISP-DM的流程泰讽。


最后例衍,數(shù)據(jù)科學家和數(shù)據(jù)分析師的區(qū)別。主要還是一個運用數(shù)據(jù)挖掘的方法已卸,一個運用統(tǒng)計學的方法佛玄。具體數(shù)據(jù)挖掘和數(shù)據(jù)分析的區(qū)別考試的時候都背過了,不寫了累澡,手酸@-@明天繼續(xù)技能篇梦抢。
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市愧哟,隨后出現(xiàn)的幾起案子奥吩,更是在濱河造成了極大的恐慌,老刑警劉巖蕊梧,帶你破解...
    沈念sama閱讀 222,627評論 6 517
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件霞赫,死亡現(xiàn)場離奇詭異,居然都是意外死亡肥矢,警方通過查閱死者的電腦和手機端衰,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 95,180評論 3 399
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來甘改,“玉大人旅东,你說我怎么就攤上這事∈” “怎么了玉锌?”我有些...
    開封第一講書人閱讀 169,346評論 0 362
  • 文/不壞的土叔 我叫張陵,是天一觀的道長疟羹。 經(jīng)常有香客問我,道長禀倔,這世上最難降的妖魔是什么榄融? 我笑而不...
    開封第一講書人閱讀 60,097評論 1 300
  • 正文 為了忘掉前任,我火速辦了婚禮救湖,結(jié)果婚禮上愧杯,老公的妹妹穿的比我還像新娘。我一直安慰自己鞋既,他們只是感情好力九,可當我...
    茶點故事閱讀 69,100評論 6 398
  • 文/花漫 我一把揭開白布耍铜。 她就那樣靜靜地躺著,像睡著了一般跌前。 火紅的嫁衣襯著肌膚如雪棕兼。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,696評論 1 312
  • 那天抵乓,我揣著相機與錄音伴挚,去河邊找鬼。 笑死灾炭,一個胖子當著我的面吹牛茎芋,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播蜈出,決...
    沈念sama閱讀 41,165評論 3 422
  • 文/蒼蘭香墨 我猛地睜開眼田弥,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了铡原?” 一聲冷哼從身側(cè)響起偷厦,我...
    開封第一講書人閱讀 40,108評論 0 277
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎眷蜈,沒想到半個月后沪哺,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,646評論 1 319
  • 正文 獨居荒郊野嶺守林人離奇死亡酌儒,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 38,709評論 3 342
  • 正文 我和宋清朗相戀三年辜妓,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片忌怎。...
    茶點故事閱讀 40,861評論 1 353
  • 序言:一個原本活蹦亂跳的男人離奇死亡籍滴,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出榴啸,到底是詐尸還是另有隱情孽惰,我是刑警寧澤,帶...
    沈念sama閱讀 36,527評論 5 351
  • 正文 年R本政府宣布鸥印,位于F島的核電站勋功,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏库说。R本人自食惡果不足惜狂鞋,卻給世界環(huán)境...
    茶點故事閱讀 42,196評論 3 336
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望潜的。 院中可真熱鬧骚揍,春花似錦、人聲如沸啰挪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,698評論 0 25
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至抽活,卻和暖如春硫戈,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背酌壕。 一陣腳步聲響...
    開封第一講書人閱讀 33,804評論 1 274
  • 我被黑心中介騙來泰國打工掏愁, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人卵牍。 一個月前我還...
    沈念sama閱讀 49,287評論 3 379
  • 正文 我出身青樓果港,卻偏偏與公主長得像,于是被迫代替她去往敵國和親糊昙。 傳聞我的和親對象是個殘疾皇子辛掠,可洞房花燭夜當晚...
    茶點故事閱讀 45,860評論 2 361

推薦閱讀更多精彩內(nèi)容