譯文來源:Becoming a Data Scientist - Curriculum via Metromap
Swami Chandrasekaran 整理并設計了一張如何成為數(shù)據(jù)科學家的學習線路圖剩檀,其中包含了各種領(lǐng)域及其主要技術(shù)憋沿,如果你想朝這個方向發(fā)展,這張圖就很值得參考沪猴。
數(shù)據(jù)科學辐啄,機器學習甥绿,大數(shù)據(jù)分析,認知計算等相關(guān)主題的文章则披、介紹所需技術(shù)的信息圖和各色觀點共缕,早已鋪天蓋地的向我們涌來;但顯然有一件事是肯定的——數(shù)據(jù)科學家不是一夜之間煉成的士复,這是一個富有挑戰(zhàn)的過程图谷。那么你可能會問,究竟如何成為一名數(shù)據(jù)科學家阱洪?從哪里開始便贵?又如何知道自己快要抵達終點了?有沒有一個具體的學習線路圖冗荸?有哪些工具和技術(shù)是我應該掌握的承璃?怎樣才能知道我已經(jīng)實現(xiàn)了這個目標?
盡管可視化是數(shù)據(jù)科學中相當重要的一環(huán)蚌本,可笑的是我卻沒能找到一個真正實用的展現(xiàn)如何成為一名數(shù)據(jù)科學家的可視化圖表盔粹。所以我自己嘗試著建立了一個大家可以在成為數(shù)據(jù)科學家的旅程上使用的學習清單,靈感來源于地鐵線路圖程癌,因為正好可以用來表示我總結(jié)歸納出來的學習進階路線舷嗡,分別包括了一下幾個領(lǐng)域的內(nèi)容:
- 基礎知識
- 統(tǒng)計
- 編程
- 機器學習
- 文本挖掘/自然語言處理
- 數(shù)據(jù)可視化
- 大數(shù)據(jù)
- 獲取及導入數(shù)據(jù)(Data Ingestion)
- 數(shù)據(jù)清洗(Data Munging)
- 工具
每一條地鐵線路都是一個領(lǐng)域,而地鐵線上的每個站都是領(lǐng)域中的一個主題嵌莉,且這些主題是按照“必學-應該掌握-需要理解”的層級排布的进萄。當你想選擇一個領(lǐng)域開始學習時,就從起點出發(fā)锐峭,一個個主題進階地學習中鼠,直到到達該路線的終點,或轉(zhuǎn)換到下一條路線去學習另一個領(lǐng)域的內(nèi)容沿癞。我有意給這些地鐵線(領(lǐng)域)分配了1-10的序號援雇,這樣你就知道學習的順序是什么。如果你是一個初學者抛寝,不妨將這張圖作為個人的學習計劃熊杨,并從中發(fā)掘自己最感興趣的曙旭,想要發(fā)展的領(lǐng)域和方向及其所需的技能盗舰。
這張圖里列舉的軟件及工具都是以開源的為主,因為我希望盡可能避免加入商業(yè)性工具桂躏。當然如果你自己擁有一些商用工具钻趋,比如 IBM SPSS 或 SAS Enterprise Miner,你也完全可以使用這些軟件來代替圖中的開源軟件剂习。
譯后記:原文末尾作者提到蛮位,如果時間允許會考慮把這幅圖利用D3.js或InfoVis轉(zhuǎn)化為交互型圖表较沪。鑒于圖中含有大量英文,等時間充裕時我也會爭取把圖片翻譯重制失仁,或是制作中文版的交互可視圖尸曼。但由于圖中多數(shù)是專有名詞或工具名,即使不翻譯較易理解或者不宜翻譯成中文萄焦,相信英文版也不會太影響使用控轿,故暫不作翻譯。