P.S.
+內容來源于:The Complete Guide to Landing a Career in Data [UDACITY]
(大數據行業(yè)終極職業(yè)指【優(yōu)達學城】 )
+個人自我提升的預期規(guī)劃路徑,因此只摘取所需內容羽嫡,并經過篩選整理本姥。
+可以直接看最后
基本介紹
-
核心技能
-
初級 - 數據分析師
編程、統(tǒng)計杭棵、機器學習婚惫、數據再加工、數據可視化 -
進階1 - 數據科學家
Hadoop(最常用的分布式文件系統(tǒng)處理框架)魂爪,Python先舷,R -
進階2 - 數據工程師
- 基于Hadoop的技術,例如MapReduce滓侍,Hive蒋川,Pig
- 基于SQL的技術,例如PostgreSQL和MySQL
- NoSQL技術撩笆,例如Cassandra捺球,MongDB
- 數據倉庫解決方案
-
初級 - 數據分析師
-
日常工作(簡而言之)
- 從各種數據庫缸浦、數據格式和數據來源中整理、提取氮兵、轉換和加載數據
- 使用探索性數據分析技巧從復雜的數據集中發(fā)現(xiàn)有意義的聯(lián)系裂逐、模式和趨勢
- 對無標簽的數據進行分類,或利用應用統(tǒng)計學和機器學習預測未來
- 通過有效的數據可視化圖表傳達數據分析結果泣栈。
一些訓練
-
閱讀
-
比賽(尚未確定是否需要梯子)
Kaggle
Kaggle的數據經過清洗卜高,可以專注于構建模型
Kaggle托管了大量數據集,可以在Quora話題下找到資源Hacker Rank
看著界面很干凈和好看南片,因為配色是綠色系的掺涛,嗯,就是這么不講道理铃绒。
技能分級
-
掌握編程背景知識
-
基礎知識
- 變量鸽照、控制流螺捐、循環(huán)颠悬、函數
- 調試
- 面向對象的編程:便于復用
-
高級知識
- 數據結構(優(yōu)化):堆棧、隊列定血、列表赔癌、數組、哈希圖澜沟、優(yōu)先隊列灾票、try語句和圖表。(數據結構能夠影響內存使用情況和運行時效率茫虽,便于優(yōu)化程序)
- 算法(優(yōu)化):分而治之(D&C)算法刊苍、貪婪算法、動態(tài)規(guī)劃濒析、線性規(guī)劃和圖形算法(深度與廣度遍歷正什,最小生成樹和兩個節(jié)點之間的最短路徑)
- 軟件設計模式(優(yōu)化):讓代碼穩(wěn)健、可復用号杏、可測試婴氮。
-
-
掌握數學背景知識
- 基礎知識
統(tǒng)計學:
對不同類型的分布運用正確的方法、技巧或統(tǒng)計學檢驗盾致,嚴格地解析主经、推導和比較不同類型的數據。概率學:
能夠推理事件曾經或未來發(fā)生的概率庭惜。-
高級知識
- 多元微積分/線性代數
了解多元微積分和線性代數有助于構建自己的算法罩驻。
- 多元微積分/線性代數
- 基礎知識
具體技能
編程語言:Python,R(掌握ggplot2护赊,reshape2鉴腻,numpy迷扇,pandas和scipy)
-
統(tǒng)計學:統(tǒng)計學測試,分布爽哎,最大似然估計……
-
描述統(tǒng)計:描述樣本特性的量化方式
- 基本值:均值蜓席、中位數、眾數课锌、標準差和方差厨内、假設檢驗;
- 分布:正態(tài)分布渺贤、指數/泊松分布雏胃、二項式分布、卡方分布志鞍;
- 顯著性檢驗:Z檢驗瞭亮、t檢驗、惠特尼U檢驗固棚、卡方分布统翩、方差分析
推論統(tǒng)計:根據樣本預測分析
-
統(tǒng)計學實驗設計:
- 樣本數、樣本關系此洲、對照組+實驗組厂汗、A/B test、冪次定律呜师。
- SMART實驗理念:Specific(明確)+ Measurable(可測量)+ Actionable(可行動)+ Realistic(現(xiàn)實)+ Timely(及時)
-
數學:多元微積分娶桦,線性代數
矩陣運算、點積汁汗、特征值衷畦、特征向量、多元導數
-
機器學習:
-
監(jiān)督式學習:“有標簽”的訓練集+檢驗集知牌,讓學習者發(fā)現(xiàn)規(guī)則祈争,并幫助識別檢驗集中的元素。監(jiān)督式學習能夠讓手機識別你的聲音送爸,電子郵箱過濾垃圾郵件等铛嘱。
- 工具:決策樹、樸素貝葉斯分類袭厂、普通最小二乘回歸墨吓、邏輯回歸、神經網絡纹磺、支持向量機及組合方法帖烘。
-
非監(jiān)督式學習:從給定的“無標簽”數據集中發(fā)現(xiàn)隱含關系,并得出隱藏結構橄杨。非監(jiān)督式學習能夠給你推薦喜歡的電影秘症,預測你喜歡的商品照卦。
- 工具:聚類算法、主成分分析(PCA)乡摹、奇異值分解(SVD)役耕、獨立成分分析(ICA)
-
強化學習:適用于非上述兩種情況的情形。對每個預測性步驟或操作給出某種形式的反饋聪廉,但不提供精確的標簽或誤差測定瞬痘。如機器人下棋等。
- 工具:Q學習板熊、TD學習框全、遺傳算法
-
-
數據整理(/數據挖掘):
- 數據庫系統(tǒng):PostgreSQL, mySQL, Netezza, Oracle, Hadoop, Spark, MongoDB
- 工具:正則表達式、數學變換干签、Python字符串庫津辩、解析常見文件格式(csv、xml等)容劳,通過log-10變換將非正態(tài)分布轉換為正態(tài)分布喘沿。
-
數據可視化:
- 工具:ggplot、matplotlib鸭蛙、sea born摹恨、D3.js
- 以及了解可視化編碼數據背后的原理筋岛,了解業(yè)務背景娶视。
數據直覺
相關課程
目前僅關注了UDACITY的課程,后續(xù)如果沒放棄會繼續(xù)補充睁宰。
描述統(tǒng)計學入門(中/英)
推論統(tǒng)計學入門
數據可視化與 D3.js(中/英)
機器學習入門(中/英)
[用 MongoDB 進行數據整理(中/英))(https://cn.udacity.com/course/intro-to-machine-learning--ud120]