最近開始介入數據資產建設工作。要成為數據領域的專家甚至高級專家,必須搞清楚大數據的應用方向,核心技術問題和解決方案亥曹。
數據的應用方向都有哪些?
- BI報表
- 商業(yè)/投資/經濟分析
- 金融風控
- 系統(tǒng)安全
- 用戶畫像
- 相關推薦
- 其它機器學習任務上游
主要用到的技術恨诱,解決的問題
ETL:數據摸底媳瞪、補全、清洗照宝、歸一化蛇受、標準化
數倉建模:三層數倉、維度模型
數據挖掘:等同厕鹃、相似兢仰、相關、分類剂碴、聚類把将、預測、打標忆矛。以及其它通過數據驗證假設的過程察蹲。
機器學習:分類请垛、預測、聚類洽议、生成宗收,NLP、CV亚兄、Speech
用戶畫像:通過用戶行為混稽,計算用戶標簽。
數據立方:將指標在各種維度組合下的值提前計算好审胚,形成數據立方匈勋。供分析引擎使用。
在線分析引擎
可視化
核心技術棧對照表:
應用 | ETL | 數倉建模 | 數據挖掘 | 機器學習 | 用戶畫像 | 數據立方 | 在線分析引擎 | 可視化 |
---|---|---|---|---|---|---|---|---|
BI報表 | V | V | V | V | V | |||
商業(yè)分析 | V | V | V | V | V | |||
金融風控 | V | V | V | V | V | |||
系統(tǒng)安全 | V | V | V | V | V | V | ||
用戶畫像 | V | V | V | |||||
相關推薦 | V | V | V | |||||
機器學習上游 | V | V | V |
ETL核心技術
通常ETL邏輯是數據挖掘的一部分菲盾。
這一步的作用是完成數據預處理颓影,定義數據規(guī)范,完成數據歸一化懒鉴、標準化。提升數據質量碎浇,發(fā)現并處理異常數據临谱。
數倉建模核心技術
根據對領域業(yè)務的理解,使用維度表與事實表完成對領域的建模奴璃。搜索:數倉建模悉默,維度模型
數據挖掘核心技術
- 等同:hash、skip_hash苟穆、歸一化(依賴)抄课、標準化(依賴)
- 相似:simhash(文本)、phash(圖片)雳旅、 歐氏距離跟磨、余弦距離
- 相關:相關系數、歐氏距離攒盈、余弦距離
- 關系推斷:圖計算
如下部分依賴機器學習:
- 聚類
- 預測
- 打標
機器學習核心技術
大數據領域常用機器學習問題:
- 聚類
- 回歸
- 分類
大數據領域常用機器學習領域:
- NLP:用于分析文本數據
- CV:用于分析圖片抵拘、視頻
用戶畫像核心技術
- 參考google用戶畫像論文
數據立方
- 搜索數據立方的計算
在線分析引擎與可視化
- 搜索rolap, molap
- 搜索可視化引擎