大數據應用領域與關鍵技術

最近開始介入數據資產建設工作。要成為數據領域的專家甚至高級專家,必須搞清楚大數據的應用方向,核心技術問題和解決方案亥曹。

數據的應用方向都有哪些?

  • BI報表
  • 商業(yè)/投資/經濟分析
  • 金融風控
  • 系統(tǒng)安全
  • 用戶畫像
  • 相關推薦
  • 其它機器學習任務上游

主要用到的技術恨诱,解決的問題

ETL:數據摸底媳瞪、補全、清洗照宝、歸一化蛇受、標準化
數倉建模:三層數倉、維度模型
數據挖掘:等同厕鹃、相似兢仰、相關、分類剂碴、聚類把将、預測、打標忆矛。以及其它通過數據驗證假設的過程察蹲。
機器學習:分類请垛、預測、聚類洽议、生成宗收,NLP、CV亚兄、Speech
用戶畫像:通過用戶行為混稽,計算用戶標簽。
數據立方:將指標在各種維度組合下的值提前計算好审胚,形成數據立方匈勋。供分析引擎使用。
在線分析引擎
可視化

核心技術棧對照表:

應用 ETL 數倉建模 數據挖掘 機器學習 用戶畫像 數據立方 在線分析引擎 可視化
BI報表 V V V V V
商業(yè)分析 V V V V V
金融風控 V V V V V
系統(tǒng)安全 V V V V V V
用戶畫像 V V V
相關推薦 V V V
機器學習上游 V V V

ETL核心技術

通常ETL邏輯是數據挖掘的一部分菲盾。
這一步的作用是完成數據預處理颓影,定義數據規(guī)范,完成數據歸一化懒鉴、標準化。提升數據質量碎浇,發(fā)現并處理異常數據临谱。

數倉建模核心技術

根據對領域業(yè)務的理解,使用維度表與事實表完成對領域的建模奴璃。搜索:數倉建模悉默,維度模型

數據挖掘核心技術

  • 等同:hash、skip_hash苟穆、歸一化(依賴)抄课、標準化(依賴)
  • 相似:simhash(文本)、phash(圖片)雳旅、 歐氏距離跟磨、余弦距離
  • 相關:相關系數、歐氏距離攒盈、余弦距離
  • 關系推斷:圖計算

如下部分依賴機器學習:

  • 聚類
  • 預測
  • 打標

機器學習核心技術

大數據領域常用機器學習問題:

  • 聚類
  • 回歸
  • 分類

大數據領域常用機器學習領域:

  • NLP:用于分析文本數據
  • CV:用于分析圖片抵拘、視頻

用戶畫像核心技術

  • 參考google用戶畫像論文

數據立方

  • 搜索數據立方的計算

在線分析引擎與可視化

  • 搜索rolap, molap
  • 搜索可視化引擎
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市型豁,隨后出現的幾起案子僵蛛,更是在濱河造成了極大的恐慌,老刑警劉巖迎变,帶你破解...
    沈念sama閱讀 206,482評論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件充尉,死亡現場離奇詭異,居然都是意外死亡衣形,警方通過查閱死者的電腦和手機驼侠,發(fā)現死者居然都...
    沈念sama閱讀 88,377評論 2 382
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人泪电,你說我怎么就攤上這事般妙。” “怎么了相速?”我有些...
    開封第一講書人閱讀 152,762評論 0 342
  • 文/不壞的土叔 我叫張陵碟渺,是天一觀的道長。 經常有香客問我突诬,道長苫拍,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 55,273評論 1 279
  • 正文 為了忘掉前任旺隙,我火速辦了婚禮绒极,結果婚禮上,老公的妹妹穿的比我還像新娘蔬捷。我一直安慰自己垄提,他們只是感情好,可當我...
    茶點故事閱讀 64,289評論 5 373
  • 文/花漫 我一把揭開白布周拐。 她就那樣靜靜地躺著铡俐,像睡著了一般。 火紅的嫁衣襯著肌膚如雪妥粟。 梳的紋絲不亂的頭發(fā)上审丘,一...
    開封第一講書人閱讀 49,046評論 1 285
  • 那天,我揣著相機與錄音勾给,去河邊找鬼滩报。 笑死,一個胖子當著我的面吹牛播急,可吹牛的內容都是我干的脓钾。 我是一名探鬼主播,決...
    沈念sama閱讀 38,351評論 3 400
  • 文/蒼蘭香墨 我猛地睜開眼旅择,長吁一口氣:“原來是場噩夢啊……” “哼惭笑!你這毒婦竟也來了?” 一聲冷哼從身側響起生真,我...
    開封第一講書人閱讀 36,988評論 0 259
  • 序言:老撾萬榮一對情侶失蹤沉噩,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后柱蟀,有當地人在樹林里發(fā)現了一具尸體川蒙,經...
    沈念sama閱讀 43,476評論 1 300
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 35,948評論 2 324
  • 正文 我和宋清朗相戀三年长已,在試婚紗的時候發(fā)現自己被綠了畜眨。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片昼牛。...
    茶點故事閱讀 38,064評論 1 333
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖康聂,靈堂內的尸體忽然破棺而出贰健,到底是詐尸還是另有隱情,我是刑警寧澤恬汁,帶...
    沈念sama閱讀 33,712評論 4 323
  • 正文 年R本政府宣布伶椿,位于F島的核電站,受9級特大地震影響氓侧,放射性物質發(fā)生泄漏脊另。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點故事閱讀 39,261評論 3 307
  • 文/蒙蒙 一约巷、第九天 我趴在偏房一處隱蔽的房頂上張望偎痛。 院中可真熱鬧,春花似錦独郎、人聲如沸踩麦。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,264評論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽靖榕。三九已至,卻和暖如春顽铸,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背料皇。 一陣腳步聲響...
    開封第一講書人閱讀 31,486評論 1 262
  • 我被黑心中介騙來泰國打工谓松, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人践剂。 一個月前我還...
    沈念sama閱讀 45,511評論 2 354
  • 正文 我出身青樓鬼譬,卻偏偏與公主長得像,于是被迫代替她去往敵國和親逊脯。 傳聞我的和親對象是個殘疾皇子优质,可洞房花燭夜當晚...
    茶點故事閱讀 42,802評論 2 345

推薦閱讀更多精彩內容

  • 1 知識圖譜構建技術 本節(jié)首先給出知識圖譜的技術地圖匕争,然后介紹知識圖譜構建的關鍵技術避乏,包括關系抽取技術、知識融合技...
    達微閱讀 33,577評論 2 32
  • 大數據技術甘桑,就是從各種類型的數據中快速獲得有價值信息的技術拍皮。大數據領域已經涌現出了大量新的技術歹叮,它們成為大數據采集...
    change_8b6a閱讀 12,287評論 0 1
  • 久違的晴天,家長會铆帽。 家長大會開好到教室時咆耿,離放學已經沒多少時間了。班主任說已經安排了三個家長分享經驗爹橱。 放學鈴聲...
    飄雪兒5閱讀 7,494評論 16 22
  • 今天感恩節(jié)哎萨螺,感謝一直在我身邊的親朋好友。感恩相遇宅荤!感恩不離不棄屑迂。 中午開了第一次的黨會,身份的轉變要...
    迷月閃星情閱讀 10,551評論 0 11
  • 可愛進取冯键,孤獨成精惹盼。努力飛翔,天堂翱翔惫确。戰(zhàn)爭美好手报,孤獨進取。膽大飛翔改化,成就輝煌掩蛤。努力進取,遙望陈肛,和諧家園揍鸟。可愛游走...
    趙原野閱讀 2,716評論 1 1