阿海與蝸牛 - 簡書

IP屬地：吉林

從Kylin入門到大數(shù)據(jù)老司機
一糠溜、UML基礎(chǔ) 為什么要使用UML 對象是面向?qū)ο笫澜绲暮诵奶衫浴Ｃ嫦驅(qū)ο筌浖治龊驮O(shè)計雷厂，最基本的需求是高效的識別對象,完成對象識別之后斜棚，賦予每個對...

0.2 1557 0 1
開源數(shù)據(jù)流管道-Luigi vs Azkaban vs Oozie vs Airflow
隨著企業(yè)的發(fā)展顷编，他們的工作流程變得更加復雜堕义，越來越多的有著錯綜復雜依賴關(guān)系的工作流需要增加監(jiān)控上陕，故障排除扬跋。如果沒有明確的血緣關(guān)系阶捆。就可能出現(xiàn)問責...

0.6 11207 0 5

由一條SQL分析SparkSQL執(zhí)行過程（三）
對于下面一段SQL 在由一條SQL分析SparkSQL執(zhí)行過程（二）中，我們分析到Spark如何封裝SessionState钦听，使得用戶只需要通過...

1.0 3787 0 9
由一條SQL分析SparkSQL執(zhí)行過程（二）
對于下面一段SQL 在上一部分洒试，我們分析了SparkSQL的建議執(zhí)行流程圖。我們知道一條SQL在Spark執(zhí)行要經(jīng)歷以下幾步：用戶提交SQL文...

1.2 6444 3 12
由一條SQL分析SparkSQL執(zhí)行流程(一)
現(xiàn)有下面這段SQL語句這段SQL是從日志表中拿出用戶點擊PV（clk_pv）朴上，再去和用戶表關(guān)聯(lián)垒棋，按照用戶分組，再對點擊pv求和痪宰，同時叼架，還過濾了...

0.7 2617 1 9
根據(jù)分子運動預測雙色球走勢（三）-數(shù)據(jù)清洗和機器學習
一、問題在爬取到雙色球開獎的歷史數(shù)據(jù)和開獎當日20-22點的氣候數(shù)據(jù)之后酵镜，我們面臨的問題是：選擇什么樣的算法尋找天氣數(shù)據(jù)和雙色球開獎結(jié)果的關(guān)...

2684 1 0
Spark On ElasticSearch初探
一碉碉、寫在前面 ElasticSearch 是一個快速索引檢索的庫。在實踐中淮韭，我們用Hbase 存儲海量業(yè)務數(shù)據(jù)垢粮，再通過ES存儲索引，以這種相互結(jié)...

1566 0 4

Hbase-Spark BulkLoad 解析
一靠粪、背景項目中有需求蜡吧，要頻繁地、快速地向一個表中初始化數(shù)據(jù)占键。因此如何加載數(shù)據(jù)昔善，如何提高速度是需要解決的問題。一般來說畔乙，作為數(shù)據(jù)存儲系統(tǒng)會分為檢...

0.1 2380 0 2
Scala爬蟲刷博客閱讀量
一君仆、寫在前面最近嘗試在簡書上寫一些技術(shù)博客。每天看著可憐的閱讀量很是著急。剛好最近接觸爬蟲返咱，有需求就有辦法钥庇。因此想到能否用爬蟲刷閱讀量呢？答案...

1640 1 2