阿武z - 簡書

發(fā)簡信

阿武z

7
關(guān)注
4
粉絲
7
文章
1771

字?jǐn)?shù)
20

收獲喜歡
1

總資產(chǎn)

IP屬地：北京

GoofyWang

Hive的坑
概述我們的Hive是HortonWorks提供的1.2.1哨坪，本文檔記錄下我們在使用過程中遇到的問題和解決方法。問題高并發(fā)請求時乍楚，請求報錯：Timed out wait...

6826 1 3
haitaoyao

計算資源調(diào)度
數(shù)據(jù)平臺會用很多計算資源, 一臺算不了就要分布式, 因此需要一個計算資源調(diào)度的服務(wù). "江河日下"的 Yarn 作為一個經(jīng)常跟 Hadoop 生態(tài)打交道的數(shù)據(jù)工程師, 首先逃...

2973 0 2
祝威廉

如何實(shí)現(xiàn)AutoML--讓機(jī)器先做出Baseline
前言我之前寫過一篇如何實(shí)現(xiàn)AutoML -- 先Auto每個環(huán)節(jié),大致思路是讓機(jī)器先自動化每一個小環(huán)節(jié)当编，每個環(huán)節(jié)輸出唯一一個結(jié)果，這樣可以極大的簡化搜索空間徒溪。比如我們有三個...

1105 0 3
祝威廉

如何用MLSQL快速調(diào)試Structured Streaming程序
前言早上對Structured Streaming 的window函數(shù)靶瘸， Output Mode 以及Watermark有些疑惑的地方粪牲。Structured Streami...

1660 2 5
祝威廉

為什么需要效率督查團(tuán)隊
前言上周和杭州某司同學(xué)面基，發(fā)現(xiàn)我們兩同一年畢業(yè)，同一年出生巍膘，還是老鄉(xiāng)，真是頗感意外割坠。本來約好了是聊技術(shù)的功茴，結(jié)果硬生生的聊成了如何提高團(tuán)隊效率的心得交流會。最后得到的結(jié)論...

1401 0 11
阿武z

DAGScheduler之Job的提交劃分Stage
整體流程圖源碼分析 spark 2.3 getOrCreateParentStages 創(chuàng)建所有祖先Stage getShuffleDependencies 獲取RDD的第...

626 0 3
LeonLu

Spark基本概念快速入門
Spark集群一組計算機(jī)的集合，每個計算機(jī)節(jié)點(diǎn)作為獨(dú)立的計算資源慧妄，又可以虛擬出多個具備計算能力的虛擬機(jī)顷牌，這些虛擬機(jī)是集群中的計算單元。Spark的核心模塊專注于調(diào)度和管理虛...

18945 2 36
祝威廉

谷歌BigQuery ML VS StreamingPro MLSQL
前言今天看到了一篇 AI前線的文章谷歌BigQuery ML正式上崗塞淹，只會用SQL也能玩轉(zhuǎn)機(jī)器學(xué)習(xí)窟蓝！。正好自己也在力推 StreamingPro的MLSQL饱普。今天就來對比下...

3447 1 6
阿武z

MapReduce 過程
Map 從磁盤上讀取數(shù)據(jù) 執(zhí)行map函數(shù) Partition分區(qū)(放進(jìn)內(nèi)存) Sort排序(內(nèi)存排序) Combine結(jié)果(內(nèi)存預(yù)聚合) 將結(jié)果寫到本地的磁盤上 Merge(...

442 0 4