240 發(fā)簡信
IP屬地:北京
  • Hive的坑

    概述 我們的Hive是HortonWorks提供的1.2.1哨坪, 本文檔記錄下我們在使用過程中遇到的問題和解決方法。 問題 高并發(fā)請求時乍楚,請求報錯:Timed out wait...

  • 240
    計算資源調(diào)度

    數(shù)據(jù)平臺會用很多計算資源, 一臺算不了就要分布式, 因此需要一個計算資源調(diào)度的服務(wù). "江河日下"的 Yarn 作為一個經(jīng)常跟 Hadoop 生態(tài)打交道的數(shù)據(jù)工程師, 首先逃...

  • 如何實(shí)現(xiàn)AutoML--讓機(jī)器先做出Baseline

    前言 我之前寫過一篇如何實(shí)現(xiàn)AutoML -- 先Auto每個環(huán)節(jié),大致思路是讓機(jī)器先自動化每一個小環(huán)節(jié)当编,每個環(huán)節(jié)輸出唯一一個結(jié)果,這樣可以極大的簡化搜索空間徒溪。比如我們有三個...

  • 240
    如何用MLSQL快速調(diào)試Structured Streaming程序

    前言 早上對Structured Streaming 的window函數(shù)靶瘸, Output Mode 以及Watermark有些疑惑的地方粪牲。Structured Streami...

  • 為什么需要效率督查團(tuán)隊

    前言 上周和杭州某司同學(xué)面基,發(fā)現(xiàn)我們兩同一年畢業(yè),同一年出生巍膘,還是老鄉(xiāng),真是頗感意外割坠。本來約好了是聊技術(shù)的功茴,結(jié)果硬生生的聊成了如何提高團(tuán)隊效率的心得交流會。 最后得到的結(jié)論...

  • 240
    DAGScheduler之Job的提交劃分Stage

    整體流程圖 源碼分析 spark 2.3 getOrCreateParentStages 創(chuàng)建所有祖先Stage getShuffleDependencies 獲取RDD的第...

  • 240
    Spark基本概念快速入門

    Spark集群 一組計算機(jī)的集合,每個計算機(jī)節(jié)點(diǎn)作為獨(dú)立的計算資源慧妄,又可以虛擬出多個具備計算能力的虛擬機(jī)顷牌,這些虛擬機(jī)是集群中的計算單元。Spark的核心模塊專注于調(diào)度和管理虛...

  • 谷歌BigQuery ML VS StreamingPro MLSQL

    前言 今天看到了一篇 AI前線的文章谷歌BigQuery ML正式上崗塞淹,只會用SQL也能玩轉(zhuǎn)機(jī)器學(xué)習(xí)窟蓝!。正好自己也在力推 StreamingPro的MLSQL饱普。今天就來對比下...

  • 240
    MapReduce 過程

    Map 從磁盤上讀取數(shù)據(jù) 執(zhí)行map函數(shù) Partition分區(qū)(放進(jìn)內(nèi)存) Sort排序(內(nèi)存排序) Combine結(jié)果(內(nèi)存預(yù)聚合) 將結(jié)果寫到本地的磁盤上 Merge(...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品