240 發(fā)簡(jiǎn)信
IP屬地:浙江
  • Resize,w 360,h 240
    Spark withColumn 陷阱

    withColumn / withColumnRenamed 是 spark 中常用的 API病梢,可以用于添加新字段 / 字段重命名 / 修改字...

  • Resize,w 360,h 240
    大數(shù)據(jù)平臺(tái)資源治理經(jīng)驗(yàn)總結(jié)

    背景 大數(shù)據(jù)平臺(tái)早期是野蠻生長(zhǎng)的耗跛,作業(yè)直接在終端提交運(yùn)行羽利,處于一種完全無(wú)管理的自由狀態(tài)。在17年上線了內(nèi)部的大數(shù)據(jù)平臺(tái)后褒墨,用戶開(kāi)始逐漸在平臺(tái)上進(jìn)...

  • 不通過(guò) Spark 獲取 Delta Lake Snapshot

    背景 Delta Lake 進(jìn)行數(shù)據(jù)刪除或更新操作時(shí)實(shí)際上只是對(duì)被刪除數(shù)據(jù)文件做了一個(gè) remove 標(biāo)記敬肚,在進(jìn)行 vacuum 前并不會(huì)進(jìn)行物...

  • Delta Lake 分區(qū)表覆蓋寫(xiě)入操作

    Delta Lake當(dāng)前版本(0.5)只支持API操作的菜循,但是實(shí)現(xiàn) Insert SQL 語(yǔ)法也不難捅膘,可以參考 Delta Lake 平臺(tái)化實(shí)踐...

  • Resize,w 360,h 240
    Apache Ranger 部署文檔

    很久沒(méi)寫(xiě)過(guò)部署文檔了添祸,不過(guò) Apache Ranger KMS 的手動(dòng)部署較為繁瑣,網(wǎng)上的相關(guān)資料基本都是散裝的寻仗,因此寫(xiě)了一篇進(jìn)行總結(jié)膝捞。 背景 ...

  • Delta Presto Integration & Manifests 機(jī)制

    Delta 0.5 已于上周發(fā)布,增加了不少新特性愧沟,這篇文章主要講解其 Presto Integration 和 Manifests 機(jī)制蔬咬。該功...

  • Delta Lake 平臺(tái)化實(shí)踐(離線篇)

    Delta Lake 是什么?簡(jiǎn)單的說(shuō)就是為大數(shù)據(jù)場(chǎng)景添加了事務(wù)功能沐寺,并且支持了 update/delete/merge into 等功能林艘, D...

  • Resize,w 360,h 240
    spark 小文件合并優(yōu)化實(shí)踐

    對(duì) spark 任務(wù)數(shù)據(jù)落地(HDFS) 碎片文件過(guò)多的問(wèn)題的優(yōu)化實(shí)踐及思考。 背景 此文是關(guān)于公司在 Delta Lake 上線之前對(duì)Spar...

  • Resize,w 360,h 240
    Apache Druid 平臺(tái)化 - 數(shù)據(jù)接入篇

    數(shù)據(jù)接入 背景 使用界面化和 sql 的方式將數(shù)據(jù)導(dǎo)入到 druid混坞,提供數(shù)據(jù)給后續(xù)告警狐援,監(jiān)控,查詢等服務(wù)使用究孕。 方案設(shè)計(jì) 數(shù)據(jù)源1:內(nèi)部消息服...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品