withColumn / withColumnRenamed 是 spark 中常用的 API病梢,可以用于添加新字段 / 字段重命名 / 修改字...
背景 大數(shù)據(jù)平臺(tái)早期是野蠻生長(zhǎng)的耗跛,作業(yè)直接在終端提交運(yùn)行羽利,處于一種完全無(wú)管理的自由狀態(tài)。在17年上線了內(nèi)部的大數(shù)據(jù)平臺(tái)后褒墨,用戶開(kāi)始逐漸在平臺(tái)上進(jìn)...
背景 Delta Lake 進(jìn)行數(shù)據(jù)刪除或更新操作時(shí)實(shí)際上只是對(duì)被刪除數(shù)據(jù)文件做了一個(gè) remove 標(biāo)記敬肚,在進(jìn)行 vacuum 前并不會(huì)進(jìn)行物...
Delta Lake當(dāng)前版本(0.5)只支持API操作的菜循,但是實(shí)現(xiàn) Insert SQL 語(yǔ)法也不難捅膘,可以參考 Delta Lake 平臺(tái)化實(shí)踐...
很久沒(méi)寫(xiě)過(guò)部署文檔了添祸,不過(guò) Apache Ranger KMS 的手動(dòng)部署較為繁瑣,網(wǎng)上的相關(guān)資料基本都是散裝的寻仗,因此寫(xiě)了一篇進(jìn)行總結(jié)膝捞。 背景 ...
Delta 0.5 已于上周發(fā)布,增加了不少新特性愧沟,這篇文章主要講解其 Presto Integration 和 Manifests 機(jī)制蔬咬。該功...
Delta Lake 是什么?簡(jiǎn)單的說(shuō)就是為大數(shù)據(jù)場(chǎng)景添加了事務(wù)功能沐寺,并且支持了 update/delete/merge into 等功能林艘, D...
對(duì) spark 任務(wù)數(shù)據(jù)落地(HDFS) 碎片文件過(guò)多的問(wèn)題的優(yōu)化實(shí)踐及思考。 背景 此文是關(guān)于公司在 Delta Lake 上線之前對(duì)Spar...
數(shù)據(jù)接入 背景 使用界面化和 sql 的方式將數(shù)據(jù)導(dǎo)入到 druid混坞,提供數(shù)據(jù)給后續(xù)告警狐援,監(jiān)控,查詢等服務(wù)使用究孕。 方案設(shè)計(jì) 數(shù)據(jù)源1:內(nèi)部消息服...