PandaKing - 簡書

發(fā)簡信

PandaKing

34
關(guān)注
1
粉絲
3
文章
5895

字?jǐn)?shù)
5

收獲喜歡
5

總資產(chǎn)

IP屬地：遼寧

AlienPaul

Hudi 源碼之 Clustering
什么是Clustering 開門見山左医，Clustering主要有兩個作用：數(shù)據(jù)小文件合并和重排序挠他。當(dāng)數(shù)據(jù)寫入Hudi表時，為了提高寫入效率和存儲利用率秸侣，可能會產(chǎn)生大量小文件赤屋。...

387 0 4
大飛飛_s8

parquet(2)讀寫
1园骆、大多數(shù)情況下陨仅，我們會使用高級工具來處理parquet文件津滞，比如hive spark impala,不過有時候我們也需要進(jìn)行低級順序訪問 2、parquet具有一個可插入式...

994 1 1
Caucher

Apache Parquet設(shè)計解讀
官網(wǎng)地址：https://parquet.apache.org/docs[https://parquet.apache.org/docs]編碼：https://www.wai...

3106 0 6
只是甲

Hudi系列2:Hudi安裝
編譯環(huán)境準(zhǔn)備軟件版本Hadoop3.3.2Hive3.1.2Spark3.3.1Flink1.14.5 一. 下載并解壓hudi 二. maven的下載和配置 2.1 ma...

1182 0 1
只是甲

Hudi系列1:Hudi介紹
一. 什么是Hudi Apache Hudi（發(fā)音“hoodie”）是下一代流數(shù)據(jù)湖平臺灼伤。Apache Hudi將核心倉庫和數(shù)據(jù)庫功能直接帶到數(shù)據(jù)湖中触徐。Hudi提供了表，事務(wù)...

727 0 1
AlienPaul

Hudi 概念和特性
背景本篇為Hudi概念和特性相關(guān)介紹饺蔑。依據(jù)于官網(wǎng)和相關(guān)博客資料锌介，融入了個人理解嗜诀。內(nèi)容可能會有疏漏猾警，歡迎大家指正和補(bǔ)充。 Hudi概念 Apache Hudi是一個Data ...

13224 0 10
丨程序之道丨

Hbase教程：通過BulkLoad快速將海量數(shù)據(jù)導(dǎo)入到Hbase
本文將針對這個問題介紹如何通過Hbase的BulkLoad方法來快速將海量數(shù)據(jù)導(dǎo)入到Hbase中隆敢。在第一次建立Hbase表的時候发皿，我們可能需要往里面一次性導(dǎo)入大量的初始化數(shù)...

1068 0 2
天線嘟嘟茄

HiveSQL優(yōu)化方法
Hive調(diào)優(yōu)集錦[https://blog.csdn.net/zhanglong_4444/article/details/117264381]Hive/HiveSQL常用優(yōu)...

1469 0 2
LabVIEW_Python

領(lǐng)導(dǎo)力實踐感悟1：優(yōu)秀提問能力是優(yōu)秀領(lǐng)導(dǎo)力的具體表現(xiàn)
回顧自己溝通方式的進(jìn)化過程，剛剛當(dāng)工程師的時候拂蝎，光顧著說自己想說的話穴墅，而且是用自己熟悉的表達(dá)方式說出來，只顧著自己的爽温自，直接忽略了聽者的感受玄货；繼而成為銷售工程師，為了加...

261 0 3