楊楊_f97a - 簡(jiǎn)書

楊楊_f97a

IP屬地：廣東

hive更新UDF的正確步驟
1. 刪除原函數(shù)和jar包 1.1 在hive窗口e中執(zhí)行刪除原函數(shù) 1.2 在beeline中執(zhí)行刪除jar包 1.3 從hdfs上刪除jar...

2843 0 1
在CDH環(huán)境集成Hudi
一偿短、Hudi簡(jiǎn)介 Hudi是Hadoop Updates and Incrementals的縮寫，用于管理HDFS上的大型分析數(shù)據(jù)集存儲(chǔ)嫉沽，主要目...

0.1 5894 0 1

MongoDB數(shù)據(jù)增量同步到Hive（方案二通過(guò)MongoSpark）
一、背景本文續(xù)接上文 MongoDB數(shù)據(jù)增量同步到Hive（方案一通過(guò)BSON文件映射）[http://www.reibang.com/p...

0.1 1772 1 1
MongoDB數(shù)據(jù)增量同步到Hive（方案一通過(guò)BSON文件映射）
一俏竞、背景隨著monggo中數(shù)據(jù)量越來(lái)越大绸硕，全量同步到數(shù)倉(cāng)，已不太現(xiàn)實(shí)魂毁，考慮增量同步的方式玻佩，我們?cè)谔剿髟隽客降倪^(guò)程中，方案不斷在改進(jìn)優(yōu)化席楚，這里...

2738 4 0 1
mysql數(shù)據(jù)增量同步到hive
一咬崔、背景同步業(yè)務(wù)庫(kù)的數(shù)據(jù)到ODS層，之前一直是全量同步數(shù)據(jù)，主要考慮IO太大垮斯，耗時(shí)太長(zhǎng)郎仆，重復(fù)拉取同樣的數(shù)據(jù)，現(xiàn)在考慮增量同步的方式實(shí)現(xiàn)兜蠕，同時(shí)對(duì)...

0.1 2954 0 1
Spark高級(jí)編程之TopN及分組TopN
1扰肌、獲取文本內(nèi)最大的前三個(gè)數(shù)字輸入數(shù)據(jù)： 3544426732133542313523733216782156 1）Java版top3：輸出結(jié)...

1269 0 0
Spark高級(jí)編程之二次排序
原始數(shù)據(jù)： 2 63 71 52 43 61 32 13 1 1、Java版二次排序首先定義排序的key 然后實(shí)現(xiàn)二次排序 2熊杨、Scala版二次...

343 0 0

RDD講解
1狡耻、RDD的創(chuàng)建的三種方式1）使用程序中的集合創(chuàng)建RDDjava版代碼如下： scala版代碼如下： 2）使用本地文件創(chuàng)建RDDwordcoun...

340 0 0
提交wordCount程序到spark集群上運(yùn)行
1、Java版wordCount1）Java代碼： 2)打包代碼上傳到服務(wù)器 3）上傳文件到hdfs上去 4)使用spark-submit提交 ...

302 0 0