數(shù)據(jù)湖的基本特征 可以從數(shù)據(jù)和計(jì)算兩個(gè)層面進(jìn)一步分析數(shù)據(jù)湖應(yīng)該具備哪些特征惹资。在數(shù)據(jù)方面: “保真性”。數(shù)據(jù)湖中對(duì)于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都會(huì)存儲(chǔ)一份“一模一樣”的完整拷貝航闺。與數(shù)據(jù)倉(cāng)...
![240](https://upload.jianshu.io/users/upload_avatars/27443331/ef645cf7-e4aa-4a99-85e5-c22a8e6cf861.png?imageMogr2/auto-orient/strip|imageView2/1/w/240/h/240)
數(shù)據(jù)湖的基本特征 可以從數(shù)據(jù)和計(jì)算兩個(gè)層面進(jìn)一步分析數(shù)據(jù)湖應(yīng)該具備哪些特征惹资。在數(shù)據(jù)方面: “保真性”。數(shù)據(jù)湖中對(duì)于業(yè)務(wù)系統(tǒng)中的數(shù)據(jù)都會(huì)存儲(chǔ)一份“一模一樣”的完整拷貝航闺。與數(shù)據(jù)倉(cāng)...
一褪测、什么是數(shù)據(jù)湖 數(shù)據(jù)湖是目前比較熱的一個(gè)概念,許多企業(yè)都在構(gòu)建或者計(jì)劃構(gòu)建自己的數(shù)據(jù)湖潦刃。但是在計(jì)劃構(gòu)建數(shù)據(jù)湖之前侮措,搞清楚什么是數(shù)據(jù)湖,明確一個(gè)數(shù)據(jù)湖項(xiàng)目的基本組成乖杠,進(jìn)而設(shè)計(jì)...
Apache Flink的Exactly-Once機(jī)制 Apache Flink是目前市場(chǎng)最受關(guān)注的流計(jì)算處理引擎分扎,相較于Spark Streaming的依托Spark Co...
什么是Exactly-Once一致性語(yǔ)義 Apache Spark的Exactly-once機(jī)制 Apache Flink的Exactly-once機(jī)制 Exactly-On...
DataSet 一、Source算子 1. fromCollection fromCollection:從本地集合讀取數(shù)據(jù) 例: 2. readTextFile readTe...
1. RDD復(fù)用 在對(duì)RDD進(jìn)行算子時(shí)胧洒,要避免相同的算子和計(jì)算邏輯之下對(duì)RDD進(jìn)行重復(fù)的計(jì)算: 對(duì)上圖中的RDD計(jì)算架構(gòu)進(jìn)行修改畏吓,得到如下圖所示的優(yōu)化結(jié)果: 2. 盡早fil...
使用explode函數(shù)將hive表中的Map和Array字段數(shù)據(jù)進(jìn)行拆分 lateral view用于和split菲饼、explode等UDTF一起使用的,能將一行數(shù)據(jù)拆分成多行...
聚合函數(shù) 注意:聚合操作時(shí)要注意null值count(*) 包含null值列赎,統(tǒng)計(jì)所有行數(shù)count(id) 不包含null值min 求最小值是不包含null宏悦,除非所有值都是n...
單表查詢 注意:1、order by 會(huì)對(duì)輸入做全局排序,因此只有一個(gè)reducer饼煞,會(huì)導(dǎo)致當(dāng)輸入規(guī)模較大時(shí)源葫,需要較長(zhǎng)的計(jì)算時(shí)間。2砖瞧、sort by不是全局排序息堂,其在數(shù)據(jù)進(jìn)入...
1、對(duì)數(shù)據(jù)庫(kù)的操作 創(chuàng)建數(shù)據(jù)庫(kù): 修改數(shù)據(jù)庫(kù): 說明:可以使用alter database 命令來修改數(shù)據(jù)庫(kù)的一些屬性芭届。但是數(shù)據(jù)庫(kù)的元數(shù)據(jù)信息是不可更改的储矩,包括數(shù)據(jù)庫(kù)的名稱...
第一部分: hive模糊搜索表:show tables like '*name*'; 查看表結(jié)構(gòu)信息:desc table_name; 查看分區(qū)信息:show partiti...
Flink CDC介紹 CDC全稱是Change Data Capture感耙,捕獲變更數(shù)據(jù)褂乍,比如數(shù)據(jù)庫(kù)捕獲完整的變更日志記錄增、刪即硼、改等逃片,都可以稱為CDC。該功能被廣泛應(yīng)用于數(shù)...
介紹 LEFT SEMI JOIN (左半連接)是 IN/EXISTS 子查詢的一種更高效的實(shí)現(xiàn)只酥。 示例 可以改寫為 特點(diǎn) 1褥实、left semi join 的限制是, JO...
一损离、前言 分布式系統(tǒng)中我們會(huì)對(duì)一些數(shù)據(jù)量大的業(yè)務(wù)進(jìn)行分拆,如:用戶表绝编,訂單表僻澎。因?yàn)閿?shù)據(jù)量巨大一張表無法承接,就會(huì)對(duì)其進(jìn)行分庫(kù)分表十饥。 但一旦涉及到分庫(kù)分表窟勃,就會(huì)引申出分布式系統(tǒng)...
基于Redis的令牌桶算法 令牌桶算法提及到輸入速率和輸出速率,當(dāng)輸出速率大于輸入速率逗堵,那么就是超出流量限制了秉氧。也就是說我們每訪問一次請(qǐng)求的時(shí)候,可以從Redis中獲取一個(gè)令...
溫馨提示 : 本文非小白科普文 開窗函數(shù)簡(jiǎn)介 MYSQL 暫時(shí)還未對(duì)開窗函數(shù)給予支持蜒秤。 測(cè)試數(shù)據(jù) 01汁咏、count 開窗函數(shù) select username,product作媚,...
FIRST_VALUE:取分組內(nèi)排序后攘滩,截止到當(dāng)前行,第一個(gè)值掂骏。LAST_VALUE:取分組內(nèi)排序后轰驳,截止到當(dāng)前行,最后一個(gè)值。LEAD(col级解,n冒黑,DEFAULT):用于統(tǒng)...
在大規(guī)模數(shù)據(jù)量的數(shù)據(jù)分析及建模任務(wù)中,往往針對(duì)全量數(shù)據(jù)進(jìn)行挖掘分析時(shí)會(huì)十分耗時(shí)和占用集群資源勤哗,因此一般情況下只需要抽取一小部分?jǐn)?shù)據(jù)進(jìn)行分析及建模操作抡爹。Hive提供了數(shù)據(jù)取樣 ...
1、開啟FetchTask 一個(gè)簡(jiǎn)單的查詢語(yǔ)句芒划,是指一個(gè)沒有函數(shù)冬竟、排序等功能的語(yǔ)句,當(dāng)開啟一個(gè)Fetch Task功能民逼,就執(zhí)行一個(gè)簡(jiǎn)單的查詢語(yǔ)句不會(huì)生成MapRreduce作...
問題:為什么 broadcast 只有 只讀 的變量泵殴? 這就涉及一致性的問題,如果變量可以被更新拼苍,那么一旦變量被某個(gè)節(jié)點(diǎn)更新笑诅,其他節(jié)點(diǎn)要不要一塊更新?如果多個(gè)節(jié)點(diǎn)同時(shí)在更新疮鲫,...