背景 spark streaming 任務(wù)執(zhí)行過程中枣申,driver總是不明原因掛掉售葡,沒有任何錯誤日志。 原因 出現(xiàn)此種情況基本上都是以下幾種原因引起1:內(nèi)存泄漏忠藤,需要dump...
背景 spark streaming 任務(wù)執(zhí)行過程中枣申,driver總是不明原因掛掉售葡,沒有任何錯誤日志。 原因 出現(xiàn)此種情況基本上都是以下幾種原因引起1:內(nèi)存泄漏忠藤,需要dump...
前言 前段時間寫了三個Spark Streaming程序挟伙,負(fù)責(zé)從Kafka訂閱群和用戶消息,并做輿情監(jiān)控必須的ETL工作模孩。它們消費(fèi)的Topic各自不同尖阔,但是分配的group....
背景 spark streaming 任務(wù),任務(wù)持續(xù)運(yùn)行會產(chǎn)生大量的日志榨咐,查看起來非常麻煩介却,而且非常浪費(fèi)時間。 方案 主要針對log4j.properties文件進(jìn)行修改块茁,此...
源碼閱讀(數(shù)據(jù)寫入) 源碼閱讀(數(shù)據(jù)清理) 關(guān)于大數(shù)據(jù)方面技術(shù)問題可以咨詢齿坷,替你解決你的苦惱桂肌。參考WX:hainanzhongjian
jvm內(nèi)存模型 堆內(nèi)存on-heap: 堆外內(nèi)存(非堆)(off-heap),默認(rèn)為堆*0.1直接內(nèi)存:jvm外內(nèi)存(native內(nèi)存)DirectByteBuffer棧永淌、方...
表類型 寫時復(fù)制(Copy On Write):僅使用列式文件格式(parquet崎场,基本文件)存儲數(shù)據(jù)。通過在寫入過程中執(zhí)行同步合并遂蛀,僅更新版本并重寫新文件谭跨。 讀時合并(Me...
查詢 Hudi 數(shù)據(jù)集 從概念上講,Hudi物理存儲一次數(shù)據(jù)到DFS上李滴,同時在其上提供三種查詢類型螃宙,如之前所述。 數(shù)據(jù)集同步到Hive Metastore后所坯,它將提供由Hud...
背景 spark向集群1中的yarn提交任務(wù),任務(wù)運(yùn)行在集群1的yarn容器中包竹。數(shù)據(jù)寫入集群2的hdfs燕酷。集群1與集群2開通kerberos互信操作。 異常 解決方案 了解s...
kerberos 介紹 閱讀本文之前建議先預(yù)讀下面這篇博客kerberos認(rèn)證原理---講的非常細(xì)致周瞎,易懂 Kerberos實際上一個基于Ticket的認(rèn)證方式苗缩。Client...
兩個Hadoop集群開啟Kerberos驗證后彼乌,集群間不能夠相互訪問泻肯,需要實現(xiàn)Kerberos之間的互信,使用Hadoop集群A的客戶端訪問Hadoop集群B的服務(wù)(實質(zhì)上是...
背景 使用idea調(diào)試spark + hive sql 程序時候慰照,經(jīng)常會碰到這個問題灶挟,比較難以解決。顧此處我總結(jié)了一下常見的解決方案毒租。 異常 代碼 注意:hive-site....
背景 目前flink讀寫hive表一直是一個比較麻煩的事情稚铣。雖然flink1.10版本更新了hive table api,生產(chǎn)環(huán)境中可以使用墅垮。但測試過程中還是會遇到很多問題惕医。...
場景 linux環(huán)境客戶端安裝:將flink安裝到一臺linux機(jī)器上作為客戶端。任務(wù)提交時算色,將flink任務(wù)提交到y(tǒng)arn集群進(jìn)行運(yùn)行抬伺。 安裝過程 flink下載 下載地址...
目標(biāo) Flink Kerberos安全認(rèn)證的主要目標(biāo)是: 1.任務(wù)訪問連接器的時候啟用數(shù)據(jù)安全訪問權(quán)限 2.與Zookeeper進(jìn)行安全認(rèn)證 3.與Hadoop組件進(jìn)行安全訪...
Flink中的DataStream程序是實現(xiàn)數(shù)據(jù)流轉(zhuǎn)換的常規(guī)程序(例如,過濾灾梦、更新狀態(tài)峡钓、定義窗口齐鲤、聚合)。 數(shù)據(jù)流最初是從各種來源(例如椒楣,消息隊列给郊、套接字流、文件)創(chuàng)建的捧灰。 ...