240 發(fā)簡信
IP屬地:江蘇
  • Hudi 源碼之數據寫入邏輯

    背景 本篇以Flink操作Hudi表為例捣郊,分析COW表和MOR表的upsert以及insert操作詳細的執(zhí)行流程鱼响。 StreamWriteFunction Hudi Flin...

  • 分析的挺好的叽唱,但是在實際生產上不建議使用這個參數耕驰,因為資源你可以釋放,但是并不一定可以很隨意的申請到特別是在集群的資源隔離做的不好的情況下滓玖,遇到了資源緊張的時候详拙,很可能會無法申請到資源,導致任務的滯后截酷,甚至是失敗

  • 120
    離線多機房方案

    1. 背景 隨著公司業(yè)務的高速發(fā)展涮拗,業(yè)務數據的生產速度變得越來越快,離線集群規(guī)挠乜粒快速膨脹三热,既有機房內的機位急劇消耗,在可預見的不久的將來會達到機房容量上限三幻,阻塞業(yè)務的發(fā)展就漾。因...

  • 120
    Hive Format異常分析

    最近在執(zhí)行Hive insert/select語句的過程碰到下面這種類型的異常: 本文已上述的錯誤為切入點,分析下異常原因以及Hive相關的關于Format的異常赌髓。主要內容如...

  • 贊懊蒸, 也學著爬爬購物網站…

    京東商城大規(guī)模爬蟲

    一開始看京東商城的商品,發(fā)現很多信息都在網頁源代碼上悯搔,以為會比淘寶的大規(guī)模爬取簡單點骑丸,結果被京東欺騙了無數次,整整寫了差不多六個小時妒貌,真是坑爹啊通危。先貼上github地址:ht...

  • 120
    Hadoop Security機制下跨集群日志分離認證問題解決方案

    概述:為解決臨時數據導致的集群資源爭用問題逆害,我們采用了container日志分離方案,但在Hadoop Security機制下蚣驼,該方案存在跨集群的認證問題魄幕。經過對Hadoop...

  • @金剛a猩猩 2.7.2

    Resource Manager YGC停頓過長分析

    動機 昨天又收到有同學因數據(代碼)問題被rccd的郵件,領導也一再提醒數據的安全問題颖杏。于是審視了一下硬盤文件纯陨,以免存在無心之過… 審視過程中發(fā)現了部分日志信息及排錯過程中的...

  • Resource Manager YGC停頓過長分析

    動機 昨天又收到有同學因數據(代碼)問題被rccd的郵件,領導也一再提醒數據的安全問題留储。于是審視了一下硬盤文件翼抠,以免存在無心之過… 審視過程中發(fā)現了部分日志信息及排錯過程中的...

  • 120
    Shuffle Service導致NM OOM問題分析(續(xù))

    今天有朋友問之前NodeManager被Shuffle拉掛的問題,借此機會將之前分析的另一文檔整理一下分享出來欲鹏。 現象描述及分析 9月27日10時左右机久,編號為2611節(jié)點執(zhí)行...

  • @JeremySun eden , survivor 和 old是gc用的分區(qū)概念, 而storage 和 execution赔嚎、user memory是從Spark Task使用的角度起的“邏輯名稱”…

    Spark on Yarn之Executor內存管理

    本文1膘盖、2、3節(jié)介紹了Spark 內存相關之識尤误,第4節(jié)描述了常見錯誤類型及產生原因并給出了解決方案侠畔。 1 堆內和堆外內存規(guī)劃 Executor 的內存管理建立在 JVM 的內...

  • SparkR on Yarn 安裝配制

    剛完成SparkR的支持,順手記錄下流程… 1 編譯SparkR 1.1 生成SparkR的lib包 1.2 編譯Spark 1.3 local模式運行SparkR 測試用例...

  • 120
    Spark SQL中Kryo反序列化問題分析

    1 問題描述 當使用Spark-sql執(zhí)行 Hive UDF時會發(fā)生NullPointerException(NPE)损晤,從而導致作業(yè)異常終止软棺。NPE具體堆棧信息如下: 2 ...

亚洲A日韩AV无卡,小受高潮白浆痉挛av免费观看,成人AV无码久久久久不卡网站,国产AV日韩精品