什么是RDD RDD(Resilient Distributed Datasets)嘿般,彈性分布式數(shù)據(jù)集攻旦,是Spark的基本數(shù)據(jù)結(jié)構(gòu)范嘱。它是一個(gè)不可變的分布式對(duì)象集合。RDD中的...
什么是RDD RDD(Resilient Distributed Datasets)嘿般,彈性分布式數(shù)據(jù)集攻旦,是Spark的基本數(shù)據(jù)結(jié)構(gòu)范嘱。它是一個(gè)不可變的分布式對(duì)象集合。RDD中的...
前言 在我們提交spark程序時(shí),應(yīng)該如何為Spark集群配置--num-executors, - executor-memory和--execuor-cores 呢悠砚? 一...
什么是Checkpointing Checkpointing可以將RDD從其依賴關(guān)系中抽出來,保存到可靠的存儲(chǔ)系統(tǒng)(例如HDFS堂飞,S3等)灌旧, 即它可以將數(shù)據(jù)和元數(shù)據(jù)保存到檢查...
前言 之前已經(jīng)完成了hadoop集群的安裝铝噩,測(cè)試了HDFS的使用衡蚂,現(xiàn)在準(zhǔn)備在此基礎(chǔ)上,繼續(xù)安裝Hive骏庸。 主要步驟 安裝mysql 安裝hive 配置hive 安裝mysql...
Spark中的多任務(wù)處理 Spark的一個(gè)非常常見的用例是并行運(yùn)行許多作業(yè)毛甲。 構(gòu)建作業(yè)DAG后,Spark將這些任務(wù)分配到多個(gè)Executor上并行處理敞恋。但這并不能幫助我們?cè)?..
前言 學(xué)習(xí)Spark源代碼的過程中遇到了Typed transformations和Untyped transformations兩個(gè)概念丽啡,整理了以下相關(guān)的筆記。對(duì)于這兩個(gè)概...
數(shù)據(jù)壓縮 概況 本章描述了幾種數(shù)據(jù)壓縮選項(xiàng)硬猫,它能夠幫助你減少磁盤空間的使用补箍,在某種情況下,還可以提高I/O性能啸蜜。 多值壓縮(MVC) 算法壓縮(ALC) 行壓縮 行標(biāo)題壓縮 ...
關(guān)于SparkSession 任何Spark程序的第一步都是先創(chuàng)建SparkSession坑雅。在Spark-Shell或者其他交互模式中,SparkSession已經(jīng)預(yù)先被創(chuàng)建...