LestatZ - 簡(jiǎn)書

發(fā)簡(jiǎn)信

LestatZ

0
關(guān)注
7
粉絲
24
文章
13492

字?jǐn)?shù)
23

收獲喜歡
5

總資產(chǎn)

IP屬地：上海

LestatZ

[Spark學(xué)習(xí)] Spark RDD詳解
什么是RDD RDD(Resilient Distributed Datasets)嘿般，彈性分布式數(shù)據(jù)集攻旦，是Spark的基本數(shù)據(jù)結(jié)構(gòu)范嘱。它是一個(gè)不可變的分布式對(duì)象集合。RDD中的...

679 0 1
LestatZ

如何為Spark應(yīng)用程序分配--num-executors萎战，--execuor-cores和--executor-memory
前言在我們提交spark程序時(shí)，應(yīng)該如何為Spark集群配置--num-executors， - executor-memory和--execuor-cores 呢悠砚？一...

1098 0 1
LestatZ

關(guān)于Spark RDD API中的Checkpointing
什么是Checkpointing Checkpointing可以將RDD從其依賴關(guān)系中抽出來，保存到可靠的存儲(chǔ)系統(tǒng)（例如HDFS堂飞，S3等)灌旧，即它可以將數(shù)據(jù)和元數(shù)據(jù)保存到檢查...

326 0 1
LestatZ

Spark概述
Apache Spark Apache Spark是一個(gè)開源的分布式通用計(jì)算框架，具有(大部分)內(nèi)存數(shù)據(jù)處理引擎绰筛，可以對(duì)大量的數(shù)據(jù)靜態(tài)或者動(dòng)態(tài)地進(jìn)行ETL枢泰，分析，機(jī)器學(xué)習(xí)和圖...

277 0 1
LestatZ

Mac上搭建Hadoop環(huán)境(3) — Hive下載及安裝
前言之前已經(jīng)完成了hadoop集群的安裝铝噩，測(cè)試了HDFS的使用衡蚂，現(xiàn)在準(zhǔn)備在此基礎(chǔ)上，繼續(xù)安裝Hive骏庸。主要步驟安裝mysql 安裝hive 配置hive 安裝mysql...

987 0 1
LestatZ

Spark中的多任務(wù)處理
Spark中的多任務(wù)處理 Spark的一個(gè)非常常見的用例是并行運(yùn)行許多作業(yè)毛甲。構(gòu)建作業(yè)DAG后，Spark將這些任務(wù)分配到多個(gè)Executor上并行處理敞恋。但這并不能幫助我們?cè)?..

1146 0 1
LestatZ

關(guān)于Spark Dataset API中的Typed transformations和Untyped transformations
前言學(xué)習(xí)Spark源代碼的過程中遇到了Typed transformations和Untyped transformations兩個(gè)概念丽啡，整理了以下相關(guān)的筆記。對(duì)于這兩個(gè)概...

724 0 1
LestatZ

TERADATA數(shù)據(jù)壓縮
數(shù)據(jù)壓縮概況本章描述了幾種數(shù)據(jù)壓縮選項(xiàng)硬猫，它能夠幫助你減少磁盤空間的使用补箍，在某種情況下，還可以提高I/O性能啸蜜。多值壓縮（MVC) 算法壓縮（ALC）行壓縮行標(biāo)題壓縮 ...

1246 0 1
LestatZ

關(guān)于SparkSession
關(guān)于SparkSession 任何Spark程序的第一步都是先創(chuàng)建SparkSession坑雅。在Spark-Shell或者其他交互模式中，SparkSession已經(jīng)預(yù)先被創(chuàng)建...

7249 0 2