1.spark基本工作原理
image.png
2.RDD 以及其特性
a宪祥、RDD是Spark提供的核心抽象寺鸥,全稱為Resillient Distributed Dataset猪钮,即彈性分布式數據集品山。
b胆建、RDD在抽象上來說是一種元素集合,包含了數據肘交。它是被分區(qū)的笆载,分為多個分區(qū),每個分區(qū)分布在集群中的不同節(jié)點上涯呻,從而讓RDD中的數據可以被并行操作凉驻。(分布式數據集)
c、RDD通常通過Hadoop上的文件复罐,即HDFS文件或者Hive表涝登,來進行創(chuàng)建;有時也可以通過應用程序中的集合來創(chuàng)建效诅。
d胀滚、RDD最重要的特性就是,提供了容錯性乱投,可以自動從節(jié)點失敗中恢復過來咽笼。即如果某個節(jié)點上的RDD partition,因為節(jié)點故障戚炫,導致數據丟了剑刑,那么RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的双肤。
e施掏、RDD的數據默認情況下存放在內存中的,但是在內存資源不足時茅糜,Spark會自動將RDD數據寫入磁盤七芭。(彈性)
image.png
3.Spark 核心編程原理
image.png