Spark 基本概念
file
基本定義如下:
RDD(resillient distributed dataset):彈性分布式數(shù)據(jù)集愧薛。
Task:具體執(zhí)行任務(wù)栅盲。Task分為ShuffleMapTask和ResultTask兩種敲才。ShuffleMapTask和ResultTask分別類似于Hadoop中的Map你踩,Reduce敞掘。
Job:用戶提交的作業(yè)邪锌。一個Job可能由一到多個Task組成。
Stage:Job分成的階段侈百。一個Job可能被劃分為一到多個Stage瓮下。
Partition:數(shù)據(jù)分區(qū)。即一個RDD的數(shù)據(jù)可以劃分為多少個分區(qū)钝域。
NarrowDependency:窄依賴讽坏。即子RDD依賴于父RDD中固定的Partition。NarrowDependency分為OneToOneDependency和RangeDependency兩種例证。
ShuffleDependency:shuffle依賴路呜,也稱為寬依賴。即子RDD對父RDD中的所有Partition都有依賴战虏。
DAG(Directed Acycle graph):有向無環(huán)圖拣宰。用于反映各RDD之間的依賴關(guān)系。
lightbatis 數(shù)據(jù)庫訪問包 Lightbatis 烦感!