Spark基礎(chǔ)

Spark 1.x 和Spark 2.x 區(qū)別

Spark 2.x 只保留SparkSession作為程序的入口秒咨。以DataSet和DataFrame作為用戶的API汪疮,同時滿足structured data 潜索、streaming data 羞延、machine learing,graph等應(yīng)用場景紧显。

val spark=SparkSession.bulider().master("").getOrCreate()
val lines=spark.readSream.textFile("...")

Spark 1.x的RDD 更多時候表示一維,只有行的概念层皱,如RDD[Person]性锭,而Spark2.x的DataSet和DataFrame是個二維的數(shù)據(jù)集。

備注:Spark1.x 也有DataSet/DataFrame概念叫胖,但僅限于SparkSQL,到了2.0時代草冈,已經(jīng)是全局API了。

DataSet和DataFrame區(qū)別

DataSet是類型安全的type-safe 臭家,及編碼編譯時就可能提醒錯誤疲陕。在存存儲方面沒有多大區(qū)別方淤。

數(shù)據(jù)源轉(zhuǎn)化

支持JAVA/JSON/關(guān)系數(shù)據(jù)庫表轉(zhuǎn)化為DataSet和DataFrame

Structured Streaming 無限增長的表格

Output Mode

  1. complete 全量數(shù)據(jù)
  2. append 本次新增
  3. update

StreamExeution 持續(xù)查詢

  1. 通過source.getOffset()獲取最新的offsets钉赁,即最新的數(shù)據(jù)進度。
  2. 將offsets寫入offsetLog (WAL)用作故障恢復(fù)携茂。
  3. 構(gòu)造本次邏輯計劃logisPlan
    3.1 將預(yù)定義的邏輯計劃成員變量制作一個副本
    3.2 根據(jù)source.getBatch(offset)收到的數(shù)據(jù)用Dataset/DataFrame表示你踩。
  4. 觸發(fā)執(zhí)行計劃的優(yōu)化
    4.1 邏輯優(yōu)化:通過Catalyst優(yōu)化器完成。
    4.2 物理計劃的生成與選擇:可以直接用于執(zhí)行的RDD DAG
  5. 將執(zhí)行結(jié)果DataSet/DataFrame 交給 sink讳苦。
  6. 計算完成進行commit.即 source.commit()告知完成處理带膜,垃圾回收。將本次執(zhí)行的id寫入到batchCommit Log中鸳谜。

另外膝藕,引入了全局范圍的高可用的StateStore。

增量計算:

每次執(zhí)行時咐扭,從StateStore里restore上次執(zhí)行后的狀態(tài)芭挽。然后加入本次執(zhí)行的新數(shù)據(jù)滑废,再計算。

如何保證end-to end exactly -once-guarantees

  1. offset tracking in WAL
  2. state management
  3. fault-tolerant sources and sinks.
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末袜爪,一起剝皮案震驚了整個濱河市蠕趁,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌辛馆,老刑警劉巖俺陋,帶你破解...
    沈念sama閱讀 218,607評論 6 507
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異昙篙,居然都是意外死亡腊状,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,239評論 3 395
  • 文/潘曉璐 我一進店門瓢对,熙熙樓的掌柜王于貴愁眉苦臉地迎上來寿酌,“玉大人,你說我怎么就攤上這事硕蛹〈继郏” “怎么了?”我有些...
    開封第一講書人閱讀 164,960評論 0 355
  • 文/不壞的土叔 我叫張陵法焰,是天一觀的道長秧荆。 經(jīng)常有香客問我,道長埃仪,這世上最難降的妖魔是什么乙濒? 我笑而不...
    開封第一講書人閱讀 58,750評論 1 294
  • 正文 為了忘掉前任,我火速辦了婚禮卵蛉,結(jié)果婚禮上颁股,老公的妹妹穿的比我還像新娘。我一直安慰自己傻丝,他們只是感情好甘有,可當(dāng)我...
    茶點故事閱讀 67,764評論 6 392
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著葡缰,像睡著了一般亏掀。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上泛释,一...
    開封第一講書人閱讀 51,604評論 1 305
  • 那天滤愕,我揣著相機與錄音,去河邊找鬼怜校。 笑死间影,一個胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的茄茁。 我是一名探鬼主播魂贬,決...
    沈念sama閱讀 40,347評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼蔓搞,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了随橘?” 一聲冷哼從身側(cè)響起喂分,我...
    開封第一講書人閱讀 39,253評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎机蔗,沒想到半個月后蒲祈,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,702評論 1 315
  • 正文 獨居荒郊野嶺守林人離奇死亡萝嘁,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 37,893評論 3 336
  • 正文 我和宋清朗相戀三年梆掸,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片牙言。...
    茶點故事閱讀 40,015評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡酸钦,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出咱枉,到底是詐尸還是另有隱情卑硫,我是刑警寧澤,帶...
    沈念sama閱讀 35,734評論 5 346
  • 正文 年R本政府宣布蚕断,位于F島的核電站欢伏,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏亿乳。R本人自食惡果不足惜硝拧,卻給世界環(huán)境...
    茶點故事閱讀 41,352評論 3 330
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望葛假。 院中可真熱鬧障陶,春花似錦、人聲如沸聊训。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,934評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽魔眨。三九已至媳维,卻和暖如春酿雪,著一層夾襖步出監(jiān)牢的瞬間遏暴,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 33,052評論 1 270
  • 我被黑心中介騙來泰國打工指黎, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留朋凉,地道東北人。 一個月前我還...
    沈念sama閱讀 48,216評論 3 371
  • 正文 我出身青樓醋安,卻偏偏與公主長得像杂彭,于是被迫代替她去往敵國和親墓毒。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點故事閱讀 44,969評論 2 355