Spark源碼解析 - 專題

投稿

Spark源碼解析

收錄了30篇文章 · 236人關(guān)注

Spark整合HBase（自定義HBase DataSource）
背景 Spark支持多種數(shù)據(jù)源瞒津，但是Spark對(duì)HBase 的讀寫都沒有相對(duì)優(yōu)雅的api膛锭，但spark和HBase整合的場(chǎng)景又比較多篮幢，故通過sp...

BIGUFO 0 12
Spark UnifiedMemoryManager之maybeGrowExecutionPool()分析
Note：本文要求讀者對(duì)UnifiedMemoryManager的原理有基本的了解卖哎。希望讀者能與作者一起探討筐骇。本文試圖分析UnifiedMem...

找不到工作的_Ngone 0 0

[spark streaming] 狀態(tài)管理 updateStateByKey&mapWithState
前言 SparkStreaming 7*24 小時(shí)不間斷的運(yùn)行惠拭，有時(shí)需要管理一些狀態(tài)扩劝，比如wordCount，每個(gè)batch的數(shù)據(jù)不是獨(dú)立的而是...

BIGUFO 0 3
Spark編譯(使用阿里云maven倉庫)
我以近十天的編譯Spark的痛苦經(jīng)歷职辅，來分享一下如何在國內(nèi)快速的完成Spark編譯棒呛。其實(shí)，唯一的任務(wù)就是將Spark中的默認(rèn)maven中央倉庫...

找不到工作的_Ngone 0 0
Spark Streaming一致性域携、容錯(cuò)機(jī)制分析
Spark Streaming容錯(cuò)機(jī)制保障參考https://databricks.com/blog/2015/01/15/improved-...

分裂四人組 0 1
1簇秒、Catalyst源碼解讀之SqlParser
本篇文章基于Spark1.6.1源碼解讀Catalyst下的SqlParser spark sql中可以分三種sql語句第一種DDL語句，DDL...

0.2 海納百川_spark 0 2
Spark 2.0 Structured Streaming 分析
前言 Spark 2.0 將流式計(jì)算也統(tǒng)一到DataFrame里去了秀鞭，提出了Structured Streaming的概念趋观，將數(shù)據(jù)源映射為一張無...

0.9 祝威廉 13 26 1

利用 Spark DataSource API 實(shí)現(xiàn)Rest數(shù)據(jù)源
Spark DataSource API 的提出使得各個(gè)數(shù)據(jù)源按規(guī)范實(shí)現(xiàn)適配，那么就可以高效的利用Spark 的計(jì)算能力锋边。典型如Parquet,...

0.2 祝威廉 4 17
Spark Streaming 中使用c3p0連接池操作mysql數(shù)據(jù)庫
在Spark Streaming的應(yīng)用程序中皱坛，有時(shí)候需要將計(jì)算結(jié)果保存到數(shù)據(jù)庫中，為了高效這里使用批量插入豆巨，結(jié)合c3po連接池剩辟，說明一下使用方法...

海納百川_spark 2 15
Spark Streaming源碼解析
目錄### Spark Streaming 透徹理解之一通過案例對(duì)SparkStreaming透徹理解之 spark streaming運(yùn)行機(jī)...

海納百川_spark 0 10