Spark-SparkSQL介紹

SparkSQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊叨咖,它提供了2個(gè)編程抽象:DataFrameDataSet,并且作為分布式SQL查詢引擎使用。

不同于Hive將HiveQL轉(zhuǎn)換成MapReduce然后提交執(zhí)行,SparkSQL是將SQL語句轉(zhuǎn)換成RDD然后提交集群執(zhí)行春锋,執(zhí)行效率大大提升。

SQL的特點(diǎn)

  1. 易整合
  2. 統(tǒng)一的數(shù)據(jù)訪問方式
  3. 兼容Hive
  4. 標(biāo)準(zhǔn)的數(shù)據(jù)連接

DataFrame

與RDD類似差凹,DataFrame也是一個(gè)分布式數(shù)據(jù)容器期奔。但是DataFrame更像傳統(tǒng)數(shù)據(jù)庫的二維表格,除了數(shù)據(jù)之外還記錄數(shù)據(jù)的結(jié)構(gòu)信息直奋,即schema。

同時(shí)施禾,與Hive類似脚线,DataFrame也支持嵌套數(shù)據(jù)類型(struct,array和map)弥搞。

從API易用性的角度看DataFrame API提供的是一套高層的關(guān)系操作邮绿,比RDD API要更加友好。

對(duì)于RDD來說攀例,它只關(guān)心是什么類型的數(shù)據(jù):

Person
Person
Person
Person

而對(duì)于DataFrame船逮,它呈現(xiàn)了數(shù)據(jù)的每一列的名字以及數(shù)據(jù)類型:

Name Age
String Int
String Int

DataFrame為數(shù)據(jù)提供了Schema的視圖,可以把它當(dāng)做是數(shù)據(jù)庫中的一張表粤铭,DataFrame也是懶執(zhí)行的挖胃,但是性能要比RDD要高,主要原因是:

  • 優(yōu)化的執(zhí)行計(jì)劃:查詢計(jì)劃通過Spark Catalyst Optimiser進(jìn)行優(yōu)化
image.png

例如:

users.join(events, users("id") === events("user_id")).filter(events("date") > "2019-12-01")

執(zhí)行計(jì)劃為:

  • logical plan
image.png
  • optimized plan
image.png
  • optimized plan with intelligent data sources
image.png

例子中展示了一個(gè)對(duì)用戶事件分析的操作梆惯。兩個(gè)DataFrame進(jìn)行join后進(jìn)行filter過濾酱鸭,如果按照邏輯計(jì)劃的話會(huì)先進(jìn)行join,再進(jìn)行filter垛吗,而join涉及到了executor間的網(wǎng)絡(luò)傳輸凹髓,是一個(gè)開銷比較大的操作。

而SparkSQL優(yōu)化器則將filter操作下推怯屉,先對(duì)DataFrame進(jìn)行過濾蔚舀,在進(jìn)行join饵沧,這樣就避免了不必要的數(shù)據(jù)的傳輸,提高了性能赌躺。

DataSet

  1. 是DataFrame API的一個(gè)擴(kuò)展狼牺。
  2. 用戶友好的API風(fēng)格,既具有類型安全檢查也具有DataFrame的查詢優(yōu)化特性寿谴。
  3. DataSet支持編解碼器锁右,當(dāng)需要訪問非堆上數(shù)據(jù)是可以避免反序列化整個(gè)對(duì)象,提高了效率讶泰。
  4. case class可以用來在DataSet中定義數(shù)據(jù)的結(jié)構(gòu)信息咏瑟,類中的每個(gè)屬性名稱直接映射到DataSet中的字段名稱。
  5. DataFrame是DataSet的特例痪署,DataFrame=DataSet[Row]码泞,所以通過as方法可以將DataFrame轉(zhuǎn)換為DataSet。而Row是一個(gè)類型狼犯,用來定義結(jié)構(gòu)化的一行數(shù)據(jù)余寥。
  6. DataSet是強(qiáng)類型的。
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末悯森,一起剝皮案震驚了整個(gè)濱河市宋舷,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌瓢姻,老刑警劉巖祝蝠,帶你破解...
    沈念sama閱讀 221,548評(píng)論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異幻碱,居然都是意外死亡绎狭,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,497評(píng)論 3 399
  • 文/潘曉璐 我一進(jìn)店門褥傍,熙熙樓的掌柜王于貴愁眉苦臉地迎上來儡嘶,“玉大人,你說我怎么就攤上這事恍风”目瘢” “怎么了?”我有些...
    開封第一講書人閱讀 167,990評(píng)論 0 360
  • 文/不壞的土叔 我叫張陵朋贬,是天一觀的道長鸥咖。 經(jīng)常有香客問我,道長兄世,這世上最難降的妖魔是什么啼辣? 我笑而不...
    開封第一講書人閱讀 59,618評(píng)論 1 296
  • 正文 為了忘掉前任,我火速辦了婚禮御滩,結(jié)果婚禮上鸥拧,老公的妹妹穿的比我還像新娘党远。我一直安慰自己,他們只是感情好富弦,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,618評(píng)論 6 397
  • 文/花漫 我一把揭開白布沟娱。 她就那樣靜靜地躺著,像睡著了一般腕柜。 火紅的嫁衣襯著肌膚如雪济似。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,246評(píng)論 1 308
  • 那天盏缤,我揣著相機(jī)與錄音砰蠢,去河邊找鬼。 笑死唉铜,一個(gè)胖子當(dāng)著我的面吹牛台舱,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播潭流,決...
    沈念sama閱讀 40,819評(píng)論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼竞惋,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了灰嫉?” 一聲冷哼從身側(cè)響起拆宛,我...
    開封第一講書人閱讀 39,725評(píng)論 0 276
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎讼撒,沒想到半個(gè)月后浑厚,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,268評(píng)論 1 320
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,356評(píng)論 3 340
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蜀铲。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铝量。...
    茶點(diǎn)故事閱讀 40,488評(píng)論 1 352
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖茬末,靈堂內(nèi)的尸體忽然破棺而出厂榛,到底是詐尸還是另有隱情,我是刑警寧澤丽惭,帶...
    沈念sama閱讀 36,181評(píng)論 5 350
  • 正文 年R本政府宣布击奶,位于F島的核電站,受9級(jí)特大地震影響责掏,放射性物質(zhì)發(fā)生泄漏柜砾。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,862評(píng)論 3 333
  • 文/蒙蒙 一换衬、第九天 我趴在偏房一處隱蔽的房頂上張望痰驱。 院中可真熱鬧证芭,春花似錦、人聲如沸担映。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,331評(píng)論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽蝇完。三九已至官硝,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間短蜕,已是汗流浹背氢架。 一陣腳步聲響...
    開封第一講書人閱讀 33,445評(píng)論 1 272
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留忿危,地道東北人达箍。 一個(gè)月前我還...
    沈念sama閱讀 48,897評(píng)論 3 376
  • 正文 我出身青樓,卻偏偏與公主長得像铺厨,于是被迫代替她去往敵國和親缎玫。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,500評(píng)論 2 359

推薦閱讀更多精彩內(nèi)容