Spark-SparkSQL介紹

SparkSQL是Spark用來處理結(jié)構(gòu)化數(shù)據(jù)的一個(gè)模塊叨咖，它提供了2個(gè)編程抽象：DataFrame和DataSet，并且作為分布式SQL查詢引擎使用。

不同于Hive將HiveQL轉(zhuǎn)換成MapReduce然后提交執(zhí)行，SparkSQL是將SQL語句轉(zhuǎn)換成RDD然后提交集群執(zhí)行春锋，執(zhí)行效率大大提升。

SQL的特點(diǎn)

易整合
統(tǒng)一的數(shù)據(jù)訪問方式
兼容Hive
標(biāo)準(zhǔn)的數(shù)據(jù)連接

DataFrame

與RDD類似差凹，DataFrame也是一個(gè)分布式數(shù)據(jù)容器期奔。但是DataFrame更像傳統(tǒng)數(shù)據(jù)庫的二維表格，除了數(shù)據(jù)之外還記錄數(shù)據(jù)的結(jié)構(gòu)信息直奋，即schema。

同時(shí)施禾，與Hive類似脚线，DataFrame也支持嵌套數(shù)據(jù)類型（struct，array和map）弥搞。

從API易用性的角度看DataFrame API提供的是一套高層的關(guān)系操作邮绿，比RDD API要更加友好。

對(duì)于RDD來說攀例，它只關(guān)心是什么類型的數(shù)據(jù)：

Person
Person
Person
Person

而對(duì)于DataFrame船逮，它呈現(xiàn)了數(shù)據(jù)的每一列的名字以及數(shù)據(jù)類型：

Name	Age
String	Int
String	Int

DataFrame為數(shù)據(jù)提供了Schema的視圖，可以把它當(dāng)做是數(shù)據(jù)庫中的一張表粤铭，DataFrame也是懶執(zhí)行的挖胃，但是性能要比RDD要高，主要原因是：

優(yōu)化的執(zhí)行計(jì)劃：查詢計(jì)劃通過Spark Catalyst Optimiser進(jìn)行優(yōu)化

image.png

例如：

users.join(events, users("id") === events("user_id")).filter(events("date") > "2019-12-01")

執(zhí)行計(jì)劃為：

logical plan

image.png

optimized plan

image.png

optimized plan with intelligent data sources

image.png

例子中展示了一個(gè)對(duì)用戶事件分析的操作梆惯。兩個(gè)DataFrame進(jìn)行join后進(jìn)行filter過濾酱鸭，如果按照邏輯計(jì)劃的話會(huì)先進(jìn)行join，再進(jìn)行filter垛吗，而join涉及到了executor間的網(wǎng)絡(luò)傳輸凹髓，是一個(gè)開銷比較大的操作。

而SparkSQL優(yōu)化器則將filter操作下推怯屉，先對(duì)DataFrame進(jìn)行過濾蔚舀，在進(jìn)行join饵沧，這樣就避免了不必要的數(shù)據(jù)的傳輸，提高了性能赌躺。

DataSet

是DataFrame API的一個(gè)擴(kuò)展狼牺。
用戶友好的API風(fēng)格，既具有類型安全檢查也具有DataFrame的查詢優(yōu)化特性寿谴。
DataSet支持編解碼器锁右，當(dāng)需要訪問非堆上數(shù)據(jù)是可以避免反序列化整個(gè)對(duì)象，提高了效率讶泰。
case class可以用來在DataSet中定義數(shù)據(jù)的結(jié)構(gòu)信息咏瑟，類中的每個(gè)屬性名稱直接映射到DataSet中的字段名稱。
DataFrame是DataSet的特例痪署，DataFrame=DataSet[Row]码泞，所以通過as方法可以將DataFrame轉(zhuǎn)換為DataSet。而Row是一個(gè)類型狼犯，用來定義結(jié)構(gòu)化的一行數(shù)據(jù)余寥。
DataSet是強(qiáng)類型的。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末悯森，一起剝皮案震驚了整個(gè)濱河市宋舷，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌瓢姻，老刑警劉巖祝蝠，帶你破解...
沈念sama閱讀 221,548評(píng)論 6贊 515
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場離奇詭異幻碱，居然都是意外死亡绎狭，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 94,497評(píng)論 3贊 399
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門褥傍，熙熙樓的掌柜王于貴愁眉苦臉地迎上來儡嘶，“玉大人，你說我怎么就攤上這事恍风”目瘢” “怎么了？”我有些...
開封第一講書人閱讀 167,990評(píng)論 0贊 360
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵朋贬，是天一觀的道長鸥咖。經(jīng)常有香客問我，道長兄世，這世上最難降的妖魔是什么啼辣？我笑而不...
開封第一講書人閱讀 59,618評(píng)論 1贊 296
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮御滩，結(jié)果婚禮上鸥拧，老公的妹妹穿的比我還像新娘党远。我一直安慰自己，他們只是感情好富弦，可當(dāng)我...
茶點(diǎn)故事閱讀 68,618評(píng)論 6贊 397
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布沟娱。她就那樣靜靜地躺著，像睡著了一般腕柜。火紅的嫁衣襯著肌膚如雪济似。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 52,246評(píng)論 1贊 308
城市分裂傳說
那天盏缤，我揣著相機(jī)與錄音砰蠢，去河邊找鬼。笑死唉铜，一個(gè)胖子當(dāng)著我的面吹牛台舱，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播潭流，決...
沈念sama閱讀 40,819評(píng)論 3贊 421
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼竞惋，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了灰嫉？” 一聲冷哼從身側(cè)響起拆宛，我...
開封第一講書人閱讀 39,725評(píng)論 0贊 276
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎讼撒，沒想到半個(gè)月后浑厚，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 46,268評(píng)論 1贊 320
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 38,356評(píng)論 3贊 340
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了蜀铲。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片铝量。...
茶點(diǎn)故事閱讀 40,488評(píng)論 1贊 352
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖茬末，靈堂內(nèi)的尸體忽然破棺而出厂榛，到底是詐尸還是另有隱情，我是刑警寧澤丽惭，帶...
沈念sama閱讀 36,181評(píng)論 5贊 350
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布击奶，位于F島的核電站，受9級(jí)特大地震影響责掏，放射性物質(zhì)發(fā)生泄漏柜砾。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,862評(píng)論 3贊 333
男人毒藥：我在死后第九天來索命
文/蒙蒙一换衬、第九天我趴在偏房一處隱蔽的房頂上張望痰驱。院中可真熱鬧证芭，春花似錦、人聲如沸担映。這莊子的主人今日做“春日...
開封第一講書人閱讀 32,331評(píng)論 0贊 24
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽蝇完。三九已至官硝，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間短蜕，已是汗流浹背氢架。一陣腳步聲響...
開封第一講書人閱讀 33,445評(píng)論 1贊 272
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留忿危，地道東北人达箍。一個(gè)月前我還...
沈念sama閱讀 48,897評(píng)論 3贊 376
代替公主和親
正文我出身青樓，卻偏偏與公主長得像铺厨，于是被迫代替她去往敵國和親缎玫。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 45,500評(píng)論 2贊 359

Spark-SparkSQL介紹

SQL的特點(diǎn)

DataFrame

DataSet

推薦閱讀更多精彩內(nèi)容