快樂大數(shù)據(jù)第10課 SparkSQL

i:10010#SparkSQL概述及原理提供了兩種操作數(shù)據(jù)的方式? SQL查詢? DataFrame和DataSet API1提供了非常豐富的數(shù)據(jù)源API? 如:Text阻肿、JSON亥鸠、Parquet派草、MySQL等2在Spark上實(shí)現(xiàn)SQL引擎? 提供高伸縮性API：DataFrame和DataSet API? 提供高效率的查詢優(yōu)化引擎：Catalyst Optimizer# SparkSQL-DataFrameRDD + Schema? 以行為單位構(gòu)成的分布式數(shù)據(jù)集合只酥，按照列賦予不同的名稱?對select器钟，filter崇裁，aggregation和sort等操作符的抽象哀澈，在Spark1.3之前滓窍，被稱為SchemaRDD。為什么要引入SparkSQL? 寫更少的代碼? 讀更少的數(shù)據(jù)? 讓優(yōu)化器自動優(yōu)化程序? 輕松享受Spark高效的性能舉例使用SQL：select word,count(1) from words group by word使用DataFrame：wrodDF.select("userId").groupBy("userId").count()使用RDD：sc.textFile(inPath).flatMap(_.split("\t")).map((_,1)).reduceByKey(_ + _).collect舉例2讀/寫復(fù)雜的數(shù)據(jù)結(jié)構(gòu)更加便捷? 讀JSON文件val josnDF = spark.read.json("/tmp/user_json")? 讀Parquetval parquetDF = spark.read.parquet("/tmp/user_parquet")? 寫JSON文件userCoreDF2.write.json("tmp/user_json")? 寫ParquetuserCoreDF2.write.parquet("/tmp/user_parquet")特點(diǎn)：采用更高效的數(shù)據(jù)格式保存數(shù)據(jù)使用列式存儲格式（比如parquet）使用統(tǒng)計(jì)數(shù)據(jù)自動跳過數(shù)據(jù)（如：min了赌、max）使用分區(qū)查詢下推：將謂詞下推到存儲系統(tǒng)執(zhí)行#Spark1.6后墨榄，出現(xiàn)DataFrame擴(kuò)展自DataFrame API，提供編譯時(shí)類型安全勿她，面向?qū)ο箫L(fēng)格的API?DataSet API? 類型安全? 高效：代碼生成編解碼器袄秩，序列化更高效? 協(xié)作：DataSet與DataFrame可互相轉(zhuǎn)換? DataFrame = DataSet[Row]#RDD、DataFrame逢并、DataSet的關(guān)系val parquetDF = spark.read.parquet(inpath) // parquet -> dataframe? val ds = parquetDF.as[UserCore] // dataframe -> dataset? val df = ds.toDF() // dataset -> dataframe? val dsRdd = ds.rdd // dataset -> rdd? val dfRdd = df.rdd // dataframe -> rdd*將RDD轉(zhuǎn)換成DF例子見DFTest.scala//顯式創(chuàng)建DF例子見DFTest2.scala*通過jdbc之剧，創(chuàng)建mql表的DF,在本地運(yùn)行，打出表的信息注意：需要實(shí)現(xiàn)在spark2.2 jars 目錄下有mysql的jar驅(qū)動包bin/spark-submit \--class bigdata.spark.sql.test.DFTest2 \--master local \./DFTest2.jar#SparkSQL與HIve相結(jié)合使用Spark SQL訪問Hive? 將hive安裝包中conf/hive-site.xml配置文件拷貝到spark安裝包的conf目錄下? 將mysql驅(qū)動jar包拷貝到spark安裝包的jars目錄下在node01中? 啟動：spark安裝包下bin/spark-sql/home/hadoop/apps/spark2.2/bin/spark-sqlspark-sql> show databases;spark-sql>use rel;spark-sql>show tables砍聊；spark-sql>select gender,sum(core) from user_core_info where age>20 group by gender;#構(gòu)建分布式SQL查詢引擎配置HiveServer2 Thrift服務(wù)的訪問地址和端口號? 方法：在hive-site.xml文件中添加hiveserver2的配置信息hive.server2.thrift.port10010hive.server2.thrift.bind.host192.168.183.101在node01上背稼，在spark的安裝目錄下? yarn-client模式啟動sbin/start-thriftserver.sh \--hiveconf hive.server2.thrift.port=10010 \--hiveconf hive.server2.thrift.bind.host=192.168.183.101 \--master yarn \--deploy-mode client \--executor-memory 3g \--executor-cores 1 \--num-executors 2 \--driver-cores 1 \--driver-memory 1g lsof -i:10010./bin/beeline!connect jdbc:hive2://192.168.183.101:10010Connecting to jdbc:hive2://192.168.183.101:10010Enter username for jdbc:hive2://192.168.183.101:10010: hadoopEnter password for jdbc:hive2://192.168.183.101:10010: ******

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市玻蝌，隨后出現(xiàn)的幾起案子蟹肘，更是在濱河造成了極大的恐慌，老刑警劉巖俯树，帶你破解...
沈念sama閱讀 216,470評論 6贊 501
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件帘腹，死亡現(xiàn)場離奇詭異，居然都是意外死亡许饿，警方通過查閱死者的電腦和手機(jī)阳欲，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,393評論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來陋率，“玉大人胸完，你說我怎么就攤上這事∏讨” “怎么了赊窥？”我有些...
開封第一講書人閱讀 162,577評論 0贊 353
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長狸页。經(jīng)常有香客問我锨能，道長，這世上最難降的妖魔是什么芍耘？我笑而不...
開封第一講書人閱讀 58,176評論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任址遇，我火速辦了婚禮，結(jié)果婚禮上斋竞，老公的妹妹穿的比我還像新娘倔约。我一直安慰自己，他們只是感情好坝初，可當(dāng)我...
茶點(diǎn)故事閱讀 67,189評論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布浸剩。她就那樣靜靜地躺著钾军，像睡著了一般。火紅的嫁衣襯著肌膚如雪绢要。梳的紋絲不亂的頭發(fā)上吏恭，一...
開封第一講書人閱讀 51,155評論 1贊 299
城市分裂傳說
那天，我揣著相機(jī)與錄音重罪，去河邊找鬼樱哼。笑死，一個胖子當(dāng)著我的面吹牛剿配，可吹牛的內(nèi)容都是我干的搅幅。我是一名探鬼主播，決...
沈念sama閱讀 40,041評論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼呼胚，長吁一口氣：“原來是場噩夢啊……” “哼茄唐！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起砸讳，我...
開封第一講書人閱讀 38,903評論 0贊 274
萬榮殺人案實(shí)錄
序言：老撾萬榮一對情侶失蹤琢融，失蹤者是張志新（化名）和其女友劉穎界牡，沒想到半個月后簿寂，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 45,319評論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡宿亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,539評論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年常遂，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挽荠。...
茶點(diǎn)故事閱讀 39,703評論 1贊 348
活死人
序言：一個原本活蹦亂跳的男人離奇死亡克胳，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出圈匆，到底是詐尸還是另有隱情漠另，我是刑警寧澤，帶...
沈念sama閱讀 35,417評論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布跃赚，位于F島的核電站笆搓，受9級特大地震影響，放射性物質(zhì)發(fā)生泄漏纬傲。R本人自食惡果不足惜满败，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,013評論 3贊 325
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望叹括。院中可真熱鬧算墨，春花似錦、人聲如沸汁雷。這莊子的主人今日做“春日...
開封第一講書人閱讀 31,664評論 0贊 22
一樁弒父案报咳，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至面粮，卻和暖如春少孝，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背熬苍。一陣腳步聲響...
開封第一講書人閱讀 32,818評論 1贊 269
情欲美人皮
我被黑心中介騙來泰國打工稍走，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人柴底。一個月前我還...
沈念sama閱讀 47,711評論 2贊 368
代替公主和親
正文我出身青樓婿脸，卻偏偏與公主長得像，于是被迫代替她去往敵國和親柄驻。傳聞我的和親對象是個殘疾皇子狐树，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,601評論 2贊 353

快樂大數(shù)據(jù)第10課 SparkSQL

推薦閱讀更多精彩內(nèi)容