快樂大數(shù)據(jù)第10課 SparkSQL

i:10010#SparkSQL概述及原理 提供了兩種操作數(shù)據(jù)的方式? SQL查詢? DataFrame和DataSet API1提供了非常豐富的數(shù)據(jù)源API? 如:Text阻肿、JSON亥鸠、Parquet派草、MySQL等2在Spark上實(shí)現(xiàn)SQL引擎? 提供高伸縮性API:DataFrame和DataSet API? 提供高效率的查詢優(yōu)化引擎:Catalyst Optimizer# SparkSQL-DataFrameRDD + Schema? 以行為單位構(gòu)成的分布式數(shù)據(jù)集合只酥,按照列賦予不同的名稱?對select器钟,filter崇裁,aggregation和sort等操作符的抽象哀澈,在Spark1.3之前滓窍,被稱為SchemaRDD。為什么要引入SparkSQL? 寫更少的代碼? 讀更少的數(shù)據(jù)? 讓優(yōu)化器自動優(yōu)化程序? 輕松享受Spark高效的性能舉例使用SQL:select word,count(1) from words group by word使用DataFrame:wrodDF.select("userId").groupBy("userId").count()使用RDD:sc.textFile(inPath).flatMap(_.split("\t")).map((_,1)).reduceByKey(_ + _).collect舉例2讀/寫復(fù)雜的數(shù)據(jù)結(jié)構(gòu)更加便捷? 讀JSON文件val josnDF = spark.read.json("/tmp/user_json")? 讀Parquetval parquetDF = spark.read.parquet("/tmp/user_parquet")? 寫JSON文件userCoreDF2.write.json("tmp/user_json")? 寫ParquetuserCoreDF2.write.parquet("/tmp/user_parquet")特點(diǎn):采用更高效的數(shù)據(jù)格式保存數(shù)據(jù)使用列式存儲格式(比如parquet)使用統(tǒng)計(jì)數(shù)據(jù)自動跳過數(shù)據(jù)(如:min了赌、max)使用分區(qū)查詢下推:將謂詞下推到存儲系統(tǒng)執(zhí)行#Spark1.6后墨榄,出現(xiàn)DataFrame擴(kuò)展自DataFrame API,提供編譯時(shí)類型安全勿她,面向?qū)ο箫L(fēng)格的API?DataSet API? 類型安全? 高效:代碼生成編解碼器袄秩,序列化更高效? 協(xié)作:DataSet與DataFrame可互相轉(zhuǎn)換? DataFrame = DataSet[Row]#RDD、DataFrame逢并、DataSet的關(guān)系val parquetDF = spark.read.parquet(inpath) // parquet -> dataframe? val ds = parquetDF.as[UserCore] // dataframe -> dataset? val df = ds.toDF() // dataset -> dataframe? val dsRdd = ds.rdd // dataset -> rdd? val dfRdd = df.rdd // dataframe -> rdd*將RDD轉(zhuǎn)換成DF例子見DFTest.scala//顯式創(chuàng)建DF例子見DFTest2.scala*通過jdbc之剧,創(chuàng)建mql表的DF,在本地運(yùn)行,打出表的信息注意:需要實(shí)現(xiàn)在spark2.2 jars 目錄下有mysql的jar驅(qū)動包bin/spark-submit \--class bigdata.spark.sql.test.DFTest2 \--master local \./DFTest2.jar#SparkSQL與HIve相結(jié)合使用Spark SQL訪問Hive? 將hive安裝包中conf/hive-site.xml配置文件拷貝到spark安裝包的conf目錄下? 將mysql驅(qū)動jar包拷貝到spark安裝包的jars目錄下在node01中? 啟動:spark安裝包下bin/spark-sql/home/hadoop/apps/spark2.2/bin/spark-sqlspark-sql> show databases;spark-sql>use rel;spark-sql>show tables砍聊;spark-sql>select gender,sum(core) from user_core_info where age>20 group by gender;#構(gòu)建分布式SQL查詢引擎配置HiveServer2 Thrift服務(wù)的訪問地址和端口號? 方法:在hive-site.xml文件中添加hiveserver2的配置信息hive.server2.thrift.port10010hive.server2.thrift.bind.host192.168.183.101在node01上背稼,在spark的安裝目錄下? yarn-client模式啟動sbin/start-thriftserver.sh \--hiveconf hive.server2.thrift.port=10010 \--hiveconf hive.server2.thrift.bind.host=192.168.183.101 \--master yarn \--deploy-mode client \--executor-memory 3g \--executor-cores 1 \--num-executors 2 \--driver-cores 1 \--driver-memory 1g lsof -i:10010./bin/beeline!connect jdbc:hive2://192.168.183.101:10010Connecting to jdbc:hive2://192.168.183.101:10010Enter username for jdbc:hive2://192.168.183.101:10010: hadoopEnter password for jdbc:hive2://192.168.183.101:10010: ******

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市玻蝌,隨后出現(xiàn)的幾起案子蟹肘,更是在濱河造成了極大的恐慌,老刑警劉巖俯树,帶你破解...
    沈念sama閱讀 216,470評論 6 501
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件帘腹,死亡現(xiàn)場離奇詭異,居然都是意外死亡许饿,警方通過查閱死者的電腦和手機(jī)阳欲,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,393評論 3 392
  • 文/潘曉璐 我一進(jìn)店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來陋率,“玉大人胸完,你說我怎么就攤上這事∏讨” “怎么了赊窥?”我有些...
    開封第一講書人閱讀 162,577評論 0 353
  • 文/不壞的土叔 我叫張陵,是天一觀的道長狸页。 經(jīng)常有香客問我锨能,道長,這世上最難降的妖魔是什么芍耘? 我笑而不...
    開封第一講書人閱讀 58,176評論 1 292
  • 正文 為了忘掉前任址遇,我火速辦了婚禮,結(jié)果婚禮上斋竞,老公的妹妹穿的比我還像新娘倔约。我一直安慰自己,他們只是感情好坝初,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,189評論 6 388
  • 文/花漫 我一把揭開白布浸剩。 她就那樣靜靜地躺著钾军,像睡著了一般。 火紅的嫁衣襯著肌膚如雪绢要。 梳的紋絲不亂的頭發(fā)上吏恭,一...
    開封第一講書人閱讀 51,155評論 1 299
  • 那天,我揣著相機(jī)與錄音重罪,去河邊找鬼樱哼。 笑死,一個胖子當(dāng)著我的面吹牛剿配,可吹牛的內(nèi)容都是我干的搅幅。 我是一名探鬼主播,決...
    沈念sama閱讀 40,041評論 3 418
  • 文/蒼蘭香墨 我猛地睜開眼呼胚,長吁一口氣:“原來是場噩夢啊……” “哼茄唐!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起砸讳,我...
    開封第一講書人閱讀 38,903評論 0 274
  • 序言:老撾萬榮一對情侶失蹤琢融,失蹤者是張志新(化名)和其女友劉穎界牡,沒想到半個月后簿寂,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 45,319評論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡宿亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,539評論 2 332
  • 正文 我和宋清朗相戀三年常遂,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片挽荠。...
    茶點(diǎn)故事閱讀 39,703評論 1 348
  • 序言:一個原本活蹦亂跳的男人離奇死亡克胳,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出圈匆,到底是詐尸還是另有隱情漠另,我是刑警寧澤,帶...
    沈念sama閱讀 35,417評論 5 343
  • 正文 年R本政府宣布跃赚,位于F島的核電站笆搓,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏纬傲。R本人自食惡果不足惜满败,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,013評論 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望叹括。 院中可真熱鬧算墨,春花似錦、人聲如沸汁雷。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,664評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至面粮,卻和暖如春少孝,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背熬苍。 一陣腳步聲響...
    開封第一講書人閱讀 32,818評論 1 269
  • 我被黑心中介騙來泰國打工稍走, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人柴底。 一個月前我還...
    沈念sama閱讀 47,711評論 2 368
  • 正文 我出身青樓婿脸,卻偏偏與公主長得像,于是被迫代替她去往敵國和親柄驻。 傳聞我的和親對象是個殘疾皇子狐树,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,601評論 2 353

推薦閱讀更多精彩內(nèi)容