SparkSQL基礎(chǔ)

* SparkSQL基礎(chǔ)

起源:

1邓厕、在三四年前,Hive可以說是SQL on Hadoop的唯一選擇,負(fù)責(zé)將SQL編譯成可擴(kuò)展的MapReduce作業(yè)宠哄。鑒于Hive的性能以及與Spark的兼容垫蛆,Shark項(xiàng)目由此而生禽最。

2、Shark即Hive on Spark袱饭,本質(zhì)上是通過Hive的HQL解析川无,把HQL翻譯成Spark上的RDD操作,然后通過Hive的metadata獲取數(shù)據(jù)庫(kù)里的表信息虑乖,實(shí)際HDFS上的數(shù)據(jù)和文件懦趋,會(huì)由Shark獲取并放到Spark上運(yùn)算。

3疹味、Shark的最大特性就是快和與Hive的完全兼容仅叫,且可以在shell模式下使用rdd2sql()這樣的API,把HQL得到的結(jié)果集糙捺,繼續(xù)在scala環(huán)境下運(yùn)算诫咱,支持自己編寫簡(jiǎn)單的機(jī)器學(xué)習(xí)或簡(jiǎn)單分析處理函數(shù),對(duì)HQL結(jié)果進(jìn)一步分析計(jì)算洪灯。

歷史:

1坎缭、在2014年7月1日的Spark Summit上,Databricks宣布終止對(duì)Shark的開發(fā),將重點(diǎn)放到Spark SQL上掏呼。

2坏快、Databricks表示,Spark SQL將涵蓋Shark的所有特性哄尔,用戶可以從Shark 0.9進(jìn)行無縫的升級(jí)假消。

3、Databricks推廣的Shark相關(guān)項(xiàng)目一共有兩個(gè)岭接,分別是Spark SQL和新的Hive on Spark(HIVE-7292)

4富拗、Databricks表示,Shark更多是對(duì)Hive的改造鸣戴,替換了Hive的物理執(zhí)行引擎啃沪,因此會(huì)有一個(gè)很快的速度。然而窄锅,不容忽視的是创千,Shark繼承了大量的Hive代碼,因此給優(yōu)化和維護(hù)帶來了大量的麻煩入偷。

SparkSQL與HIVE集成

1追驴、拷貝hive-site.xml到spark-conf目錄下

2、$ mkdir externaljars

3疏之、拷貝hive下面的mysql驅(qū)動(dòng)到spark的externaljars目錄下

4殿雪、啟動(dòng)Spark-Shell

$ bin/spark-shell --master local[2] --jars externaljars/mysql-connector-java-5.1.27-bin.jar

在SparkSQL中讀取表的兩種方式:

方式一:

直接使用sqlContext對(duì)象執(zhí)行sql語句,返回一個(gè)DataFrame對(duì)象锋爪,然后我們就可以show一下表中的內(nèi)容了

scala> val df = sqlContext.sql("select * from track_log")

scala> df.show

方式二:

使用DSL(Domain specific language)語句

scala> val df = sqlContext.table("track_log")

scala> df.select("id", "sessionid").show

測(cè)試練習(xí):

案例中涉及到的數(shù)據(jù)在之前的Hive章節(jié)中已經(jīng)有所介紹丙曙,數(shù)據(jù)也提供了傳送門下載地址,不再贅述其骄,內(nèi)容如下:

案例一:嘗試使用sqlContext查詢一張表亏镰,將部門編號(hào)相同的信息統(tǒng)一join到一起。

案例二:嘗試使用spark-sql運(yùn)行如下命令

Step1拯爽、啟動(dòng)spark-sql

$ bin/spark-sql

Step2索抓、將表直接緩存到內(nèi)存中,在4040端口即可查看緩存到的表數(shù)據(jù)占用內(nèi)存的大小毯炮,操作如下:

緩存表

spark-sql> cache table track_log

撤銷緩存的表

spark-sql>uncache table track_log

案例三:每個(gè)部門的工資按照降序排列

可以使用SparkSQL執(zhí)行如下代碼:

如果我們只想展示出每個(gè)部門前三名的工資逼肯,可以這樣操作:

當(dāng)然了,求個(gè)平均什么的否副,再正常不過了汉矿。

* 總結(jié)

只要你的SQL語句用得好崎坊,sparkCore理解的通透备禀,Hive玩的6,SparkSQL就會(huì)很簡(jiǎn)單。:)


IT全棧公眾號(hào):

QQ大數(shù)據(jù)技術(shù)交流群(廣告勿入):476966007


下一節(jié):SparkStreaming基礎(chǔ)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末曲尸,一起剝皮案震驚了整個(gè)濱河市赋续,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌另患,老刑警劉巖纽乱,帶你破解...
    沈念sama閱讀 206,311評(píng)論 6 481
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異昆箕,居然都是意外死亡鸦列,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 88,339評(píng)論 2 382
  • 文/潘曉璐 我一進(jìn)店門鹏倘,熙熙樓的掌柜王于貴愁眉苦臉地迎上來薯嗤,“玉大人,你說我怎么就攤上這事纤泵÷娼悖” “怎么了?”我有些...
    開封第一講書人閱讀 152,671評(píng)論 0 342
  • 文/不壞的土叔 我叫張陵捏题,是天一觀的道長(zhǎng)玻褪。 經(jīng)常有香客問我,道長(zhǎng)公荧,這世上最難降的妖魔是什么带射? 我笑而不...
    開封第一講書人閱讀 55,252評(píng)論 1 279
  • 正文 為了忘掉前任,我火速辦了婚禮稚矿,結(jié)果婚禮上庸诱,老公的妹妹穿的比我還像新娘。我一直安慰自己晤揣,他們只是感情好桥爽,可當(dāng)我...
    茶點(diǎn)故事閱讀 64,253評(píng)論 5 371
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著昧识,像睡著了一般钠四。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上跪楞,一...
    開封第一講書人閱讀 49,031評(píng)論 1 285
  • 那天缀去,我揣著相機(jī)與錄音,去河邊找鬼甸祭。 笑死缕碎,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的池户。 我是一名探鬼主播咏雌,決...
    沈念sama閱讀 38,340評(píng)論 3 399
  • 文/蒼蘭香墨 我猛地睜開眼凡怎,長(zhǎng)吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼!你這毒婦竟也來了赊抖?” 一聲冷哼從身側(cè)響起统倒,我...
    開封第一講書人閱讀 36,973評(píng)論 0 259
  • 序言:老撾萬榮一對(duì)情侶失蹤,失蹤者是張志新(化名)和其女友劉穎氛雪,沒想到半個(gè)月后房匆,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 43,466評(píng)論 1 300
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡报亩,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 35,937評(píng)論 2 323
  • 正文 我和宋清朗相戀三年浴鸿,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片弦追。...
    茶點(diǎn)故事閱讀 38,039評(píng)論 1 333
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡赚楚,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出骗卜,到底是詐尸還是另有隱情宠页,我是刑警寧澤,帶...
    沈念sama閱讀 33,701評(píng)論 4 323
  • 正文 年R本政府宣布寇仓,位于F島的核電站举户,受9級(jí)特大地震影響,放射性物質(zhì)發(fā)生泄漏遍烦。R本人自食惡果不足惜俭嘁,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 39,254評(píng)論 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望服猪。 院中可真熱鬧供填,春花似錦、人聲如沸罢猪。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,259評(píng)論 0 19
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)膳帕。三九已至粘捎,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間危彩,已是汗流浹背攒磨。 一陣腳步聲響...
    開封第一講書人閱讀 31,485評(píng)論 1 262
  • 我被黑心中介騙來泰國(guó)打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留汤徽,地道東北人娩缰。 一個(gè)月前我還...
    沈念sama閱讀 45,497評(píng)論 2 354
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像谒府,于是被迫代替她去往敵國(guó)和親拼坎。 傳聞我的和親對(duì)象是個(gè)殘疾皇子梧奢,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 42,786評(píng)論 2 345

推薦閱讀更多精彩內(nèi)容