Spark SQL 開窗函數(shù)

  1. 談到 SQL 的開窗函數(shù)夺颤,要說到HIVE了佑附,因?yàn)檫@個(gè)是HIVE支持的特性瞭亮,但是在Spark SQL中支持HIVE 的垂券。那么讓我們看一看開窗函數(shù)是什么吧麻养。
  2. 什么是開窗函數(shù)呢 ?
  • 開窗函數(shù)也叫分析函數(shù)嘴办,有兩類:一類是聚合開窗函數(shù)十艾,一類是排序開窗函數(shù)芬为。
  • 開窗函數(shù)的調(diào)用格式為: 函數(shù)名(列名) over(partition by 列名 order by 列名)
  • 如果你沒有接觸過開窗函數(shù)上面這個(gè)格式你也許會(huì)有些疑惑派近,但你只要了解一些聚合函數(shù)攀唯,那么理解開窗函數(shù)就非常容易了,我們知道聚合函數(shù)對(duì)一組值進(jìn)行計(jì)算并返回單一的值渴丸,如sum(),count(),max(),min(),avg()等革答,這些函數(shù)常與group by 語句連用。但是一組數(shù)據(jù)只返回一組指是不能滿足需求的曙强,如我們常想知道的各個(gè)地區(qū)的第一名是誰残拐? 各個(gè)班級(jí)的前幾名是誰?這個(gè)時(shí)候需要每一組返回多個(gè)值碟嘴。 用開窗函數(shù)解決就非常方便溪食。
  1. 首先我們提一個(gè)需求。下面是一張班級(jí)表 其中name為學(xué)生姓名娜扇,class 為班級(jí)班級(jí)错沃,score 為成績栅组,那么我們提出一個(gè)需求:得出每個(gè)班級(jí)內(nèi)成績最高的學(xué)生信息。表名為 A枢析。


    image.png
  • 我們先使用傳統(tǒng)的方法進(jìn)行查找,但是需要?jiǎng)?chuàng)建臨時(shí)表才可以所以性能也不夠好玉掸,那么我們下面使用Spark SQL 中的開窗函數(shù)進(jìn)行優(yōu)化/
select  a.name, b.class, b.max from A  a 
     (select name,class,max(score) max from A group by class ) b
where  a.socre = b.score 
  1. 開窗函數(shù) (rank()、dense_rank()醒叁、row_number())
  • 思想:簡單點(diǎn)就就在你查詢的結(jié)果上司浪,直接多出來一個(gè)列(可以是聚合值或者是排序號(hào),本題就是排序號(hào))把沼。
  • 先把sql 寫出來然后在在Spark SQL 中實(shí)現(xiàn)
  • 先開窗
select name,class,score ,rank() over(partition by class order by sorce)
  • 結(jié)果為下圖:如果多出來的一列就是我們開窗函數(shù)要做到的效果啊易,那么接下來在找到班級(jí)的分?jǐn)?shù)最高的就太容易了


    image.png
  • 只需要加上一個(gè)查詢條件 就可以拿出想要的了。
select * from 
(select name,class,score ,rank() over(partition by class order by sorce)) as t
where t.rank = 1
  • Spark 代碼如下:
object OverFunction extends App {

  val sparkConf = new SparkConf().setAppName("over").setMaster("local[*]")

  val spark = SparkSession.builder().config(sparkConf).getOrCreate()

  import spark.implicits._
  println("http://***************  原始的班級(jí)表  ****************//")
  val scoreDF = spark.sparkContext.makeRDD(Array( Score("a", 1, 80),
    Score("b", 1, 78),
    Score("c", 1, 95),
    Score("d", 2, 74),
    Score("e", 2, 92),
    Score("f", 3, 99),
    Score("g", 3, 99),
    Score("h", 3, 45),
    Score("i", 3, 55),
    Score("j", 3, 78))).toDF("name","class","score")
  scoreDF.createOrReplaceTempView("score")
  scoreDF.show()

  println("http://***************  求每個(gè)班最高成績學(xué)生的信息  ***************/")
  println("    /*******  開窗函數(shù)的表  ********/")
  spark.sql("select name,class,score, rank() over(partition by class order by score desc) rank from score").show()

  println("    /*******  計(jì)算結(jié)果的表  *******")
  spark.sql("select * from " +
    "( select name,class,score,rank() over(partition by class order by score desc) rank from score) " +
    "as t " +
    "where t.rank=1").show()

  //spark.sql("select name,class,score,row_number() over(partition by class order by score desc) rank from score").show()

  println("/**************  求每個(gè)班最高成績學(xué)生的信息(groupBY)  ***************/")

  spark.sql("select class, max(score) max from score group by class").show()

  spark.sql("select a.name, b.class, b.max from score a, " +
    "(select class, max(score) max from score group by class) as b " +
    "where a.score = b.max").show()

  spark.stop()
}
  1. 常用的函數(shù)
  • row_number()沒有重復(fù)值的排序(記錄相等也是不重復(fù)的)饮睬,可以進(jìn)行分頁使用
  • rank() 跳躍排序租谈,有兩個(gè)第二名時(shí)后邊跟著的是第四名
  • dense_rank() 連續(xù)排序,有兩個(gè)第二名時(shí)仍然跟著第三名
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末捆愁,一起剝皮案震驚了整個(gè)濱河市割去,隨后出現(xiàn)的幾起案子,更是在濱河造成了極大的恐慌昼丑,老刑警劉巖呻逆,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場(chǎng)離奇詭異矾克,居然都是意外死亡页慷,警方通過查閱死者的電腦和手機(jī)憔足,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門胁附,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人滓彰,你說我怎么就攤上這事控妻。” “怎么了揭绑?”我有些...
    開封第一講書人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵弓候,是天一觀的道長。 經(jīng)常有香客問我他匪,道長菇存,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任邦蜜,我火速辦了婚禮依鸥,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘悼沈。我一直安慰自己贱迟,他們只是感情好姐扮,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著衣吠,像睡著了一般茶敏。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上缚俏,一...
    開封第一講書人閱讀 51,125評(píng)論 1 297
  • 那天惊搏,我揣著相機(jī)與錄音,去河邊找鬼袍榆。 笑死胀屿,一個(gè)胖子當(dāng)著我的面吹牛,可吹牛的內(nèi)容都是我干的包雀。 我是一名探鬼主播宿崭,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場(chǎng)噩夢(mèng)啊……” “哼才写!你這毒婦竟也來了葡兑?” 一聲冷哼從身側(cè)響起,我...
    開封第一講書人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬榮一對(duì)情侶失蹤赞草,失蹤者是張志新(化名)和其女友劉穎讹堤,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體厨疙,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡洲守,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了沾凄。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片梗醇。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖撒蟀,靈堂內(nèi)的尸體忽然破棺而出叙谨,到底是詐尸還是另有隱情,我是刑警寧澤保屯,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布手负,位于F島的核電站,受9級(jí)特大地震影響姑尺,放射性物質(zhì)發(fā)生泄漏竟终。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一切蟋、第九天 我趴在偏房一處隱蔽的房頂上張望统捶。 院中可真熱鬧,春花似錦、人聲如沸瘾境。這莊子的主人今日做“春日...
    開封第一講書人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽迷守。三九已至犬绒,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間兑凿,已是汗流浹背凯力。 一陣腳步聲響...
    開封第一講書人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留礼华,地道東北人咐鹤。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長得像圣絮,于是被迫代替她去往敵國和親祈惶。 傳聞我的和親對(duì)象是個(gè)殘疾皇子,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容