數(shù)據(jù)分析EPHS(6)-使用Spark計(jì)算數(shù)列統(tǒng)計(jì)值

關(guān)注小編的公眾號(hào)飘诗，后臺(tái)回復(fù)“進(jìn)群”教藻，一起來(lái)交流學(xué)習(xí)吧墓捻！

前兩篇中咱們分別介紹了使用Excel致板、Python和Hive SQL計(jì)算統(tǒng)計(jì)值交煞，這次咱們使用Spark SQL來(lái)計(jì)算統(tǒng)計(jì)值。

先來(lái)回顧一下數(shù)據(jù)和對(duì)應(yīng)的統(tǒng)計(jì)結(jié)果：

本文使用的是iris分類(lèi)數(shù)據(jù)集可岂，數(shù)據(jù)下載地址為：

http://archive.ics.uci.edu/ml/datasets/Iris

下載后轉(zhuǎn)換為xlsx格式的文件错敢，數(shù)據(jù)如下：

對(duì)應(yīng)的統(tǒng)計(jì)結(jié)果如下：

在介紹之前，我還是想先說(shuō)明一點(diǎn)缕粹，這一篇只是想先帶大家體驗(yàn)一把Spark SQL稚茅，相關(guān)更多關(guān)于原理相關(guān)的知識(shí)，咱們會(huì)在后面的文章中詳細(xì)介紹平斩。

1亚享、數(shù)據(jù)導(dǎo)入

這里咱們通過(guò)讀取Excel的方式讀取出相應(yīng)的數(shù)據(jù)，并得到一個(gè)DataFrame：

def createDFByCSV(spark:SparkSession) = {
    val df = spark.sqlContext.read.format("com.databricks.spark.csv")
      .option("header","true") //這里如果在csv第一行有屬性的話绘面，沒(méi)有就是"false"
      .option("inferSchema",true.toString)//這是自動(dòng)推斷屬性列的數(shù)據(jù)類(lèi)型欺税。
      .load("resources/iris.csv")

    df.show()
  }

結(jié)果如下：

2、使用Spark SQL計(jì)算統(tǒng)計(jì)值

2.1 最大值揭璃、最小值

使用Spark SQL統(tǒng)計(jì)最大值或者最小值晚凿，首先使用agg函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚合，這個(gè)函數(shù)一般配合group by使用瘦馍，不使用group by的話就相當(dāng)于對(duì)所有的數(shù)據(jù)進(jìn)行聚合歼秽。

隨后，直接使用max和min函數(shù)就可以情组，想要輸出多個(gè)結(jié)果的話燥筷，中間用逗號(hào)分開(kāi)，而使用as給聚合后的結(jié)果賦予一個(gè)列名院崇，相當(dāng)于sql中的as：

import spark.implicits._

    df.agg(max($"feature1") as "max_feature1",
        min($"feature2") as "min_feature2")
      .show()

結(jié)果輸出如下：

上面的$代表一列的意思肆氓，相當(dāng)于col函數(shù)：

df.agg(max(col("feature1")) as "max_feature1",
        min(col("feature2")) as "min_feature2")
      .show()

1.2 平均值

平均值的計(jì)算使用mean函數(shù)：

df.agg(mean($"feature1") as "mean_feature1",
      mean($"feature2") as "mean_feature2").show()

輸出為：

1.3 樣本標(biāo)準(zhǔn)差&總體標(biāo)準(zhǔn)差

樣本標(biāo)準(zhǔn)差的計(jì)算有兩個(gè)函數(shù)可以使用，分別是stddev函數(shù)和stddev_samp函數(shù)底瓣，而總體標(biāo)準(zhǔn)差使用stddev_pop方法谢揪。需要注意的一點(diǎn)是，這里和hive sql是有區(qū)別的，在hive sql中键耕，stddev函數(shù)代表的是總體標(biāo)準(zhǔn)差寺滚，而在spark sql中柑营，stddev函數(shù)代表的是樣本標(biāo)準(zhǔn)差屈雄，可以查看一下源代碼：

通過(guò)代碼驗(yàn)證一下：

df.agg(stddev($"feature1") as "stddev_feature1",
      stddev_pop($"feature1") as "stddev_pop_feature1",
      stddev_samp($"feature1") as "stddev_samp_feature1").show()

輸出結(jié)果為：

1.4 中位數(shù)

SparkSQL中也沒(méi)有直接計(jì)算中位數(shù)的方法，所以我們還是借鑒上一篇中的思路官套，再來(lái)回顧一下：

計(jì)算中位數(shù)也好酒奶，計(jì)算四分位數(shù)也好，無(wú)非就是要取得兩個(gè)位置嘛奶赔，假設(shè)我們的數(shù)據(jù)從小到大排惋嚎，按照1、2站刑、3另伍、.. 、n進(jìn)行編號(hào)绞旅，當(dāng)數(shù)量n為奇數(shù)時(shí)摆尝，取編號(hào)（n + 1）／2位置的數(shù)即可，當(dāng)n為偶數(shù)時(shí)因悲，取(int)（n + 1）／2位置和(int)（n + 1）／2 + 1位置的數(shù)取平均即可堕汞。但二者其實(shí)可以統(tǒng)一到一個(gè)公式中：

1）假設(shè)n = 149 ，(n+1)/2 = 75 晃琳，小數(shù)部分為0讯检，那么中位數(shù)=75位置的數(shù) * （1 - 0）+ 76位置的數(shù) * （0 - 0）
2）假設(shè)n = 150，(n+1)/2 = 75卫旱，小數(shù)部分為0.5,那么中位數(shù)=75位置的數(shù) * （1 - 0.5）+ 76位置的數(shù) * （0.5 - 0）

所以人灼，可以把這個(gè)過(guò)程分解為三個(gè)步驟，第一步是給數(shù)字進(jìn)行一個(gè)編號(hào)顾翼，spark中同樣使用row_number()函數(shù)（該函數(shù)的具體用法后續(xù)再展開(kāi)投放，這里只提供一個(gè)簡(jiǎn)單的例子），第二步是計(jì)算(n+1)/2的整數(shù)部分和小數(shù)部分暴构，第三步就是根據(jù)公式計(jì)算中位數(shù)跪呈。

首先使用row_number()給數(shù)據(jù)進(jìn)行編號(hào)：

val windowFun = Window.orderBy(col("feature3").asc)
df.withColumn("rank",row_number().over(windowFun)).show(false)

輸出如下：

接下來(lái)是確定中位數(shù)的位置，這里我們分別拿到（n + 1）／2的整數(shù)部分和小數(shù)部分：

val median_index = df.agg(
  ((count($"feature3") + 1) / 2).cast("int") as "rank",
  ((count($"feature3") + 1) / 2 %  1) as "float_part"
)

median_index.show()

輸出如下：

這里小數(shù)部分不為0取逾，意味著我們不僅要拿到rank=75的數(shù)耗绿，還要拿到rank=76的數(shù)，我們最好把其放到一行上砾隅，這里使用同樣lead函數(shù)误阻，lead函數(shù)的作用就是拿到分組排序后，下一個(gè)位置或下n個(gè)位置的數(shù)，咱們?cè)诤竺娴牟┛椭羞€會(huì)細(xì)講究反，這里也只是拋磚引玉：

val windowFun = Window.orderBy(col("feature3").asc)
df.withColumn("next_feature3",lead(col("feature3"),1).over(windowFun)).show(false)

輸出如下：

接下來(lái)寻定，join兩個(gè)表，按公式計(jì)算中位數(shù)就可以啦精耐，完整的代碼如下：

val median_index = df.agg(
  ((count($"feature3") + 1) / 2).cast("int") as "rank",
  ((count($"feature3") + 1) / 2 %  1) as "float_part"
)


val windowFun = Window.orderBy(col("feature3").asc)


df.withColumn("rank",row_number().over(windowFun))
  .withColumn("next_feature3",lead(col("feature3"),1).over(windowFun))
  .join(median_index,Seq("rank"),"inner")
  .withColumn("median" ,($"float_part" - lit(0)) * $"next_feature3" + (lit(1) - $"float_part") * $"feature3")
  .show()

輸出如下：

1.5 四分位數(shù)

先來(lái)復(fù)習(xí)下四分位數(shù)的兩種解法狼速，n+1方法和n-1方法：

對(duì)于n+1方法，如果數(shù)據(jù)量為n卦停，則四分位數(shù)的位置為：

Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75

對(duì)于n-1方法向胡，如果數(shù)據(jù)量為n，則四分位數(shù)的位置為：

Q1的位置=1+（n-1）x 0.25
Q2的位置=1+（n-1）x 0.5
Q3的位置=1+（n-1）x 0.75

這里的思路和求解中位數(shù)是一樣的惊完，我們分別實(shí)現(xiàn)一下兩種方法僵芹，首先是n+1方法：

val q1_index = df.agg(
  ((count($"feature3") + 1) * 0.25).cast("int") as "rank",
  ((count($"feature3") + 1) * 0.25 %  1) as "float_part"
)


val windowFun = Window.orderBy(col("feature3").asc)


df.withColumn("rank",row_number().over(windowFun))
  .withColumn("next_feature3",lead(col("feature3"),1).over(windowFun))
  .join(q1_index,Seq("rank"),"inner")
  .withColumn("q1" ,($"float_part" - lit(0)) * $"next_feature3" + (lit(1) - $"float_part") * $"feature3")
  .show()

輸出為：

接下來(lái)是n-1方法：

val q1_index = df.agg(
  ((count($"feature3") - 1) * 0.25).cast("int") + 1 as "rank",
  ((count($"feature3") - 1) * 0.25 %  1) as "float_part"
)


val windowFun = Window.orderBy(col("feature3").asc)


df.withColumn("rank",row_number().over(windowFun))
  .withColumn("next_feature3",lead(col("feature3"),1).over(windowFun))
  .join(q1_index,Seq("rank"),"inner")
  .withColumn("q1" ,($"float_part" - lit(0)) * $"next_feature3" + (lit(1) - $"float_part") * $"feature3")
  .show()

輸出為：

3、踩坑總結(jié)

在計(jì)算中位數(shù)或者四分位數(shù)時(shí)小槐，我一開(kāi)始的寫(xiě)法如下：

很奇怪的一點(diǎn)是拇派，$"float_part" - 0沒(méi)有報(bào)錯(cuò)，1 - $"float_part"卻報(bào)錯(cuò)了凿跳，報(bào)的錯(cuò)誤是：

看這里大家應(yīng)該明白了件豌，$"float_part" - 0中，減號(hào)左右兩邊的數(shù)據(jù)都應(yīng)該是列名拄显，與$"float_part" 類(lèi)型相同苟径，但是1 - $"float_part"兩邊都應(yīng)該是個(gè)數(shù)字，與1的類(lèi)型相同躬审，所以后面一個(gè)報(bào)錯(cuò)了棘街。

因此修改的方法是：

使用lit方法創(chuàng)建了一個(gè)全為0或者全為1的列，使得減號(hào)左右兩邊類(lèi)型匹配承边。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末遭殉，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子博助，更是在濱河造成了極大的恐慌险污，老刑警劉巖，帶你破解...
沈念sama閱讀 216,372評(píng)論 6贊 498
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件富岳，死亡現(xiàn)場(chǎng)離奇詭異蛔糯，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)窖式，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 92,368評(píng)論 3贊 392
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門(mén)蚁飒，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人萝喘，你說(shuō)我怎么就攤上這事淮逻∏戆茫” “怎么了？”我有些...
開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0贊 353
道士緝兇錄：失蹤的賣(mài)姜人
文/不壞的土叔我叫張陵爬早，是天一觀的道長(zhǎng)哼丈。經(jīng)常有香客問(wèn)我，道長(zhǎng)筛严，這世上最難降的妖魔是什么醉旦？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1贊 292
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮脑漫，結(jié)果婚禮上髓抑，老公的妹妹穿的比我還像新娘。我一直安慰自己优幸，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,171評(píng)論 6贊 388
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布褪猛。她就那樣靜靜地躺著网杆，像睡著了一般。火紅的嫁衣襯著肌膚如雪伊滋。梳的紋絲不亂的頭發(fā)上碳却，一...
開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1贊 297
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音笑旺，去河邊找鬼昼浦。笑死，一個(gè)胖子當(dāng)著我的面吹牛筒主，可吹牛的內(nèi)容都是我干的关噪。我是一名探鬼主播，決...
沈念sama閱讀 40,028評(píng)論 3贊 417
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼乌妙，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼使兔！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起藤韵，我...
開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0贊 274
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤虐沥，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后泽艘，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體欲险，經(jīng)...
沈念sama閱讀 45,310評(píng)論 1贊 310
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,533評(píng)論 2贊 332
?白月光啟示錄
正文我和宋清朗相戀三年匹涮，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了天试。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 39,690評(píng)論 1贊 348
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡焕盟，死狀恐怖秋秤，靈堂內(nèi)的尸體忽然破棺而出宏粤，到底是詐尸還是另有隱情，我是刑警寧澤灼卢，帶...
沈念sama閱讀 35,411評(píng)論 5贊 343
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布绍哎，位于F島的核電站，受9級(jí)特大地震影響鞋真，放射性物質(zhì)發(fā)生泄漏崇堰。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,004評(píng)論 3贊 325
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一涩咖、第九天我趴在偏房一處隱蔽的房頂上張望海诲。院中可真熱鬧，春花似錦檩互、人聲如沸特幔。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0贊 22
一樁弒父案闸昨，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)蚯斯。三九已至，卻和暖如春饵较，著一層夾襖步出監(jiān)牢的瞬間拍嵌，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1贊 268
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工循诉，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留横辆，地道東北人。一個(gè)月前我還...
沈念sama閱讀 47,693評(píng)論 2贊 368
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親所刀。傳聞我的和親對(duì)象是個(gè)殘疾皇子探入，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,577評(píng)論 2贊 353

數(shù)據(jù)分析EPHS(6)-使用Spark計(jì)算數(shù)列統(tǒng)計(jì)值

1亚享、數(shù)據(jù)導(dǎo)入

2、使用Spark SQL計(jì)算統(tǒng)計(jì)值

2.1 最大值揭璃、最小值

1.2 平均值

1.3 樣本標(biāo)準(zhǔn)差&總體標(biāo)準(zhǔn)差

1.4 中位數(shù)

1.5 四分位數(shù)

3、踩坑總結(jié)

推薦閱讀更多精彩內(nèi)容