數(shù)據(jù)分析EPHS(6)-使用Spark計(jì)算數(shù)列統(tǒng)計(jì)值

關(guān)注小編的公眾號(hào)飘诗,后臺(tái)回復(fù)“進(jìn)群”教藻,一起來(lái)交流學(xué)習(xí)吧墓捻!

前兩篇中咱們分別介紹了使用Excel致板、Python和Hive SQL計(jì)算統(tǒng)計(jì)值交煞,這次咱們使用Spark SQL來(lái)計(jì)算統(tǒng)計(jì)值。

先來(lái)回顧一下數(shù)據(jù)和對(duì)應(yīng)的統(tǒng)計(jì)結(jié)果:

本文使用的是iris分類(lèi)數(shù)據(jù)集可岂,數(shù)據(jù)下載地址為:

http://archive.ics.uci.edu/ml/datasets/Iris

下載后轉(zhuǎn)換為xlsx格式的文件错敢,數(shù)據(jù)如下:

對(duì)應(yīng)的統(tǒng)計(jì)結(jié)果如下:

在介紹之前,我還是想先說(shuō)明一點(diǎn)缕粹,這一篇只是想先帶大家體驗(yàn)一把Spark SQL稚茅,相關(guān)更多關(guān)于原理相關(guān)的知識(shí),咱們會(huì)在后面的文章中詳細(xì)介紹平斩。

1亚享、數(shù)據(jù)導(dǎo)入

這里咱們通過(guò)讀取Excel的方式讀取出相應(yīng)的數(shù)據(jù),并得到一個(gè)DataFrame:

def createDFByCSV(spark:SparkSession) = {
    val df = spark.sqlContext.read.format("com.databricks.spark.csv")
      .option("header","true") //這里如果在csv第一行有屬性的話绘面,沒(méi)有就是"false"
      .option("inferSchema",true.toString)//這是自動(dòng)推斷屬性列的數(shù)據(jù)類(lèi)型欺税。
      .load("resources/iris.csv")

    df.show()
  }

結(jié)果如下:

2、使用Spark SQL計(jì)算統(tǒng)計(jì)值

2.1 最大值揭璃、最小值

使用Spark SQL統(tǒng)計(jì)最大值或者最小值晚凿,首先使用agg函數(shù)對(duì)數(shù)據(jù)進(jìn)行聚合,這個(gè)函數(shù)一般配合group by使用瘦馍,不使用group by的話就相當(dāng)于對(duì)所有的數(shù)據(jù)進(jìn)行聚合歼秽。

隨后,直接使用max和min函數(shù)就可以情组,想要輸出多個(gè)結(jié)果的話燥筷,中間用逗號(hào)分開(kāi),而使用as給聚合后的結(jié)果賦予一個(gè)列名院崇,相當(dāng)于sql中的as:

import spark.implicits._

    df.agg(max($"feature1") as "max_feature1",
        min($"feature2") as "min_feature2")
      .show()

結(jié)果輸出如下:

上面的$代表一列的意思肆氓,相當(dāng)于col函數(shù):

df.agg(max(col("feature1")) as "max_feature1",
        min(col("feature2")) as "min_feature2")
      .show()

1.2 平均值

平均值的計(jì)算使用mean函數(shù):

df.agg(mean($"feature1") as "mean_feature1",
      mean($"feature2") as "mean_feature2").show()

輸出為:

1.3 樣本標(biāo)準(zhǔn)差&總體標(biāo)準(zhǔn)差

樣本標(biāo)準(zhǔn)差的計(jì)算有兩個(gè)函數(shù)可以使用,分別是stddev函數(shù)和stddev_samp函數(shù)底瓣,而總體標(biāo)準(zhǔn)差使用stddev_pop方法谢揪。需要注意的一點(diǎn)是,這里和hive sql是有區(qū)別的,在hive sql中键耕,stddev函數(shù)代表的是總體標(biāo)準(zhǔn)差寺滚,而在spark sql中柑营,stddev函數(shù)代表的是樣本標(biāo)準(zhǔn)差屈雄,可以查看一下源代碼:

通過(guò)代碼驗(yàn)證一下:

df.agg(stddev($"feature1") as "stddev_feature1",
      stddev_pop($"feature1") as "stddev_pop_feature1",
      stddev_samp($"feature1") as "stddev_samp_feature1").show()

輸出結(jié)果為:

1.4 中位數(shù)

SparkSQL中也沒(méi)有直接計(jì)算中位數(shù)的方法,所以我們還是借鑒上一篇中的思路官套,再來(lái)回顧一下:

計(jì)算中位數(shù)也好酒奶,計(jì)算四分位數(shù)也好,無(wú)非就是要取得兩個(gè)位置嘛奶赔,假設(shè)我們的數(shù)據(jù)從小到大排惋嚎,按照1、2站刑、3另伍、.. 、n進(jìn)行編號(hào)绞旅,當(dāng)數(shù)量n為奇數(shù)時(shí)摆尝,取編號(hào)(n + 1)/2位置的數(shù)即可,當(dāng)n為偶數(shù)時(shí)因悲,取(int)(n + 1)/2位置和(int)(n + 1)/2 + 1位置的數(shù)取平均即可堕汞。但二者其實(shí)可以統(tǒng)一到一個(gè)公式中:

1)假設(shè)n = 149 ,(n+1)/2 = 75 晃琳,小數(shù)部分為0讯检,那么中位數(shù)=75位置的數(shù) * (1 - 0)+ 76位置的數(shù) * (0 - 0)
2)假設(shè)n = 150,(n+1)/2 = 75卫旱,小數(shù)部分為0.5,那么中位數(shù)=75位置的數(shù) * (1 - 0.5)+ 76位置的數(shù) * (0.5 - 0)

所以人灼,可以把這個(gè)過(guò)程分解為三個(gè)步驟,第一步是給數(shù)字進(jìn)行一個(gè)編號(hào)顾翼,spark中同樣使用row_number()函數(shù)(該函數(shù)的具體用法后續(xù)再展開(kāi)投放,這里只提供一個(gè)簡(jiǎn)單的例子),第二步是計(jì)算(n+1)/2的整數(shù)部分和小數(shù)部分暴构,第三步就是根據(jù)公式計(jì)算中位數(shù)跪呈。

首先使用row_number()給數(shù)據(jù)進(jìn)行編號(hào):

val windowFun = Window.orderBy(col("feature3").asc)
df.withColumn("rank",row_number().over(windowFun)).show(false)

輸出如下:

接下來(lái)是確定中位數(shù)的位置,這里我們分別拿到(n + 1)/2的整數(shù)部分和小數(shù)部分:

val median_index = df.agg(
  ((count($"feature3") + 1) / 2).cast("int") as "rank",
  ((count($"feature3") + 1) / 2 %  1) as "float_part"
)

median_index.show()

輸出如下:

這里小數(shù)部分不為0取逾,意味著我們不僅要拿到rank=75的數(shù)耗绿,還要拿到rank=76的數(shù),我們最好把其放到一行上砾隅,這里使用同樣lead函數(shù)误阻,lead函數(shù)的作用就是拿到分組排序后,下一個(gè)位置或下n個(gè)位置的數(shù),咱們?cè)诤竺娴牟┛椭羞€會(huì)細(xì)講究反,這里也只是拋磚引玉:

val windowFun = Window.orderBy(col("feature3").asc)
df.withColumn("next_feature3",lead(col("feature3"),1).over(windowFun)).show(false)

輸出如下:

接下來(lái)寻定,join兩個(gè)表,按公式計(jì)算中位數(shù)就可以啦精耐,完整的代碼如下:

val median_index = df.agg(
  ((count($"feature3") + 1) / 2).cast("int") as "rank",
  ((count($"feature3") + 1) / 2 %  1) as "float_part"
)


val windowFun = Window.orderBy(col("feature3").asc)


df.withColumn("rank",row_number().over(windowFun))
  .withColumn("next_feature3",lead(col("feature3"),1).over(windowFun))
  .join(median_index,Seq("rank"),"inner")
  .withColumn("median" ,($"float_part" - lit(0)) * $"next_feature3" + (lit(1) - $"float_part") * $"feature3")
  .show()

輸出如下:

1.5 四分位數(shù)

先來(lái)復(fù)習(xí)下四分位數(shù)的兩種解法狼速,n+1方法和n-1方法:

對(duì)于n+1方法,如果數(shù)據(jù)量為n卦停,則四分位數(shù)的位置為:

Q1的位置= (n+1) × 0.25
Q2的位置= (n+1) × 0.5
Q3的位置= (n+1) × 0.75

對(duì)于n-1方法向胡,如果數(shù)據(jù)量為n,則四分位數(shù)的位置為:

Q1的位置=1+(n-1)x 0.25
Q2的位置=1+(n-1)x 0.5
Q3的位置=1+(n-1)x 0.75

這里的思路和求解中位數(shù)是一樣的惊完,我們分別實(shí)現(xiàn)一下兩種方法僵芹,首先是n+1方法:

val q1_index = df.agg(
  ((count($"feature3") + 1) * 0.25).cast("int") as "rank",
  ((count($"feature3") + 1) * 0.25 %  1) as "float_part"
)


val windowFun = Window.orderBy(col("feature3").asc)


df.withColumn("rank",row_number().over(windowFun))
  .withColumn("next_feature3",lead(col("feature3"),1).over(windowFun))
  .join(q1_index,Seq("rank"),"inner")
  .withColumn("q1" ,($"float_part" - lit(0)) * $"next_feature3" + (lit(1) - $"float_part") * $"feature3")
  .show()

輸出為:

接下來(lái)是n-1方法:

val q1_index = df.agg(
  ((count($"feature3") - 1) * 0.25).cast("int") + 1 as "rank",
  ((count($"feature3") - 1) * 0.25 %  1) as "float_part"
)


val windowFun = Window.orderBy(col("feature3").asc)


df.withColumn("rank",row_number().over(windowFun))
  .withColumn("next_feature3",lead(col("feature3"),1).over(windowFun))
  .join(q1_index,Seq("rank"),"inner")
  .withColumn("q1" ,($"float_part" - lit(0)) * $"next_feature3" + (lit(1) - $"float_part") * $"feature3")
  .show()

輸出為:

3、踩坑總結(jié)

在計(jì)算中位數(shù)或者四分位數(shù)時(shí)小槐,我一開(kāi)始的寫(xiě)法如下:

很奇怪的一點(diǎn)是拇派,$"float_part" - 0沒(méi)有報(bào)錯(cuò),1 - $"float_part"卻報(bào)錯(cuò)了凿跳,報(bào)的錯(cuò)誤是:

看這里大家應(yīng)該明白了件豌,$"float_part" - 0中,減號(hào)左右兩邊的數(shù)據(jù)都應(yīng)該是列名拄显,與$"float_part" 類(lèi)型相同苟径,但是1 - $"float_part"兩邊都應(yīng)該是個(gè)數(shù)字,與1的類(lèi)型相同躬审,所以后面一個(gè)報(bào)錯(cuò)了棘街。

因此修改的方法是:

使用lit方法創(chuàng)建了一個(gè)全為0或者全為1的列,使得減號(hào)左右兩邊類(lèi)型匹配承边。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
  • 序言:七十年代末遭殉,一起剝皮案震驚了整個(gè)濱河市,隨后出現(xiàn)的幾起案子博助,更是在濱河造成了極大的恐慌险污,老刑警劉巖,帶你破解...
    沈念sama閱讀 216,372評(píng)論 6 498
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件富岳,死亡現(xiàn)場(chǎng)離奇詭異蛔糯,居然都是意外死亡,警方通過(guò)查閱死者的電腦和手機(jī)窖式,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 92,368評(píng)論 3 392
  • 文/潘曉璐 我一進(jìn)店門(mén)蚁飒,熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái),“玉大人萝喘,你說(shuō)我怎么就攤上這事淮逻∏戆茫” “怎么了?”我有些...
    開(kāi)封第一講書(shū)人閱讀 162,415評(píng)論 0 353
  • 文/不壞的土叔 我叫張陵爬早,是天一觀的道長(zhǎng)哼丈。 經(jīng)常有香客問(wèn)我,道長(zhǎng)筛严,這世上最難降的妖魔是什么醉旦? 我笑而不...
    開(kāi)封第一講書(shū)人閱讀 58,157評(píng)論 1 292
  • 正文 為了忘掉前任,我火速辦了婚禮脑漫,結(jié)果婚禮上髓抑,老公的妹妹穿的比我還像新娘。我一直安慰自己优幸,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,171評(píng)論 6 388
  • 文/花漫 我一把揭開(kāi)白布褪猛。 她就那樣靜靜地躺著网杆,像睡著了一般。 火紅的嫁衣襯著肌膚如雪伊滋。 梳的紋絲不亂的頭發(fā)上碳却,一...
    開(kāi)封第一講書(shū)人閱讀 51,125評(píng)論 1 297
  • 那天,我揣著相機(jī)與錄音笑旺,去河邊找鬼昼浦。 笑死,一個(gè)胖子當(dāng)著我的面吹牛筒主,可吹牛的內(nèi)容都是我干的关噪。 我是一名探鬼主播,決...
    沈念sama閱讀 40,028評(píng)論 3 417
  • 文/蒼蘭香墨 我猛地睜開(kāi)眼乌妙,長(zhǎng)吁一口氣:“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼使兔!你這毒婦竟也來(lái)了?” 一聲冷哼從身側(cè)響起藤韵,我...
    開(kāi)封第一講書(shū)人閱讀 38,887評(píng)論 0 274
  • 序言:老撾萬(wàn)榮一對(duì)情侶失蹤虐沥,失蹤者是張志新(化名)和其女友劉穎,沒(méi)想到半個(gè)月后泽艘,有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體欲险,經(jīng)...
    沈念sama閱讀 45,310評(píng)論 1 310
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡,尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,533評(píng)論 2 332
  • 正文 我和宋清朗相戀三年匹涮,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了天试。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 39,690評(píng)論 1 348
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡焕盟,死狀恐怖秋秤,靈堂內(nèi)的尸體忽然破棺而出宏粤,到底是詐尸還是另有隱情,我是刑警寧澤灼卢,帶...
    沈念sama閱讀 35,411評(píng)論 5 343
  • 正文 年R本政府宣布绍哎,位于F島的核電站,受9級(jí)特大地震影響鞋真,放射性物質(zhì)發(fā)生泄漏崇堰。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,004評(píng)論 3 325
  • 文/蒙蒙 一涩咖、第九天 我趴在偏房一處隱蔽的房頂上張望海诲。 院中可真熱鬧,春花似錦檩互、人聲如沸特幔。這莊子的主人今日做“春日...
    開(kāi)封第一講書(shū)人閱讀 31,659評(píng)論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽(yáng)蚯斯。三九已至,卻和暖如春饵较,著一層夾襖步出監(jiān)牢的瞬間拍嵌,已是汗流浹背。 一陣腳步聲響...
    開(kāi)封第一講書(shū)人閱讀 32,812評(píng)論 1 268
  • 我被黑心中介騙來(lái)泰國(guó)打工循诉, 沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留横辆,地道東北人。 一個(gè)月前我還...
    沈念sama閱讀 47,693評(píng)論 2 368
  • 正文 我出身青樓,卻偏偏與公主長(zhǎng)得像,于是被迫代替她去往敵國(guó)和親所刀。 傳聞我的和親對(duì)象是個(gè)殘疾皇子探入,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 44,577評(píng)論 2 353

推薦閱讀更多精彩內(nèi)容