Spark DataFrame 開(kāi)發(fā)指南

DataFrame 是 Spark 在 RDD 之后新推出的一個(gè)數(shù)據(jù)集，從屬于 Spark SQL 模塊劫瞳，適用于結(jié)構(gòu)化數(shù)據(jù)和媳。對(duì)于我們這些用慣了數(shù)據(jù)庫(kù)表和散列/字典結(jié)構(gòu)的人來(lái)說(shuō)闰渔，尤為親切暮现。

女神鎮(zhèn)樓

可以直接讀取關(guān)系型數(shù)據(jù)庫(kù)產(chǎn)生 DataFrame：

from pyspark.sql import SparkSession
spark = SparkSession \
        .builder \
        .appName("myapp") \
        .config("spark.sql.shuffle.partitions", 10) \
        .getOrCreate()
table = "(select * from users where province='jiangxi') as myusers"
df = spark.read \
                .format("jdbc") \
                .option("driver", "com.mysql.jdbc.Driver") \
                .option("url", "jdbc:mysql://"+dbhost+"/"+dbname) \
                .option("dbtable", table) \
                .option("user", dbuser) \
                .option("password", dbpass) \
                .option("partitionColumn", partitionColumn) \
                .option("lowerBound", lowerBound) \
                .option("upperBound", upperBound) \
                .option("numPartitions", "4") \
                .load()

幾個(gè)選項(xiàng)說(shuō)明一下：

url - 數(shù)據(jù)庫(kù)的 JDBC 連接串
dbtable - 可以是表名还绘，也可以是一個(gè)子查詢。如果是子查詢的話栖袋，必須用括號(hào)括起來(lái)，并加別名抚太，參見(jiàn)上面代碼示例塘幅。
user - 數(shù)據(jù)庫(kù)用戶名
password - 數(shù)據(jù)庫(kù)密碼
partitionColumn - 用于并發(fā)分區(qū)的表字段昔案。下面幾個(gè)選項(xiàng)都是圍繞這個(gè)字段來(lái)的。Spark 會(huì)根據(jù)分區(qū)數(shù)量按這個(gè)字段的上下限把取出來(lái)的數(shù)據(jù)等分成幾份电媳，并行處理踏揣。
lowerBound - 字段下限
upperBound - 字段上限
numPartitions - 分區(qū)數(shù)量

得到的 DataFrame，可以通過(guò)字段名來(lái)引用列或者某行的值匾乓，如：

username = df.name
age = df["age"]

而不像以前用 RDD捞稿，老是 split 成元組，然后 0拼缝、1娱局、2、3... 地引用咧七，很容易搞錯(cuò)位置衰齐。

調(diào)用 show 方法可以查看 DataFrame 里的數(shù)據(jù)：

df.show()

如果數(shù)據(jù)當(dāng)中有中文的話，show 方法會(huì)報(bào)編碼錯(cuò)誤继阻，需要提前設(shè)置一下環(huán)境變量：

export PYTHONIOENCODING=utf8

然后耻涛，就可以像 RDD 一樣，進(jìn)行各種數(shù)據(jù)變化瘟檩、聚合操作了抹缕。不過(guò)遍查文檔，你也找不到 DataFrame 的 map 方法墨辛，你需要用 select 和 withColumn 這兩個(gè)方法來(lái)替代歉嗓。其實(shí)回想 DataFrame 在 Saprk SQL 這個(gè)模塊里，所以它的很多行為都會(huì)非常像關(guān)系數(shù)據(jù)庫(kù)的 SQL 查詢背蟆。

可以把每個(gè) DataFrame 都想象成一個(gè)臨時(shí)表鉴分，select 方法，就是從這個(gè)表里選擇出一些字段带膀，做一點(diǎn)變換志珍，變成另外一個(gè) DataFrame（另外一個(gè)臨時(shí)表）：

df2 = df.select(df['name'], df['age'] + 1)
df2.show()
# +-------+---------+
# |   name|(age + 1)|
# +-------+---------+
# |Michael|     null|
# |   Andy|       31|
# | Justin|       20|
# +-------+---------+

在實(shí)際使用中，我們經(jīng)常會(huì)在某個(gè) DataFrame 基礎(chǔ)上加上一個(gè)變換后的字段垛叨，如果用 select 來(lái)寫(xiě)伦糯，就是這樣：

import pyspark.sql.functions as F
df3 = df2.select("*", F.abs(df2.age).alias("abs_age"))

這里有三個(gè)新知識(shí)點(diǎn)：一個(gè)是在 select 中使用 "*"，這樣可以避免我們把 df2 的所有字段重新敲一遍嗽元。然后我們新增了一個(gè)字段敛纲，是 age 的絕對(duì)值。我們這里用到了 abs 函數(shù)剂癌，它來(lái)自 pyspark.sql.functions淤翔，是 spark 內(nèi)置的眾多變換函數(shù)之一。pyspark.sql.functions 里提供了相當(dāng)多的變換函數(shù)佩谷，可以在文檔里查到旁壮。這些變換函數(shù)結(jié)合加減乘除這些運(yùn)算监嗜，基本上可以做完成任何變換了。實(shí)在搞不定的抡谐，可以用我們后面講的 UDF（用戶自定義函數(shù)）裁奇。第三點(diǎn)是用到了 alias 函數(shù)，來(lái)為新變換出的字段命名麦撵，類似 SQL 語(yǔ)句中的 "as"刽肠。下圖是內(nèi)置函數(shù)文檔目錄：

內(nèi)置函數(shù)文檔目錄

上面這段代碼使用 withColumn 會(huì)更加簡(jiǎn)潔，withColumn 就是在一個(gè) DataFrame 的基礎(chǔ)上增加或替換一個(gè)字段：

import pyspark.sql.functions as F
df3 = df2.withColumn("abs_age", F.abs(df2.age))

然后有些字段變換成其他字段以后就沒(méi)用了免胃，可以 drop 掉它：

df4 = df.drop("name")
df5 = df.select("*", df.age+1).drop(df.age)

我們到哪了音五？我們還是在說(shuō) RDD 的 map 方法，可以用 DataFrame 的 select杜秸、withColumn放仗、alias、drop撬碟、加減乘除诞挨、pyspark.sql.functions 組合來(lái)替代∧馗颍看似是用很多東西才替代了 RDD 的 map惶傻，但是實(shí)際開(kāi)發(fā)的時(shí)候會(huì)很省事，省去了在 map 函數(shù)中每次都要把需要的字段逐一返回了其障，特別是有時(shí)候只是把某些字段在 pair 的 key 和 value 間移動(dòng)银室。后面還會(huì)看到，DataFrame 可以直接對(duì)任意字段做 groupBy励翼，而不用先移動(dòng)擺好 pair 的 key 和 value蜈敢。

如果你需要做的變換實(shí)在太復(fù)雜，無(wú)法用加減乘除和 pyspark.sql.functions 來(lái)搞定汽抚，那么 DataFrame 也支持自定義函數(shù)：udf抓狭。udf 本身是一個(gè)普通的內(nèi)置函數(shù)，可以用它來(lái)包裝普通的 python 函數(shù)造烁，生成 select 和 withColumn 支持的變換函數(shù)：

import pyspark.sql.functions as F
import pyspark.sql.types as T
def do_something(col1, col2, col3):
    return col1*col1 + col2 / col3
udf_dosth = F.udf(do_something, T.IntegerType())
df6 = df.select(df.name, udf_dosth(df.age, df.born_year, df.children_count))

好了否过，到此可以先松口氣，休息一下了惭蟋。filter 方法 DataFrame 直接支持苗桂，不需要尋找替代品：

df.filter(df['age'] > 21).show()
# +---+----+
# |age|name|
# +---+----+
# | 30|Andy|
# +---+----+

DataFrame 可以很方便地做 join、groupBy 等操作告组，就像在寫(xiě) SQL：

people = sqlContext.read.parquet("...")
department = sqlContext.read.parquet("...")

people.filter(people.age > 30).join(department, people.deptId == department.id) \
  .groupBy(department.name, "gender").agg({"salary": "avg", "age": "max"})

其實(shí)可以真的把 DataFrame 注冊(cè)成臨時(shí)表煤伟，然后真的寫(xiě) SQL：

df.createOrReplaceTempView("people")

sqlDF = spark.sql("SELECT * FROM people")
sqlDF.show()
# +----+-------+
# | age|   name|
# +----+-------+
# |null|Michael|
# |  30|   Andy|
# |  19| Justin|
# +----+-------+

agg 這個(gè)方法是用來(lái)對(duì) groupBy 之后的數(shù)據(jù)集做聚合操作的（對(duì)應(yīng) RDD 的 reduceByKey 方法）。它支持 avg、max持偏、min驼卖、sum氨肌、count 等操作鸿秆。但是這幾個(gè)操作在實(shí)際使用中是遠(yuǎn)遠(yuǎn)不夠用的，這時(shí)候我們還是需要自定義函數(shù)的怎囚。這種自定義函數(shù)叫做 UDAF( User Defined Aggregate Function)卿叽。UDAF 只在 Spark 的 scala 和 Java 中支持，pyspark并不支持恳守。在 Scala 中考婴，你需要重載 UserDefinedAggregateFunction 這個(gè)類即可。本文就不具體展示了催烘，留待我稍后一篇專門介紹 Scala Spark 的文章里細(xì)說(shuō)沥阱。

好了，本文就到這里伊群，有任何疑問(wèn)歡迎留言探討考杉。

DataFrame API 參考： http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame
pyspark.sql.functions 參考：
http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#module-pyspark.sql.functions

最后編輯于：2017.12.05 07:25:20

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市舰始，隨后出現(xiàn)的幾起案子崇棠，更是在濱河造成了極大的恐慌，老刑警劉巖丸卷，帶你破解...
沈念sama閱讀 218,755評(píng)論 6贊 507
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件枕稀，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡谜嫉，警方通過(guò)查閱死者的電腦和手機(jī)萎坷，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 93,305評(píng)論 3贊 395
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)沐兰，“玉大人哆档，你說(shuō)我怎么就攤上這事∩常” “怎么了虐呻？”我有些...
開(kāi)封第一講書(shū)人閱讀 165,138評(píng)論 0贊 355
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)寞秃。經(jīng)常有香客問(wèn)我斟叼，道長(zhǎng)，這世上最難降的妖魔是什么春寿？我笑而不...
開(kāi)封第一講書(shū)人閱讀 58,791評(píng)論 1贊 295
?港島之戀（遺憾婚禮）
正文為了忘掉前任朗涩，我火速辦了婚禮，結(jié)果婚禮上绑改，老公的妹妹穿的比我還像新娘谢床。我一直安慰自己兄一，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 67,794評(píng)論 6贊 392
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布识腿。她就那樣靜靜地躺著出革，像睡著了一般。火紅的嫁衣襯著肌膚如雪渡讼。梳的紋絲不亂的頭發(fā)上骂束，一...
開(kāi)封第一講書(shū)人閱讀 51,631評(píng)論 1贊 305
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音成箫，去河邊找鬼展箱。笑死，一個(gè)胖子當(dāng)著我的面吹牛蹬昌，可吹牛的內(nèi)容都是我干的混驰。我是一名探鬼主播，決...
沈念sama閱讀 40,362評(píng)論 3贊 418
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼皂贩，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼栖榨！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起先紫，我...
開(kāi)封第一講書(shū)人閱讀 39,264評(píng)論 0贊 276
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤治泥，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后遮精，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體居夹，經(jīng)...
沈念sama閱讀 45,724評(píng)論 1贊 315
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 37,900評(píng)論 3贊 336
?白月光啟示錄
正文我和宋清朗相戀三年本冲，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了准脂。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 40,040評(píng)論 1贊 350
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡檬洞，死狀恐怖狸膏，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情添怔，我是刑警寧澤湾戳，帶...
沈念sama閱讀 35,742評(píng)論 5贊 346
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站广料，受9級(jí)特大地震影響砾脑，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜艾杏，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 41,364評(píng)論 3贊 330
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一韧衣、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦畅铭、人聲如沸氏淑。這莊子的主人今日做“春日...
開(kāi)封第一講書(shū)人閱讀 31,944評(píng)論 0贊 22
一樁弒父案硕噩，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)假残。三九已至迅皇，卻和暖如春更胖，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書(shū)人閱讀 33,060評(píng)論 1贊 270
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工坑资，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人穆端。一個(gè)月前我還...
沈念sama閱讀 48,247評(píng)論 3贊 371
代替公主和親
正文我出身青樓袱贮，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親体啰。傳聞我的和親對(duì)象是個(gè)殘疾皇子攒巍，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 44,979評(píng)論 2贊 355

Spark DataFrame 開(kāi)發(fā)指南

推薦閱讀更多精彩內(nèi)容