(轉(zhuǎn))Spark DataFrame 開發(fā)指南

DataFrame 是 Spark 在 RDD 之后新推出的一個(gè)數(shù)據(jù)集扫茅,從屬于 Spark SQL 模塊于微,適用于結(jié)構(gòu)化數(shù)據(jù)逗嫡。對于我們這些用慣了數(shù)據(jù)庫表和散列/字典結(jié)構(gòu)的人來說青自,尤為親切。

可以直接讀取關(guān)系型數(shù)據(jù)庫產(chǎn)生 DataFrame:

frompyspark.sqlimportSparkSessionspark = SparkSession \? ? ? ? .builder \? ? ? ? .appName("myapp") \? ? ? ? .config("spark.sql.shuffle.partitions",10) \? ? ? ? .getOrCreate()table ="(select * from users where province='jiangxi') as myusers"df = spark.read \? ? ? ? ? ? ? ? .format("jdbc") \? ? ? ? ? ? ? ? .option("driver","com.mysql.jdbc.Driver") \? ? ? ? ? ? ? ? .option("url","jdbc:mysql://"+dbhost+"/"+dbname) \? ? ? ? ? ? ? ? .option("dbtable", table) \? ? ? ? ? ? ? ? .option("user", dbuser) \? ? ? ? ? ? ? ? .option("password", dbpass) \? ? ? ? ? ? ? ? .option("partitionColumn", partitionColumn) \? ? ? ? ? ? ? ? .option("lowerBound", lowerBound) \? ? ? ? ? ? ? ? .option("upperBound", upperBound) \? ? ? ? ? ? ? ? .option("numPartitions","4") \? ? ? ? ? ? ? ? .load()

幾個(gè)選項(xiàng)說明一下:

url - 數(shù)據(jù)庫的 JDBC 連接串

dbtable - 可以是表名驱证,也可以是一個(gè)子查詢延窜。如果是子查詢的話,必須用括號括起來抹锄,并加別名逆瑞,參見上面代碼示例。

user - 數(shù)據(jù)庫用戶名

password - 數(shù)據(jù)庫密碼

partitionColumn - 用于并發(fā)分區(qū)的表字段伙单。下面幾個(gè)選項(xiàng)都是圍繞這個(gè)字段來的获高。Spark 會(huì)根據(jù)分區(qū)數(shù)量按這個(gè)字段的上下限把取出來的數(shù)據(jù)等分成幾份,并行處理车份。

lowerBound - 字段下限

upperBound - 字段上限

numPartitions - 分區(qū)數(shù)量

得到的 DataFrame谋减,可以通過字段名來引用列或者某行的值牡彻,如:

username = df.nameage = df["age"]

而不像以前用 RDD扫沼,老是 split 成元組,然后 0庄吼、1缎除、2、3... 地引用总寻,很容易搞錯(cuò)位置器罐。

調(diào)用 show 方法可以查看 DataFrame 里的數(shù)據(jù):

df.show()

如果數(shù)據(jù)當(dāng)中有中文的話,show 方法會(huì)報(bào)編碼錯(cuò)誤渐行,需要提前設(shè)置一下環(huán)境變量:

export PYTHONIOENCODING=utf8

然后轰坊,就可以像 RDD 一樣,進(jìn)行各種數(shù)據(jù)變化祟印、聚合操作了肴沫。不過遍查文檔,你也找不到 DataFrame 的 map 方法蕴忆,你需要用 select 和 withColumn 這兩個(gè)方法來替代颤芬。其實(shí)回想 DataFrame 在 Saprk SQL 這個(gè)模塊里,所以它的很多行為都會(huì)非常像關(guān)系數(shù)據(jù)庫的 SQL 查詢套鹅。

可以把每個(gè) DataFrame 都想象成一個(gè)臨時(shí)表站蝠,select 方法,就是從這個(gè)表里選擇出一些字段卓鹿,做一點(diǎn)變換菱魔,變成另外一個(gè) DataFrame(另外一個(gè)臨時(shí)表):

df2 = df.select(df['name'], df['age'] +1)df2.show()# +-------+---------+# |? name|(age + 1)|# +-------+---------+# |Michael|? ? null|# |? Andy|? ? ? 31|# | Justin|? ? ? 20|# +-------+---------+

在實(shí)際使用中,我們經(jīng)常會(huì)在某個(gè) DataFrame 基礎(chǔ)上加上一個(gè)變換后的字段吟孙,如果用 select 來寫豌习,就是這樣:

importpyspark.sql.functionsasFdf3 = df2.select("*", F.abs(df2.age).alias("abs_age"))

這里有三個(gè)新知識點(diǎn):一個(gè)是在 select 中使用 "*"存谎,這樣可以避免我們把 df2 的所有字段重新敲一遍。然后我們新增了一個(gè)字段肥隆,是 age 的絕對值既荚。我們這里用到了 abs 函數(shù),它來自 pyspark.sql.functions栋艳,是 spark 內(nèi)置的眾多變換函數(shù)之一恰聘。pyspark.sql.functions 里提供了相當(dāng)多的變換函數(shù),可以在文檔里查到吸占。這些變換函數(shù)結(jié)合加減乘除這些運(yùn)算晴叨,基本上可以做完成任何變換了。實(shí)在搞不定的矾屯,可以用我們后面講的 UDF(用戶自定義函數(shù))兼蕊。第三點(diǎn)是用到了 alias 函數(shù),來為新變換出的字段命名件蚕,類似 SQL 語句中的 "as"孙技。下圖是內(nèi)置函數(shù)文檔目錄:

內(nèi)置函數(shù)文檔目錄

上面這段代碼使用 withColumn 會(huì)更加簡潔,withColumn 就是在一個(gè) DataFrame 的基礎(chǔ)上增加或替換一個(gè)字段:

importpyspark.sql.functionsasFdf3 = df2.withColumn("abs_age", F.abs(df2.age))

然后有些字段變換成其他字段以后就沒用了排作,可以 drop 掉它:

df4 = df.drop("name")df5 = df.select("*", df.age+1).drop(df.age)

我們到哪了牵啦?我們還是在說 RDD 的 map 方法,可以用 DataFrame 的 select妄痪、withColumn哈雏、alias、drop衫生、加減乘除裳瘪、pyspark.sql.functions 組合來替代∽镎耄看似是用很多東西才替代了 RDD 的 map彭羹,但是實(shí)際開發(fā)的時(shí)候會(huì)很省事,省去了在 map 函數(shù)中每次都要把需要的字段逐一返回了站故,特別是有時(shí)候只是把某些字段在 pair 的 key 和 value 間移動(dòng)皆怕。后面還會(huì)看到,DataFrame 可以直接對任意字段做 groupBy西篓,而不用先移動(dòng)擺好 pair 的 key 和 value愈腾。

如果你需要做的變換實(shí)在太復(fù)雜,無法用加減乘除和 pyspark.sql.functions 來搞定岂津,那么 DataFrame 也支持自定義函數(shù):udf虱黄。udf 本身是一個(gè)普通的內(nèi)置函數(shù),可以用它來包裝普通的 python 函數(shù)吮成,生成 select 和 withColumn 支持的變換函數(shù):

importpyspark.sql.functionsasFimportpyspark.sql.typesasTdefdo_something(col1, col2, col3):returncol1*col1 + col2 / col3udf_dosth = F.udf(do_something, T.IntegerType())df6 = df.select(df.name, udf_dosth(df.age, df.born_year, df.children_count))

好了橱乱,到此可以先松口氣辜梳,休息一下了。filter 方法 DataFrame 直接支持泳叠,不需要尋找替代品:

df.filter(df['age'] >21).show()# +---+----+# |age|name|# +---+----+# | 30|Andy|# +---+----+

DataFrame 可以很方便地做 join作瞄、groupBy 等操作,就像在寫 SQL:

people = sqlContext.read.parquet("...")department = sqlContext.read.parquet("...")people.filter(people.age >30).join(department, people.deptId == department.id) \? .groupBy(department.name,"gender").agg({"salary":"avg","age":"max"})

其實(shí)可以真的把 DataFrame 注冊成臨時(shí)表危纫,然后真的寫 SQL:

df.createOrReplaceTempView("people")sqlDF = spark.sql("SELECT * FROM people")sqlDF.show()# +----+-------+# | age|? name|# +----+-------+# |null|Michael|# |? 30|? Andy|# |? 19| Justin|# +----+-------+

agg 這個(gè)方法是用來對 groupBy 之后的數(shù)據(jù)集做聚合操作的(對應(yīng) RDD 的 reduceByKey 方法)宗挥。它支持 avg、max种蝶、min契耿、sum、count 等操作搪桂。但是這幾個(gè)操作在實(shí)際使用中是遠(yuǎn)遠(yuǎn)不夠用的,這時(shí)候我們還是需要自定義函數(shù)的盯滚。這種自定義函數(shù)叫做 UDAF( User Defined Aggregate Function)踢械。UDAF 只在 Spark 的 scala 和 Java 中支持顾瞻,pyspark并不支持会油。在 Scala 中翻翩,你需要重載 UserDefinedAggregateFunction 這個(gè)類即可。本文就不具體展示了稻薇,留待我稍后一篇專門介紹 Scala Spark 的文章里細(xì)說嫂冻。

DataFrame API 參考:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#pyspark.sql.DataFrame

pyspark.sql.functions 參考:

http://spark.apache.org/docs/latest/api/python/pyspark.sql.html#module-pyspark.sql.functions

作者:許倫

鏈接:http://www.reibang.com/p/b1398f9f5a06

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個(gè)濱河市塞椎,隨后出現(xiàn)的幾起案子桨仿,更是在濱河造成了極大的恐慌,老刑警劉巖案狠,帶你破解...
    沈念sama閱讀 219,490評論 6 508
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件梭伐,死亡現(xiàn)場離奇詭異介汹,居然都是意外死亡棠耕,警方通過查閱死者的電腦和手機(jī),發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 93,581評論 3 395
  • 文/潘曉璐 我一進(jìn)店門罩抗,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人灿椅,你說我怎么就攤上這事澄暮。” “怎么了阱扬?”我有些...
    開封第一講書人閱讀 165,830評論 0 356
  • 文/不壞的土叔 我叫張陵泣懊,是天一觀的道長。 經(jīng)常有香客問我麻惶,道長馍刮,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 58,957評論 1 295
  • 正文 為了忘掉前任窃蹋,我火速辦了婚禮卡啰,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘警没。我一直安慰自己匈辱,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 67,974評論 6 393
  • 文/花漫 我一把揭開白布杀迹。 她就那樣靜靜地躺著亡脸,像睡著了一般。 火紅的嫁衣襯著肌膚如雪树酪。 梳的紋絲不亂的頭發(fā)上浅碾,一...
    開封第一講書人閱讀 51,754評論 1 307
  • 那天,我揣著相機(jī)與錄音续语,去河邊找鬼垂谢。 笑死,一個(gè)胖子當(dāng)著我的面吹牛疮茄,可吹牛的內(nèi)容都是我干的滥朱。 我是一名探鬼主播,決...
    沈念sama閱讀 40,464評論 3 420
  • 文/蒼蘭香墨 我猛地睜開眼力试,長吁一口氣:“原來是場噩夢啊……” “哼徙邻!你這毒婦竟也來了?” 一聲冷哼從身側(cè)響起懂版,我...
    開封第一講書人閱讀 39,357評論 0 276
  • 序言:老撾萬榮一對情侶失蹤鹃栽,失蹤者是張志新(化名)和其女友劉穎,沒想到半個(gè)月后,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體民鼓,經(jīng)...
    沈念sama閱讀 45,847評論 1 317
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡薇芝,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 37,995評論 3 338
  • 正文 我和宋清朗相戀三年,在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了丰嘉。 大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片夯到。...
    茶點(diǎn)故事閱讀 40,137評論 1 351
  • 序言:一個(gè)原本活蹦亂跳的男人離奇死亡,死狀恐怖饮亏,靈堂內(nèi)的尸體忽然破棺而出耍贾,到底是詐尸還是另有隱情,我是刑警寧澤路幸,帶...
    沈念sama閱讀 35,819評論 5 346
  • 正文 年R本政府宣布荐开,位于F島的核電站,受9級特大地震影響简肴,放射性物質(zhì)發(fā)生泄漏晃听。R本人自食惡果不足惜,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,482評論 3 331
  • 文/蒙蒙 一砰识、第九天 我趴在偏房一處隱蔽的房頂上張望能扒。 院中可真熱鬧,春花似錦辫狼、人聲如沸初斑。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,023評論 0 22
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽见秤。三九已至,卻和暖如春灵迫,著一層夾襖步出監(jiān)牢的瞬間秦叛,已是汗流浹背晦溪。 一陣腳步聲響...
    開封第一講書人閱讀 33,149評論 1 272
  • 我被黑心中介騙來泰國打工瀑粥, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人三圆。 一個(gè)月前我還...
    沈念sama閱讀 48,409評論 3 373
  • 正文 我出身青樓狞换,卻偏偏與公主長得像,于是被迫代替她去往敵國和親舟肉。 傳聞我的和親對象是個(gè)殘疾皇子修噪,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,086評論 2 355

推薦閱讀更多精彩內(nèi)容