pyspark--RDD基本操作

spark中的RDD是一個(gè)核心概念，RDD是一種彈性分布式數(shù)據(jù)集捌木，spark計(jì)算操作都是基于RDD進(jìn)行的，本文介紹RDD的基本操作免钻。

Spark 初始化

Spark初始化主要是要?jiǎng)?chuàng)建一個(gè)SprakContext實(shí)例，該實(shí)例表示與spark集群的連接》锔玻可以通過多種方式創(chuàng)建。

SparkContext

直接使用SparkContext類創(chuàng)建一個(gè)spark上下文盯桦，主要參數(shù)是指定master和appName。

from pyspark import SparkContext
sc = SprakContext(master = 'local[*]',appName='test')

SprakContext的屬性

# spark版本
sc.version
'2.4.5'

# python版本
sc.pythonVer
'3.7'

# master地址
sc.master
'local[*]'

# 應(yīng)用名字
sc.appName
'test'

# 應(yīng)用id
sc.applicationId
'local-1596522649115'

SparkConf

還可以通過調(diào)用SparkConf配置類來生成spark上下文贴膘。

from pyspark import SparkConf, SprakContext
conf = SparkConf().setMaster('local').setAppName('test')
sc = SparkContext(conf=conf)

創(chuàng)建RDD

RDD是spark中的主要數(shù)據(jù)格式略号，名稱為彈性分布式數(shù)據(jù)集刑峡，可以序列化python對(duì)象來得到RDD玄柠，或者讀取文件。

序列化

# parallelize方法序列化python對(duì)象為RDD
rdd = sc.parallelize([('a', 7), ('a', 2), ('b', 2)])
rdd1 = sc.parallelize([2,5,1,8])
rdd2 = sc.parallelize([('a', 2), ('d', 1), ('b', 1)])
rdd3 = sc.parallelize(range(100))
rdd4 = sc.parallelize([('a', ['x', 'y', 'z']), ('b', ['p', 'r'])])

讀取文件

# 讀取本地json文件羽利，返回RDD
text_file = sc.textFile("e:/a.json")

獲取RDD信息

基本信息

# 獲取rdd的分區(qū)數(shù)
rdd.getNumPartitions()
12

# 獲取rdd的key
rdd.keys().collect()
['a', 'a', 'b']

# 獲取rdd的value
rdd.values().collect()
[7, 2, 2]

# 判斷rdd是否為空
rdd.isEmpty()
False

sc.parallelize([]).isEmpty()
True

統(tǒng)計(jì)信息

統(tǒng)計(jì)信息包含了基本的統(tǒng)計(jì)計(jì)算值，如最大值娃闲、最小值、平均數(shù)皇帮、描述統(tǒng)計(jì)等。

# 求和
rdd3.sum()
4950

# 最大值
rdd3.max()
99

# 最小值
rdd3.min()
0

# 均值
rdd3.mean()
49.5

# 標(biāo)準(zhǔn)差
rdd3.stdev()
28.86607004772212

# 方差
rdd3.variance()
833.25

# 分區(qū)間計(jì)數(shù)
rdd3.histogram(3)
([0, 33, 66, 99], [33, 33, 34])

# 描述統(tǒng)計(jì)
rdd3.stats()
(count: 100, mean: 49.5, stdev: 28.86607004772212, max: 99.0, min: 0.0)

處理RDD

切片/collect

# 獲取rdd里的所有元素玲献，返回list
rdd.collect()
[('a', 7), ('a', 2), ('b', 2)]

# 獲取rdd里的元素，返回字典
rdd.collectAsMap()
{'a': 2, 'd': 1, 'b': 1}

# 獲取開始的2個(gè)元素
rdd.take(2)
[('a', 7), ('a', 2)]

# 獲取第一個(gè)位置的元素
rdd.first()
('a', 7)

# 獲取降序排序的前3個(gè)元素
rdd3.top(3)
[99, 98, 97]

計(jì)數(shù)/count

# 統(tǒng)計(jì)rdd里的元素個(gè)數(shù)
rdd.count()
3

# 按key統(tǒng)計(jì)rdd里的元素個(gè)數(shù)
rdd.countByKey()
defaultdict(<class 'int'>, {'a': 2, 'b': 1})

# 按value統(tǒng)計(jì)rdd里的元素個(gè)數(shù)
rdd.countByValue()
defaultdict(<class 'int'>, {('a', 7): 1, ('a', 2): 1, ('b', 2): 1})

重采樣/sample

# 對(duì)rdd進(jìn)行重采樣
rdd3.sample(False,0.1,81).collect()
[4, 27, 28, 41, 49, 53, 58, 85, 93]

過濾/filter

# 根據(jù)key過濾
rdd.filter(lambda x:'a' in x).collect()
[('a', 7), ('a', 2)]

去重/distinct

# 對(duì)rdd元素去重
rdd5.distinct().collect()
['a', 7, 2, 'b']

排序/sortBy

# 升序排序（默認(rèn)）
rdd1.sortBy(lambda x:x).collect()
[1, 2, 5, 8]

# 降序排序
rdd1.sortBy(lambda x:x,ascending=False).collect()
[8, 5, 2, 1]

# 對(duì)鍵值對(duì)rdd按照key排序
rdd2.sortByKey().collect()
[('a', 2), ('b', 1), ('d', 1)]

映射/map

# map方法對(duì)每個(gè)元素應(yīng)用函數(shù)
rdd.map(lambda x: x+(x[0],x[1])).collect()
[('a', 7, 'a', 7), ('a', 2, 'a', 2), ('b', 2, 'b', 2)]

# flatMap方法瓢娜，返回的結(jié)果會(huì)扁平化
rdd5 = rdd.flatMap(lambda x: x+(x[0],x[1]))
rdd5.collect()
['a', 7, 'a', 7, 'a', 2, 'a', 2, 'b', 2, 'b', 2]

# flatMapValues方法
rdd4.flatMapValues(lambda x:x).collect()
[('a', 'x'), ('a', 'y'), ('a', 'z'), ('b', 'p'), ('b', 'r')]

迭代/foreach

def g(x):print(x)
# foreach方法對(duì)所有元素應(yīng)用函數(shù)
rdd.foreach(x)
('a', 7)
('a', 2)
('b', 2)

簡(jiǎn)化/reduce

# reduce方法對(duì)rdd進(jìn)行合并
rdd.reduce(lambda x,y:x+y)
('a', 7, 'a', 2, 'b', 2)

# reduceByKey方法根據(jù)key對(duì)value進(jìn)行合并
rdd.reduceByKey(lambda v1,v2:v1+v2).collect()
[('a', 9), ('b', 2)]

分組/groupBy

# groupBy方法對(duì)rdd的元素分組
rdd1.groupBy(lambda x:x%2).mapValues(list).collect()
[(0, [2, 8]), (1, [5, 1])]

# groupByKey方法對(duì)rdd的元素根據(jù)key分組
rdd.groupByKey().mapValues(list).collect()
[('a', [7, 2]), ('b', [2])]

聚合/aggregate

# 定義兩個(gè)聚合函數(shù)
seq_op=lambda x,y:(x[0]+y,x[1]+1)
comb_op=lambda x,y:(x[0]+y[0],x[1]+y[1])

# aggregate方法聚合rdd
rdd1.aggregate((0,0),seq_op,comb_op)
(16, 4)

# aggregateByKey方法根據(jù)key聚合rdd
rdd.aggregateByKey((0,0),seq_op,comb_op).collect()
[('a', (9, 2)), ('b', (2, 1))]

# fold方法聚合rdd
rdd1.fold(0,lambda x,y:x+y)
16

# foldByKey方法根據(jù)key聚合rdd
rdd.foldByKey(0,lambda x,y:x+y).collect()
[('a', 9), ('b', 2)]

合并/union

# 調(diào)用sc的union方法按順序合并多個(gè)rdd
sc.union([rdd,rdd2]).collect()
[('a', 7), ('a', 2), ('b', 2), ('a', 2), ('d', 1), ('b', 1)]

集合/intersection,union,subtract

# 兩個(gè)rdd的交集
rdd.intersection(rdd2).collect()
[('a', 2)]

# 兩個(gè)rdd的并集(包含重復(fù)元素)
rdd.union(rdd2).collect()
[('a', 7), ('a', 2), ('b', 2), ('a', 2), ('d', 1), ('b', 1)]

# rdd對(duì)rdd2的補(bǔ)集
rdd.subtract(rdd2).collect()
[('a', 7), ('b', 2)]

# 根據(jù)key求rdd2對(duì)rdd的補(bǔ)集)
rdd2.subtractByKey(rdd).collect()
[('d', 1)]

# 兩個(gè)rdd計(jì)算笛卡爾積
rdd1.cartesian(rdd1).collect()
[(2, 2), (2, 5), (2, 1), (2, 8), (5, 2), (5, 5), (5, 1), (5, 8), (1, 2), (1, 5), (1, 1), (1, 8), (8, 2), (8, 5), (8, 1), (8, 8)]

保存RDD

# 保存rdd到本地
rdd.saveAsTextFile('rdd.txt')

關(guān)閉spark

# 使用stop方法關(guān)閉spark context實(shí)例
sc.stop()

運(yùn)行

進(jìn)入spark安裝目錄下眠砾，通過sprak-submit命令運(yùn)行py文件托酸。

./bin/spark-submit example/src/main/python/pi.py

另外，本地開發(fā)励堡，可直接通過pyCharm運(yùn)行。

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者

人面猴
序言：七十年代末应结，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子鹅龄，更是在濱河造成了極大的恐慌，老刑警劉巖迎卤，帶你破解...
沈念sama閱讀 206,126評(píng)論 6贊 481
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件玷坠，死亡現(xiàn)場(chǎng)離奇詭異蜗搔，居然都是意外死亡侨糟，警方通過查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 88,254評(píng)論 2贊 382
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門秕重，熙熙樓的掌柜王于貴愁眉苦臉地迎上來不同，“玉大人，你說我怎么就攤上這事二拐。” “怎么了百新？”我有些...
開封第一講書人閱讀 152,445評(píng)論 0贊 341
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長饭望。經(jīng)常有香客問我，道長铅辞，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 55,185評(píng)論 1贊 278
?港島之戀（遺憾婚禮）
正文為了忘掉前任斟珊，我火速辦了婚禮，結(jié)果婚禮上囤踩，老公的妹妹穿的比我還像新娘。我一直安慰自己堵漱，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 64,178評(píng)論 5贊 371
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布寥粹。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪媚狰。梳的紋絲不亂的頭發(fā)上，一...
開封第一講書人閱讀 48,970評(píng)論 1贊 284
城市分裂傳說
那天崭孤，我揣著相機(jī)與錄音，去河邊找鬼辨宠。笑死，一個(gè)胖子當(dāng)著我的面吹牛嗤形，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播笔咽，決...
沈念sama閱讀 38,276評(píng)論 3贊 399
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場(chǎng)噩夢(mèng)啊……” “哼叶组！你這毒婦竟也來了？” 一聲冷哼從身側(cè)響起甩十，我...
開封第一講書人閱讀 36,927評(píng)論 0贊 259
萬榮殺人案實(shí)錄
序言：老撾萬榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎侣监，沒想到半個(gè)月后，有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體达吞，經(jīng)...
沈念sama閱讀 43,400評(píng)論 1贊 300
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡张弛，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 35,883評(píng)論 2贊 323
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了酪劫。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片吞鸭。...
茶點(diǎn)故事閱讀 37,997評(píng)論 1贊 333
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖覆糟，靈堂內(nèi)的尸體忽然破棺而出刻剥，到底是詐尸還是另有隱情，我是刑警寧澤滩字，帶...
沈念sama閱讀 33,646評(píng)論 4贊 322
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布造虏，位于F島的核電站，受9級(jí)特大地震影響麦箍，放射性物質(zhì)發(fā)生泄漏漓藕。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 39,213評(píng)論 3贊 307
男人毒藥：我在死后第九天來索命
文/蒙蒙一挟裂、第九天我趴在偏房一處隱蔽的房頂上張望享钞。院中可真熱鬧，春花似錦诀蓉、人聲如沸栗竖。這莊子的主人今日做“春日...
開封第一講書人閱讀 30,204評(píng)論 0贊 19
一樁弒父案渠啤，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽狐肢。三九已至，卻和暖如春份名，著一層夾襖步出監(jiān)牢的瞬間碟联，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 31,423評(píng)論 1贊 260
情欲美人皮
我被黑心中介騙來泰國打工同窘，沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留玄帕，地道東北人。一個(gè)月前我還...
沈念sama閱讀 45,423評(píng)論 2贊 352
代替公主和親
正文我出身青樓想邦，卻偏偏與公主長得像裤纹，于是被迫代替她去往敵國和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子丧没，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 42,722評(píng)論 2贊 345