pyspark實(shí)現(xiàn)連續(xù)數(shù)據(jù)分桶并映射到自定義標(biāo)簽(類似panda.cut功能)

本篇要解決的問題:利用pyspark已有的API實(shí)現(xiàn)pandas.cut的功能克滴。
選擇的工具是:分桶工具Bucketizer

示例代碼

調(diào)試過程

  • 定義數(shù)據(jù)集
>>> splits = [float("-inf"),10000.0,20000.0,30000.0,float('inf')]
>>> labels = [ "(-inf,10000)","[10000,20000)","[20000,30000)","[30000,inf)"]
>>> df = sc.parallelize([(1,4000),(2,12000),(3,13500),(4,21000),(5,31000)]).toDF(['id','sale'])
>>> df.show()
+---+-----+
| id| sale|
+---+-----+
|  1| 4000|
|  2|12000|
|  3|13500|
|  4|21000|
|  5|31000|
+---+-----+
  • 分桶
>>> from pyspark.ml.feature import Bucketizer
>>> from pyspark.sql.functions import array, col, lit
>>> bucketizer = Bucketizer(splits=splits, inputCol='sale',outputCol='split')
>>> with_split = bucketizer.transform(df)
>>> with_split.show()
+---+-----+-----+
| id| sale|split|
+---+-----+-----+
|  1| 4000|  0.0|
|  2|12000|  1.0|
|  3|13500|  1.0|
|  4|21000|  2.0|
|  5|31000|  3.0|
+---+-----+-----+
  • 顯示分桶后標(biāo)簽

    • 方法一
    >>> label_array = array(*(lit(label) for label in labels))
    >>> print label_array
    Column<array((-inf,10000), [10000,20000), [20000,30000), [30000,inf))>
    >>> with_label = with_split.withColumn('label', label_array.getItem(col('split').cast('integer')))
    >>> with_label.show()
    +---+-----+-----+-------------+
    | id| sale|split|        label|
    +---+-----+-----+-------------+
    |  1| 4000|  0.0| (-inf,10000)|
    |  2|12000|  1.0|[10000,20000)|
    |  3|13500|  1.0|[10000,20000)|
    |  4|21000|  2.0|[20000,30000)|
    |  5|31000|  3.0|  [30000,inf)|
    +---+-----+-----+-------------+
    
    • 方法二:其實(shí)與方法一相同形帮,只不過改成了udf的方式二汛。
    >>> from pyspark.sql.functions import udf
    >>> from pyspark.sql.types import *
    >>> t = {0.0: "(-inf,10000)",1.0:"[10000,20000)",2.0:"[20000,30000)",3.0:"[30000,inf)"}
    >>> udf_foo = udf(lambda x: t[x], StringType())
    >>> with_split.withColumn("label",udf_foo("split")).show()
    +---+-----+-----+-------------+
    | id| sale|split|        label|
    +---+-----+-----+-------------+
    |  1| 4000|  0.0| (-inf,10000)|
    |  2|12000|  1.0|[10000,20000)|
    |  3|13500|  1.0|[10000,20000)|
    |  4|21000|  2.0|[20000,30000)|
    |  5|31000|  3.0|  [30000,inf)|
    +---+-----+-----+-------------+
    

整理成最終解決方案

將前面的過程最終整理成函數(shù)的形式

from pyspark.ml.feature import Bucketizer
from pyspark.sql.functions import array, col, lit

def cut(df,splits,inputCol,outputCol='cut',labels=[]):
    if len(splits) < 2:
        raise RuntimeError("splits's length must grater then 2.")
    
    if len(labels) != len(splits) -1:
        labels = []
        begin = str(splits[0])
        for i in range(1,len(splits)):
            end = str(splits[i])
            labels.append("[%s,%s)" % (begin,end))
            begin = end
    
    bucketizer = Bucketizer(splits=splits, inputCol=inputCol,outputCol='split')
    with_split = bucketizer.transform(df)
    label_array = array(*(lit(label) for label in labels))
    with_label = with_split.withColumn(outputCol, label_array.getItem(col('split').cast('integer')))
    return with_label

df = sc.parallelize([(1,4000),(2,12000),(3,13500),(4,21000),(5,31000)]).toDF(['id','sale'])
splits = [float("-inf"),10000.0,20000.0,30000.0,float('inf')]

dfr=cut(df,splits,inputCol='sale')
dfr.show()

輸出結(jié)果如下:

+---+-----+-----+-----------------+
| id| sale|split|              cut|
+---+-----+-----+-----------------+
|  1| 4000|  0.0|   [-inf,10000.0)|
|  2|12000|  1.0|[10000.0,20000.0)|
|  3|13500|  1.0|[10000.0,20000.0)|
|  4|21000|  2.0|[20000.0,30000.0)|
|  5|31000|  3.0|    [30000.0,inf)|
+---+-----+-----+-----------------+

Bucketizer知識點(diǎn)補(bǔ)充說明

Bucketizer的作用是將連續(xù)值映射到離散的桶中,分桶規(guī)則是左閉右開

  • 下面的示例測試了分桶的邊界取值邏輯
>>> df1 = sc.parallelize([(1,4000),(2,10000),(3,13500),(4,20000),(5,31000)]).toDF(['id','sale'])
>>> with_split1 = bucketizer.transform(df1)
>>> with_split1.show()
+---+-----+-----+
| id| sale|split|
+---+-----+-----+
|  1| 4000|  0.0|
|  2|10000|  1.0|
|  3|13500|  1.0|
|  4|20000|  2.0|
|  5|31000|  3.0|
+---+-----+-----+

>>> with_split1.withColumn('label', label_array.getItem(col('split').cast('integer'))).show()
+---+-----+-----+-------------+
| id| sale|split|        label|
+---+-----+-----+-------------+
|  1| 4000|  0.0| (-inf,10000)|
|  2|10000|  1.0|[10000,20000)|
|  3|13500|  1.0|[10000,20000)|
|  4|20000|  2.0|[20000,30000)|
|  5|31000|  3.0|  [30000,inf)|
+---+-----+-----+-------------+

參考資料

https://stackoverflow.com/questions/39655880/how-to-divide-a-numerical-columns-in-ranges-and-assign-labels-for-each-range-in
https://stackoverflow.com/questions/46225587/how-to-bin-in-pyspark

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現(xiàn)的幾起案子境蜕,更是在濱河造成了極大的恐慌,老刑警劉巖凌停,帶你破解...
    沈念sama閱讀 221,820評論 6 515
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件粱年,死亡現(xiàn)場離奇詭異,居然都是意外死亡罚拟,警方通過查閱死者的電腦和手機(jī)台诗,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 94,648評論 3 399
  • 文/潘曉璐 我一進(jìn)店門完箩,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人拉队,你說我怎么就攤上這事弊知。” “怎么了粱快?”我有些...
    開封第一講書人閱讀 168,324評論 0 360
  • 文/不壞的土叔 我叫張陵秩彤,是天一觀的道長。 經(jīng)常有香客問我事哭,道長漫雷,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 59,714評論 1 297
  • 正文 為了忘掉前任鳍咱,我火速辦了婚禮降盹,結(jié)果婚禮上,老公的妹妹穿的比我還像新娘谤辜。我一直安慰自己蓄坏,他們只是感情好,可當(dāng)我...
    茶點(diǎn)故事閱讀 68,724評論 6 397
  • 文/花漫 我一把揭開白布每辟。 她就那樣靜靜地躺著剑辫,像睡著了一般干旧。 火紅的嫁衣襯著肌膚如雪渠欺。 梳的紋絲不亂的頭發(fā)上,一...
    開封第一講書人閱讀 52,328評論 1 310
  • 那天椎眯,我揣著相機(jī)與錄音挠将,去河邊找鬼。 笑死编整,一個胖子當(dāng)著我的面吹牛舔稀,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播掌测,決...
    沈念sama閱讀 40,897評論 3 421
  • 文/蒼蘭香墨 我猛地睜開眼内贮,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了汞斧?” 一聲冷哼從身側(cè)響起夜郁,我...
    開封第一講書人閱讀 39,804評論 0 276
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎粘勒,沒想到半個月后竞端,有當(dāng)?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 46,345評論 1 318
  • 正文 獨(dú)居荒郊野嶺守林人離奇死亡庙睡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點(diǎn)故事閱讀 38,431評論 3 340
  • 正文 我和宋清朗相戀三年事富,在試婚紗的時候發(fā)現(xiàn)自己被綠了技俐。 大學(xué)時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
    茶點(diǎn)故事閱讀 40,561評論 1 352
  • 序言:一個原本活蹦亂跳的男人離奇死亡统台,死狀恐怖雕擂,靈堂內(nèi)的尸體忽然破棺而出,到底是詐尸還是另有隱情贱勃,我是刑警寧澤捂刺,帶...
    沈念sama閱讀 36,238評論 5 350
  • 正文 年R本政府宣布,位于F島的核電站募寨,受9級特大地震影響族展,放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜拔鹰,卻給世界環(huán)境...
    茶點(diǎn)故事閱讀 41,928評論 3 334
  • 文/蒙蒙 一仪缸、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧列肢,春花似錦恰画、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 32,417評論 0 24
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至欧聘,卻和暖如春片林,著一層夾襖步出監(jiān)牢的瞬間,已是汗流浹背怀骤。 一陣腳步聲響...
    開封第一講書人閱讀 33,528評論 1 272
  • 我被黑心中介騙來泰國打工费封, 沒想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留,地道東北人蒋伦。 一個月前我還...
    沈念sama閱讀 48,983評論 3 376
  • 正文 我出身青樓弓摘,卻偏偏與公主長得像,于是被迫代替她去往敵國和親痕届。 傳聞我的和親對象是個殘疾皇子韧献,可洞房花燭夜當(dāng)晚...
    茶點(diǎn)故事閱讀 45,573評論 2 359