Spark withColumn 陷阱

withColumn / withColumnRenamed 是 spark 中常用的 API抡秆,可以用于添加新字段 / 字段重命名 / 修改字段類型坊夫,但是當列的數(shù)量增加時逮壁,會出現(xiàn)嚴重的性能下降現(xiàn)象村斟,本文將分析該現(xiàn)象出現(xiàn)的原因以及該如何解決它奶陈。

背景

在日常工作中怯屉,有時候會有建奈狄ǎ或分析的同學問我,為什么用 withColumn / withColumnRenamed 會這么慢锨络,明明數(shù)據(jù)量也不大赌躺,應該怎么解決。初步分析會發(fā)現(xiàn)羡儿,出現(xiàn)這種情況的時往往伴隨著大量的列礼患,難道是 spark 處理不了大寬表的場景嗎?

現(xiàn)象及探究

對真實場景做了一個簡化掠归,下面是對一個10行的數(shù)據(jù)增加500列的一個操作缅叠,從代碼上看好像沒有什么問題,執(zhí)行一下拂到,卻發(fā)現(xiàn)耗時14秒痪署。

var df = spark.range(10).toDF()
for (i <- 1 to 500) {
    df = df.withColumn("id_" + i, col("id") + i)
}

同樣的邏輯使用 select 來實現(xiàn),只需要0.1秒兄旬。

var df = spark.range(10).toDF()
df = df.select((1 to 500).map { i =>
  (col("id") + i).as("id_" + i)
}: _*)

是什么導致了這么大差距狼犯,withColumn 時間花到哪去了?查看 withColumn 源碼领铐,每次執(zhí)行完返回一個新的 DataFrame悯森,好像也沒有什么問題 。

def withColumn(colName: String, col: Column): DataFrame = withColumns(Seq(colName), Seq(col))

private[spark] def withColumns(colNames: Seq[String], cols: Seq[Column]): DataFrame = {
  require(colNames.size == cols.size,
          s"The size of column names: ${colNames.size} isn't equal to " +
          s"the size of columns: ${cols.size}")
  SchemaUtils.checkColumnNameDuplication(
    colNames,
    "in given column names",
    sparkSession.sessionState.conf.caseSensitiveAnalysis)

  val resolver = sparkSession.sessionState.analyzer.resolver
  val output = queryExecution.analyzed.output

  val columnMap = colNames.zip(cols).toMap

  val replacedAndExistingColumns = output.map { field =>
    columnMap.find { case (colName, _) =>
      resolver(field.name, colName)
    } match {
      case Some((colName: String, col: Column)) => col.as(colName)
      case _ => Column(field)
    }
  }

  val newColumns = columnMap.filter { case (colName, col) =>
    !output.exists(f => resolver(f.name, colName))
  }.map { case (colName, col) => col.as(colName) }

  select(replacedAndExistingColumns ++ newColumns : _*)
}

使用 df.explain(true) 就能發(fā)現(xiàn)一些端倪绪撵,雖然他們最終生成的物理計劃是一致的瓢姻,但是邏輯計劃存在著巨大的差異,使用 withColumn 方式的邏輯計劃存在 500個 Project 音诈,而 select 只有1個幻碱。

再用 RuleExecutor 查看 catalyst analysis 的統(tǒng)計信息,會發(fā)現(xiàn) withColumn 中調(diào)用了 500 次 analyse细溅,情況逐漸開始明朗了褥傍。

import org.apache.spark.sql.catalyst.rules.RuleExecutor
var df = spark.range(10).toDF()
RuleExecutor.resetMetrics()
for (i <- 1 to 500) {
    df = df.withColumn("id_" + i, col("id") + i)
}
println(RuleExecutor.dumpTimeSpent())
withColumn 調(diào)用了500次 analyse

而使用 select 的方式只會調(diào)用一次


select 調(diào)用了1次 analyse

進一步做了一個迭代次數(shù)和時間的關系測試,發(fā)現(xiàn)耗時并不是隨著次數(shù)線性增長喇聊,這是因為每次迭代生成的邏輯計劃中會多增加一個 Project 恍风,因此下一次的 analyse 時間會比上一次要長。

次數(shù) analyse 耗時(s)
1 0.4
10 0.4
100 0.9
500 14
1000 65

總結

  1. 多次執(zhí)行 withColumn / withColumnRenamed 時,大部分時間都花費在 catalyse analyse 的反復調(diào)用上朋贬,且隨著迭代次數(shù)的增加凯楔,邏輯計劃的 Project 會增加,耗時會呈指數(shù)上升锦募。
  2. 完全可以使用 select 取代多次調(diào)用 withColumn / withColumnRenamed 的方式摆屯。
最后編輯于
?著作權歸作者所有,轉載或內(nèi)容合作請聯(lián)系作者
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市御滩,隨后出現(xiàn)的幾起案子鸥拧,更是在濱河造成了極大的恐慌党远,老刑警劉巖削解,帶你破解...
    沈念sama閱讀 211,290評論 6 491
  • 序言:濱河連續(xù)發(fā)生了三起死亡事件,死亡現(xiàn)場離奇詭異沟娱,居然都是意外死亡氛驮,警方通過查閱死者的電腦和手機,發(fā)現(xiàn)死者居然都...
    沈念sama閱讀 90,107評論 2 385
  • 文/潘曉璐 我一進店門济似,熙熙樓的掌柜王于貴愁眉苦臉地迎上來矫废,“玉大人,你說我怎么就攤上這事砰蠢”推耍” “怎么了?”我有些...
    開封第一講書人閱讀 156,872評論 0 347
  • 文/不壞的土叔 我叫張陵台舱,是天一觀的道長律杠。 經(jīng)常有香客問我,道長竞惋,這世上最難降的妖魔是什么柜去? 我笑而不...
    開封第一講書人閱讀 56,415評論 1 283
  • 正文 為了忘掉前任,我火速辦了婚禮拆宛,結果婚禮上嗓奢,老公的妹妹穿的比我還像新娘。我一直安慰自己浑厚,他們只是感情好股耽,可當我...
    茶點故事閱讀 65,453評論 6 385
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著钳幅,像睡著了一般物蝙。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發(fā)上贡这,一...
    開封第一講書人閱讀 49,784評論 1 290
  • 那天茬末,我揣著相機與錄音,去河邊找鬼。 笑死丽惭,一個胖子當著我的面吹牛击奶,可吹牛的內(nèi)容都是我干的。 我是一名探鬼主播责掏,決...
    沈念sama閱讀 38,927評論 3 406
  • 文/蒼蘭香墨 我猛地睜開眼柜砾,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了换衬?” 一聲冷哼從身側響起痰驱,我...
    開封第一講書人閱讀 37,691評論 0 266
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎瞳浦,沒想到半個月后担映,有當?shù)厝嗽跇淞掷锇l(fā)現(xiàn)了一具尸體,經(jīng)...
    沈念sama閱讀 44,137評論 1 303
  • 正文 獨居荒郊野嶺守林人離奇死亡叫潦,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內(nèi)容為張勛視角 年9月15日...
    茶點故事閱讀 36,472評論 2 326
  • 正文 我和宋清朗相戀三年蝇完,在試婚紗的時候發(fā)現(xiàn)自己被綠了。 大學時的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片矗蕊。...
    茶點故事閱讀 38,622評論 1 340
  • 序言:一個原本活蹦亂跳的男人離奇死亡短蜕,死狀恐怖,靈堂內(nèi)的尸體忽然破棺而出傻咖,到底是詐尸還是另有隱情朋魔,我是刑警寧澤,帶...
    沈念sama閱讀 34,289評論 4 329
  • 正文 年R本政府宣布卿操,位于F島的核電站警检,受9級特大地震影響,放射性物質(zhì)發(fā)生泄漏硬纤。R本人自食惡果不足惜解滓,卻給世界環(huán)境...
    茶點故事閱讀 39,887評論 3 312
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望筝家。 院中可真熱鬧洼裤,春花似錦、人聲如沸溪王。這莊子的主人今日做“春日...
    開封第一講書人閱讀 30,741評論 0 21
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽莹菱。三九已至移国,卻和暖如春,著一層夾襖步出監(jiān)牢的瞬間道伟,已是汗流浹背迹缀。 一陣腳步聲響...
    開封第一講書人閱讀 31,977評論 1 265
  • 我被黑心中介騙來泰國打工使碾, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 46,316評論 2 360
  • 正文 我出身青樓,卻偏偏與公主長得像架诞,于是被迫代替她去往敵國和親匠抗。 傳聞我的和親對象是個殘疾皇子耸采,可洞房花燭夜當晚...
    茶點故事閱讀 43,490評論 2 348

推薦閱讀更多精彩內(nèi)容