什么是柯里化(Currying)旭等?
柯里化是以數(shù)學(xué)家航背、邏輯學(xué)家Haskell Brooks Curry的名字命名的溉委,與咖喱無(wú)關(guān)。編程語(yǔ)言Haskell也是以他的名字命名的矮嫉。
所謂柯里化茫因,是指將接受多個(gè)參數(shù)的函數(shù)的求值過(guò)程蚪拦,轉(zhuǎn)變?yōu)橐幌盗凶雍瘮?shù)的鏈?zhǔn)角笾颠^(guò)程的方法。這一系列子函數(shù)中冻押,每個(gè)子函數(shù)的參數(shù)列表都是原來(lái)參數(shù)列表的子集驰贷。并且除了最后一個(gè)子函數(shù)之外,其他子函數(shù)都會(huì)按序接受參數(shù)洛巢,而返回一個(gè)新的函數(shù)括袒。
簡(jiǎn)單來(lái)講,如果在集合X稿茉、Y锹锰、Z上定義函數(shù)f: (X × Y) → Z,那么將f柯里化漓库,會(huì)構(gòu)造出新函數(shù)f': X → (Y → Z)恃慧。也就是說(shuō),函數(shù)f'接受X中的參數(shù)渺蒿,然后返回一個(gè)由Y映射到Z的函數(shù)痢士,進(jìn)而從該函數(shù)得到結(jié)果。這可以表示為f'(x)(y)=f(x, y)蘸嘶。與這個(gè)過(guò)程相反的過(guò)程就叫反柯里化(Uncurrying)良瞧。
用Java來(lái)舉個(gè)例子陪汽,假設(shè)有一個(gè)將兩數(shù)相加的方法:
int add(int x, int y) {
return x + y;
}
將其柯里化之后训唱,就是這樣的:
Function<Integer, Function<Integer, Integer>> add() {
return x -> y -> x + y;
}
如果用Scala的話,看起來(lái)更加簡(jiǎn)潔一些:
def add(x: Int)(y: Int): Int = {
x + y
}
它實(shí)際上是以下這種形式的簡(jiǎn)寫:
def add(x: Int): (Int => Int) = {
(y: Int) => {
x + y
}
}
所以挚冤,我們也可以簡(jiǎn)單地認(rèn)為况增,函數(shù)柯里化之后相當(dāng)于將其原來(lái)的參數(shù)列表分拆成了多個(gè)參數(shù)列表進(jìn)行調(diào)用,因此Scala官方文檔中也將其稱為“multiple parameter lists”训挡。
看了上面的例子之后澳骤,我們可能都會(huì)感覺(jué)柯里化沒(méi)什么卵用歧强,“只是塊語(yǔ)法糖而已嘛”。但它在像Scala這樣推崇函數(shù)式編程的語(yǔ)言中確實(shí)有奇效为肮。例如在Scala內(nèi)部的SeqLike特征中摊册,有個(gè)corresponds()方法:
def corresponds[B](that: GenSeq[B])(p: (A,B) => Boolean): Boolean = {
val i = this.iterator
val j = that.iterator
while (i.hasNext && j.hasNext)
if (!p(i.next(), j.next()))
return false
!i.hasNext && !j.hasNext
}
它按照一定條件來(lái)比較兩個(gè)序列的對(duì)應(yīng)性,并返回true或false颊艳。它接受兩個(gè)分開(kāi)的參數(shù):要比較的另一個(gè)序列that茅特、比較條件p,其中p又是一個(gè)函數(shù)棋枕,這就是典型的柯里化白修。
舉個(gè)栗子,如果我們有多個(gè)字符串組成的序列(即Seq[String]
)a和b重斑,那么我們要比較a內(nèi)的每個(gè)字符串在不區(qū)分大小寫的情況下是否與b內(nèi)的字符串相等兵睛,就可以這樣寫,非常簡(jiǎn)單:
a.corresponds(b)(_.equalsIgnoreCase(_))
在Spark的源碼中也廣泛運(yùn)用了函數(shù)柯里化窥浪。如Spark Core系列文章中的代碼#4.1祖很,即SparkContext.parallelize()方法中,withScope出現(xiàn)的地方就有點(diǎn)詭異:
def parallelize[T: ClassTag](
seq: Seq[T],
numSlices: Int = defaultParallelism): RDD[T] = withScope {
assertNotStopped()
new ParallelCollectionRDD[T](this, seq, numSlices, Map[Int, Seq[String]]())
}
實(shí)際上withScope()是個(gè)方法漾脂,因?yàn)樗唤邮芤粋€(gè)參數(shù)突琳,所以圓括號(hào)直接用花括號(hào)代替了,這在Scala中是允許的符相。其最終實(shí)現(xiàn)位于RDDOperationScope.withScope()方法中:
private[spark] def withScope[T](
sc: SparkContext,
name: String,
allowNesting: Boolean,
ignoreParent: Boolean)(body: => T): T = {
// Save the old scope to restore it later
val scopeKey = SparkContext.RDD_SCOPE_KEY
val noOverrideKey = SparkContext.RDD_SCOPE_NO_OVERRIDE_KEY
val oldScopeJson = sc.getLocalProperty(scopeKey)
val oldScope = Option(oldScopeJson).map(RDDOperationScope.fromJson)
val oldNoOverride = sc.getLocalProperty(noOverrideKey)
try {
if (ignoreParent) {
// Ignore all parent settings and scopes and start afresh with our own root scope
sc.setLocalProperty(scopeKey, new RDDOperationScope(name).toJson)
} else if (sc.getLocalProperty(noOverrideKey) == null) {
// Otherwise, set the scope only if the higher level caller allows us to do so
sc.setLocalProperty(scopeKey, new RDDOperationScope(name, oldScope).toJson)
}
// Optionally disallow the child body to override our scope
if (!allowNesting) {
sc.setLocalProperty(noOverrideKey, "true")
}
body
} finally {
// Remember to restore any state that was modified before exiting
sc.setLocalProperty(scopeKey, oldScopeJson)
sc.setLocalProperty(noOverrideKey, oldNoOverride)
}
}
這個(gè)方法能夠保證執(zhí)行函數(shù)體body時(shí)拆融,在body內(nèi)部生成的所有RDD都位于同一個(gè)操作域內(nèi)。它是我們?cè)赟park Web UI展示的DAG圖中能夠看到RDD之間轉(zhuǎn)化關(guān)系的基礎(chǔ)啊终。
總的來(lái)說(shuō)镜豹,柯里化的意義主要有三點(diǎn):
- 參數(shù)復(fù)用
- 復(fù)雜邏輯分拆
- 延遲執(zhí)行
嘛,就這樣蓝牲。晚安趟脂。